Implementación de algoritmo en el Lenguaje R para extraer los datos de los Perfiles en Google Scholar utilizando la técnica web Scraping de Minería de datos

 

Authors
Murillo, Danny; Saavedra, Dalys
Format
Article
Status
publishedVersion
Description

Este articulo muestra diferentes pruebas realizadas para extraer datos de los perfiles y publicaciones de una afiliación en Google Scholar utilizando la técnica de Web Scrpaing de minería de texto no estructurada. El objetivo es medir la facilidad de extracción de estos datos con esta técnica, llegando a la implementación de un algoritmo en el lenguaje R para automatizar el proceso, estructurar los datos y disminuir el tiempo de scraping. Estas pruebas se hicieron a 15 Universidades con diferente cantidad de perfiles y publicaciones. La realización de este algoritmo permitirá la extracción de datos a cualquier afiliación, aunque todavía hay elementos que se pueden mejorar para que el algoritmo sea óptimo, pero hemos de concluir que según las pruebas realizadas el método de web scripting es funcional para poder extraer datos de un sitio web.
Este articulo muestra diferentes pruebas realizadas para extraer datos de los perfiles y publicaciones de una afiliación en Google Scholar utilizando la técnica de Web Scrpaing de minería de texto no estructurada. El objetivo es medir la facilidad de extracción de estos datos con esta técnica, llegando a la implementación de un algoritmo en el lenguaje R para automatizar el proceso, estructurar los datos y disminuir el tiempo de scraping. Estas pruebas se hicieron a 15 Universidades con diferente cantidad de perfiles y publicaciones. La realización de este algoritmo permitirá la extracción de datos a cualquier afiliación, aunque todavía hay elementos que se pueden mejorar para que el algoritmo sea óptimo, pero hemos de concluir que según las pruebas realizadas el método de web scripting es funcional para poder extraer datos de un sitio web.

Publication Year
2017
Language
spa
Topic
Minería de datos
Google Scholar
web Scraping
Lenguaje R
Minería de datos
Google Scholar
web Scraping
Lenguaje R
Repository
RI de Documento Digitales de Acceso Abierto de la UTP
Get full text
http://ridda2.utp.ac.pa/handle/123456789/3105
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/