Aportes desde el procesamiento de lenguaje natural para incrementar la escalabilidad en los estudios sobre tópicos de noticias digitales securitarias

Florencia Nathalia Piñeyrúa

Resumen


Este trabajo explora la aplicación de técnicas de procesamiento de lenguaje natural y web scraping para el estudio de contenido de noticias digitales a gran escala. Para ello, trabajamos con datos primarios construidos a partir de la técnica de web scraping utilizando como soporte empírico las noticias publicadas desde julio a septiembre 2019 en los portales Clarín, La Nación, Infobae, Página 12, Télam, Perfil, Crónica y Minuto Uno. En el procesamiento del corpus empleamos la técnica de procesamiento de lenguaje natural para la detección de tópicos con la implementación del método Latent Dirichlet Allocation (LDA). Los resultados muestran que los principales tópicos de la agenda mediática digital durante el contexto de las elecciones Primarias Abiertas Simultáneas y Obligatorias son las elecciones, los espectáculos, el deporte, la seguridad y la política exterior. El caso securitario es un tópico estable y relevante de la agenda mediática digital, aunque su prevalencia no aumenta durante el mes electoral. La conclusión principal es que la combinación de las técnicas web scraping y procesamiento de lenguaje natural pueden ser útiles para incrementar la escalabilidad (aumentar la captura de información y reducir los tiempos de selección y análisis de tópicos) en los estudios de contenido de noticias.

Palabras clave: tópicos, procesamiento de lenguaje natural, web scraping y noticias digitales.

Abstract: This paper explores the application of natural language processing and web scraping techniques for the study of large-scale digital news content. For this purpose, we work with primary data constructed from the web scraping technique using as empirical support the news published from July to September 2019 in the portals Clarín, La Nación, Infobae, Página 12, Télam, Perfil, Crónica and Minuto Uno. In the corpus processing we employed the natural language processing technique for topic detection with the implementation of the Latent Dirichlet Allocation (LDA) method. The results show that the main topics of the digital media agenda during the context of the Simultaneous and Mandatory Open Primary Elections are elections, entertainment, sports, security and foreign policy. The security case is a stable and relevant topic of the digital media agenda, although its prevalence does not increase during the electoral month. The main conclusion is that the combination of web scraping and natural language processing techniques can be useful to increase scalability (increase information capture and reduce topic selection and analysis times) in news content studies

Keywords: topics, natural language processing, web scraping techniques and digital news

 


Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.



Estadísticas
Visitas al Resumen:311
PDF:281


 

Revista Comunicación, Política y Seguridad -IIGG-FSOC-UBA.

ISSN 2683-7374

Pte. J. E. Uriburu 950, 6º - C1114AAD - Ciudad de Buenos Aires, Argentina
Teléfono: +54 11 4508 3815
cpsrevista@sociales.uba.ar


Revista Comunicación, Política y Seguridad se encuentra bajo una Licencia Creative Commons 3.0 Atribución - NoComercial - CompartirIgual