Métodos digitales y memória visitada por APIs:Herramienta de desarrollo para extraer datos de los portales periodísticos por la Wayback Machine

Autores/as

DOI:

https://doi.org/10.20873/uft.2447-4266.2015v1n2p23

Palabras clave:

Raspar datos, Python, Periodismo digital, HTML, Memoria

Resumen

Se explora la posibilidad de automatización de los sitios de recolección de datos, desde el código de aplicación construida en lenguaje de programación Python, utilizando la sintaxis específica de HTML (Hypertext Markup Language) para localizar y extraer elementos de interés, tales como enlaces, texto e imágenes. La colección de datos automatizada, también conocido como el raspado es una característica cada vez más común en el periodismo. Desde el acceso a la www.web.archive.org, sitio de repositorio digital, también conocida como WayBackMachine, desarrollamos una prueba de concepto de un algoritmo para recuperar, listar y ofrecer herramientas básicas de análisis de los datos recogidos de las diferentes versiones de portales de periódicos en el tiempo.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Marcio Carneiro Dos Santos, Universidade Federal do Maranhão

Professor Adjunto da área de Jornalismo em Redes Digitais do Departamento de Comunicação Social  da Universidade Federal do Maranhão . Mestre em Comunicação e Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP. E-mail: mcszen@gmail.com. 

Citas

BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.

BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.

BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].

GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.

MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.

MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.

ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.

SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.

SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.

Publicado

2015-12-08

Cómo citar

DOS SANTOS, Marcio Carneiro. Métodos digitales y memória visitada por APIs:Herramienta de desarrollo para extraer datos de los portales periodísticos por la Wayback Machine. Observatorio Magazine, [S. l.], v. 1, n. 2, p. 23–41, 2015. DOI: 10.20873/uft.2447-4266.2015v1n2p23. Disponível em: https://sistemas.uft.edu.br/periodicos/index.php/observatorio/article/view/1549. Acesso em: 22 nov. 2024.