Digital methods and the memory accessed by APIs: Development tool for extracting data from journalistic portais with the WayBack Machine

Authors

DOI:

https://doi.org/10.20873/uft.2447-4266.2015v1n2p23

Keywords:

Scraping, Python, Digital Journalism, HTML, Memory

Abstract

We explore the possibility of automation of data collection from web pages, using the application of customized code built in Python programming language, with specific HTML syntax (Hypertext Markup Language) to locate and extract elements of interest as links, text and images. The automated data collection, also known as scraping is an increasingly common feature in journalism. From the access to the digital repository site www.web.archive.org, also known as WayBackMachine, we develop a proof of concept of an algorithm able to recover, list and offer basic tools of analysis of data collected from the various versions of newspaper portals in time series.

Downloads

Download data is not yet available.

Author Biography

Marcio Carneiro Dos Santos, Universidade Federal do Maranhão

Professor Adjunto da área de Jornalismo em Redes Digitais do Departamento de Comunicação Social  da Universidade Federal do Maranhão . Mestre em Comunicação e Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP. E-mail: mcszen@gmail.com. 

References

BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.

BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.

BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].

GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.

MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.

MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.

ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.

SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.

SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.

Published

2015-12-08

How to Cite

DOS SANTOS, Marcio Carneiro. Digital methods and the memory accessed by APIs: Development tool for extracting data from journalistic portais with the WayBack Machine. Observatory Journal, [S. l.], v. 1, n. 2, p. 23–41, 2015. DOI: 10.20873/uft.2447-4266.2015v1n2p23. Disponível em: https://sistemas.uft.edu.br/periodicos/index.php/observatorio/article/view/1549. Acesso em: 22 jul. 2024.