Digital methods and the memory accessed by APIs: Development tool for extracting data from journalistic portais with the WayBack Machine
DOI:
https://doi.org/10.20873/uft.2447-4266.2015v1n2p23Keywords:
Scraping, Python, Digital Journalism, HTML, MemoryAbstract
We explore the possibility of automation of data collection from web pages, using the application of customized code built in Python programming language, with specific HTML syntax (Hypertext Markup Language) to locate and extract elements of interest as links, text and images. The automated data collection, also known as scraping is an increasingly common feature in journalism. From the access to the digital repository site www.web.archive.org, also known as WayBackMachine, we develop a proof of concept of an algorithm able to recover, list and offer basic tools of analysis of data collected from the various versions of newspaper portals in time series.
Downloads
References
BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.
BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.
BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].
GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.
MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.
MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.
ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.
SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.
SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.
Downloads
Published
How to Cite
Issue
Section
License
[PT] Autores que publicam nesta revista concordam com os seguintes termos:
1. Autores mantém os direitos autorais e concedem à revista, sem pagamento, o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License (CC BY-NC 4.0), permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.
Leia todos os termos dos direitos autorais aqui.