Métodos digitais e a memória acessada por APIs: Desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Autores

DOI:

https://doi.org/10.20873/uft.2447-4266.2015v1n2p23

Palavras-chave:

Raspagem de dados, Python, Jornalismo Digital, HTML, Memória

Resumo

Explora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.

Downloads

Não há dados estatísticos.

Biografia do Autor

Marcio Carneiro Dos Santos, Universidade Federal do Maranhão

Professor Adjunto da área de Jornalismo em Redes Digitais do Departamento de Comunicação Social  da Universidade Federal do Maranhão . Mestre em Comunicação e Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP. E-mail: mcszen@gmail.com. 

Referências

BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.

BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.

BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].

GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.

MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.

MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.

ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.

SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.

SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.

Publicado

2015-12-08

Como Citar

DOS SANTOS, Marcio Carneiro. Métodos digitais e a memória acessada por APIs: Desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine. Revista Observatório , [S. l.], v. 1, n. 2, p. 23–41, 2015. DOI: 10.20873/uft.2447-4266.2015v1n2p23. Disponível em: https://sistemas.uft.edu.br/periodicos/index.php/observatorio/article/view/1549. Acesso em: 22 nov. 2024.