Métodos digitais e a memória acessada por APIs: Desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Auteurs-es

DOI :

https://doi.org/10.20873/uft.2447-4266.2015v1n2p23

Mots-clés :

Raspagem de dados, Python, Jornalismo Digital, HTML, Memória

Résumé

Explora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.

Téléchargements

Les données relatives au téléchargement ne sont pas encore disponibles.

Biographie de l'auteur-e

Marcio Carneiro Dos Santos, Universidade Federal do Maranhão

Professor Adjunto da área de Jornalismo em Redes Digitais do Departamento de Comunicação Social  da Universidade Federal do Maranhão . Mestre em Comunicação e Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP. E-mail: mcszen@gmail.com. 

Références

BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.

BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.

BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].

GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.

MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.

MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.

ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.

SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.

SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.

Publié-e

2015-12-08

Comment citer

DOS SANTOS, Marcio Carneiro. Métodos digitais e a memória acessada por APIs: Desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine. Observatoire Journal, [S. l.], v. 1, n. 2, p. 23–41, 2015. DOI: 10.20873/uft.2447-4266.2015v1n2p23. Disponível em: https://sistemas.uft.edu.br/periodicos/index.php/observatorio/article/view/1549. Acesso em: 3 juill. 2024.