Métodos digitales y memória visitada por APIs:Herramienta de desarrollo para extraer datos de los portales periodísticos por la Wayback Machine
DOI:
https://doi.org/10.20873/uft.2447-4266.2015v1n2p23Palabras clave:
Raspar datos, Python, Periodismo digital, HTML, MemoriaResumen
Se explora la posibilidad de automatización de los sitios de recolección de datos, desde el código de aplicación construida en lenguaje de programación Python, utilizando la sintaxis específica de HTML (Hypertext Markup Language) para localizar y extraer elementos de interés, tales como enlaces, texto e imágenes. La colección de datos automatizada, también conocido como el raspado es una característica cada vez más común en el periodismo. Desde el acceso a la www.web.archive.org, sitio de repositorio digital, también conocida como WayBackMachine, desarrollamos una prueba de concepto de un algoritmo para recuperar, listar y ofrecer herramientas básicas de análisis de los datos recogidos de las diferentes versiones de portales de periódicos en el tiempo.
Descargas
Citas
BIRD, Steven; LOPER, Edward; KLEIN, Ewan. Natural Language Processing with Python: analyzing text with the Natural Language Toolkit. New York: O'Reilly Media Inc., 2009.
BONACICH, Phillip; LU, Phillip. Introduction to mathematical sociology. New Jersey: Princeton University Press, 2012.
BRADSHAW, Paul. Scraping for Journalists. Leanpub, 2014, [E-book].
GLEICK, James. A Informação. Uma história, uma teoria, uma enxurrada. São Paulo, Companhia das Letras, 2013.
MANOVICH, Lev. The Language of New Media. Cambrige: Mit Press, 2001.
MORETTI, Franco. Graphs, maps, trees. Abstract models for literary history. New York, Verso, 2007.
ROGERS, Richard. Digital Methods. Cambridge: Mit Press, 2013. E-book.
SANTOS, Márcio. Conversando com uma API: um estudo exploratório sobre TV social a partir da relação entre o twitter e a programação da televisão. Revista Geminis, ano 4 n. 1, p. 89-107, São Carlos. 2013. Disponível em: . Acesso em: 20 abr. 2013.
SANTOS, Márcio. Textos gerados por software. Surge um novo gênero jornalístico. Anais XXXVII Congresso Brasileiro de Ciências da Comunicação. Foz do Iguaçu, 2014. Disponível em: . Acesso em 26 jan. 2014.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
[PT] Autores que publicam nesta revista concordam com os seguintes termos:
1. Autores mantém os direitos autorais e concedem à revista, sem pagamento, o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License (CC BY-NC 4.0), permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.
Leia todos os termos dos direitos autorais aqui.