Artigo Acesso aberto Produção Nacional Revisado por pares

Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

2015; FUNDACAO UNIVERSIDADE FEDERAL DO TOCANTINS; Volume: 1; Issue: 2 Linguagem: Português

10.20873/uft.2447-4266.2015v1n2p23

ISSN

2447-4266

Autores

Márcio Carneiro dos Santos,

Tópico(s)

Radio, Podcasts, and Digital Media

Resumo

Explora-se a possibilidade de automação da coleta de dados em sites, a partir da aplicação de código construído em linguagem de programação Python, utilizando a sintaxe específica do HTML (HiperText Markup Language) para localizar e extrair elementos de interesse como links, texto e imagens. A coleta automatizada de dados, também conhecida como raspagem (scraping) é um recurso cada vez mais comum no jornalismo. A partir do acesso ao repositório digital do site www.web.archive.org, também conhecido como WayBackMachine, desenvolvemos a prova de conceito de um algoritmo capaz de recuperar, listar e oferecer ferramentas básicas de análise sobre dados coletados a partir das diversas versões de portais jornalísticos ao longo do tempo.

Referência(s)