Web scraping para el periodismo de datos

Hoy en día los datos de la web están generando una revolución en la forma de crear y narrar historias. Claramente, las fuentes de las que se pueden extraer datos, que son prácticamente ilimitadas, permiten interpretar y visualizar una heterogeneidad de datos orientada a explicar una noticia existente o encontrar una historia, no evidente, dentro de los datos. El impulso de las tecnologías de web scraping para el periodismo de datos resulta enorme.

Comúnmente, el periodismo tradicional busca investigar un tema o un evento, y luego publica ese conocimiento de forma sistemática y organizada. 

El periodismo basado en datos, por su parte, abarca la recopilación de grandes cantidades de información y luego  -con la ayuda de procedimientos como el sistema de filtrado, el manejo y la evaluación de la información- intenta sacar conclusiones sobre detalles periodísticos: desde explicar una noticia o evento existente en la agenda de los medios hasta encontrar una nueva historia en ese conjunto de datos (por ejemplo, podría ser una comparación de precios de viviendas de una ciudad para conocer el estado del mercado, o el éxito de una nueva serie que se lanzó recientemente en una plataforma).

En este punto, el web scraping se convierte en la columna vertebral del periodismo de datos. Por un lado, porque, a raíz de la compleja tarea de obtener información precisa que tenga valor periodístico, permite procesar y analizar una gran cantidad de datos. Por otro lado, porque la extracción de datos en tiempo real contribuye a garantizar información rigurosa y consistencia en el trabajo de los periodistas.

Ahora bien, ¿en qué consiste el web scraping? Se trata del proceso rápido y fácil de extraer y organizar datos de páginas web. Dentro del periodismo, esto puede incluir desde el seguimiento de los precios de los productos básicos para medir el costo de vida, datos sobre el delito en mapas urbanos, el análisis del censo oficial y los datos del gobierno, hasta el seguimiento de diferentes reseñas para detectar marcas con bajo rendimiento, entre muchos otros ejemplos.

Históricamente los periodistas de datos se pasaban varias semanas para compilar manualmente la información y estadísticas requeridas para un informe especial. Ahora gran parte de este trabajo puede automatizarse extrayendo datos de Internet. Al mismo tiempo, las fuentes se volvieron casi ilimitadas, a partir de bases de datos públicas o datos abiertos, disponibles de forma gratuita en la web.

Organizar e interpretar datos

En el terreno de contar historias en medios masivos o medios públicos ciudadanos, un web scraper podrá organizar los datos no estructurados en datos estructurados, apoyando la tarea del periodista, quien no tendrá que preocuparse más por invertir tiempo y esfuerzo en estructurar los datos manualmente (entendiendo rápidamente y de un vistazo, qué campos de una matriz de datos son numéricos, cuáles son de texto, cuáles son fácticos y cuáles son más abiertos, tales como las reseñas de los usuarios). 

De este modo, el periodista se enfrentará a una tarea mucho más entretenida: detectar tendencias y patrones dentro de los datos, que podrían formar parte de una historia visual, fortalecer una opinión o un argumento con una base estadística sólida (un ejemplo usual en Argentina tiene que ver con la comparación de precios en sitios, desde aquellos que confirman la suba de los alquileres en ciertas zonas urbanas, lo que demuestra un grave problema de viviendas, hasta otros que buscan chequear si las ofertas presentes en el último Hot Sale o Black Friday son verídicas o existe algún tipo de ardid por parte de ciertos comercios).

Escribir y publicar una historia

Una vez que se recopila el volumen de datos, se los estructura y se encuentran patrones dentro de los mismos. El periodista de datos puede comenzar a escribir y publicar su historia con infinitas posibilidades y ángulos en la información, incluyendo infografías, imágenes animadas o estáticas. Diarios como el New York Times o Los Angeles Times recurren cada vez más a estos recursos. Por ejemplo, Ben Welsh, director del Data Desk de L.A. Times, explica en este video qué es el web scraping en los medios y cómo funciona el departamento de datos del diario.

Sin embargo, el aprovechamiento de herramientas de web scraping que se puede alcanzar no termina allí: este monitoreo de datos de la web posibilita comprender mejor a la audiencia y qué historias podrían ser más atractivas, a través de un scraping de perfiles de redes sociales.

Tracking de la historia y respuesta de la audiencia

Por si esto fuera poco, el web scraping se puede utilizar para medir la relevancia de una historia. Trackear las secciones de comentarios, posteos de la nota en redes sociales y otros datos pueden ayudar al trabajador de prensa o al ejecutivo de los medios a comprender si la publicación fue un éxito o no, incluso midiendo en los días posteriores las reacciones de los lectores.

Historias que se terminan de contar gracias al lector

El periodismo basado en datos permite crear contenido muy particular. Más que notas periodísticas, toman la forma de apps, con botones, filtros y tablas visuales, donde el lector puede continuar o terminar la historia. Es el autor quien crea la base de datos y elige una historia para contar, pero delega en el lector la posibilidad de crear muchas otras historias. Este es uno de los mayores diferenciales de interactividad del periodismo de datos.

web scraping para el periodismo de datos

Un claro ejemplo tiene que ver con la comparación entre precios. Los datos podrían reflejar cómo aumentaron los precios según la inflación en los últimos veinte años y su relación con los productos de la canasta familiar, que permitiría a la audiencia tomar nuevas decisiones de compra en función de sus hábitos de consumo, y estos productos diferenciados podrían ser el puntapié para una nueva historia. También estos datos podrían organizarse para ayudar a que los usuarios del Hot Sale detecten ofertas falsas y las publiquen, eviten hacer compras con precios inflados o bien cuenten su experiencia a modo de historia visual (etiquetando aquellos productos que realmente significaban una oferta y aquellos que no).

En síntesis: ventajas claves para el periodismo de datos

Los principales beneficios que un medio de comunicación o un equipo de periodistas obtienen al contratar servicios de web scraping, son:

1) Ganar credibilidad: al respaldar las historias con análisis de datos, se ganará credibilidad y confianza con los lectores. En definitiva, el periodismo de Big Data contextualiza grandes y complejos conjuntos de datos para los ciudadanos (tarea que ayuda a la toma de decisiones informadas) y aporta credibilidad a los artículos.

2) Hallar patrones ocultos en la información: el web scraping es muy ventajoso porque el proceso de organizar la información y buscar patrones no evidentes en los datos cuenta con un apoyo técnico-profesional, el cual ayuda al periodista a concentrarse mejor en usar los datos de manera creativa y menos en el trabajo de compilación manual.

3) Aumentar la transparencia y el acceso: el periodismo apoyado en scraping de datos de la web puede ayudar a las personas a comprender datos que suelen ser confusos para un ciudadano promedio. Al ayudar a aumentar la alfabetización de datos entre la población y el acceso abierto a datos publicados, se amplía la transparencia de la información.

4) Ahorrar tiempo y energía: el web scraping de grandes cantidades de datos contribuye a ahorrar tiempo durante la fase de investigación y le da más libertad a los periodistas para interpretar los datos y encontrar formas creativas de presentarlos. Todo es mucho más sencillo para el medio de comunicación que eventualmente desee contratar este tipo de servicios.

5) Encontrar a su audiencia: rastrear sitios de redes sociales puede brindar la oportunidad de determinar el alcance de las ideas vigentes en el periodismo de datos, midiendo concretamente si quienes siguen un medio de comunicación están activamente interesados ​​en un tema o no. Todo ello resulta factible con técnicas automatizadas de monitoreo de datos de la web.

web scraping para el periodismo de datos