¿Cómo ayuda el Web Scraping a mi Startup?

Las empresas ya entendieron que la información es valor. Y que, por lo tanto, incorporar estrategias de Big Data analytics es clave.

En especial las startups, que desde su nacimiento comprenden la importancia de contener un departamento de data science cross company.

Sin embargo, estadísticas indican que sólo el 10% de los datos recolectados de la Web son utilizados por las empresas para mejorar su toma de decisiones.

¿Qué sucede, entonces, con el 90% restante?

Web Scraping: exprimí el jugo de los datos públicos

En nuestro último post hablamos de cómo la extracción de datos (Web Scraping) nos permite mejorar la toma de decisiones en el otorgamiento de productos para la banca.

Allí, destacamos la importancia de establecer un proceso de Web Scraping organizado y efectivo para la extracción de datos. Es decir, qué consideraciones debemos realizar para convertir los datos extraídos en información que incremente el valor de nuestros productos y la confianza de los clientes.

Datos en blanco o eliminados, errores ortográficos, formatos locales e información no estandarizada se terminan almacenando en las bases de datos de las compañías, desaprovechando desmesuradamente la cantidad y valor de la información allí alojada.

En ese aluvión de datos, obtener la información correcta, útil para construir modelos de aprendizaje se ha vuelto una tarea muy costosa en tiempo y recursos.

¿Qué tipos de sets de datos pueden ser útiles para mi startup?

La heterogeneidad de datos disponibles es tal que es muy importante conocer, antes que nada, cuáles son nuestros objetivos, esto es, qué queremos lograr con esta información.

Así, podremos delinear un plan que maximice los resultados y acotar el trabajo de recolección, mantenimiento y monitoreo de datos.

Esta tarea resulta muy laboriosa dado que involucra los siguientes desafíos:

Contar con datos actualizados
Lidiar con infinidad de formatos
Poder escalar si el volumen lo requiere
Estar listo para el cambio
Requerir un monitoreo exhaustivo

Conocer de antemano cuáles son nuestros objetivos y el alcance es vital para determinar: qué podemos descargar dentro del amplio espectro de información disponible en la web y cómo utilizar dichos datos para alcanzar nuestras metas.

Respecto a qué podemos descargar, podemos encontrar información muy variada:

Catálogos de productos
Perfiles de usuario
Comentarios / Opiniones
Noticias
Patrones de consumo
Datos personales

Respecto a cómo utilizar los datos es, también, fundamental: un mismo tipo de datos puede llegar de múltiples formas.

Por ello, es importante saber cómo nos va a ayudar la información que queremos extraer para agregar valor a nuestros productos de una manera cost-effective y rápida.

Sobre este último punto nos centraremos en este artículo: cómo enriquecernos de la información con la que ya contamos o cómo determinar qué información nos conviene descargar.

Acerca de la normalización y el enriquecimiento de datos con fuentes externas

La normalización (o curado) de datos es el proceso por el cual fuentes de datos no estructurados, semi o completamente estructurados son transformados en información lista para:

Ser utilizada en modelos matemáticos de predicción
Generar motores de enrichment
Determinar lagunas de datos (permitiéndole a los usuarios acceder a la información con el fin de encontrar valor de negocio), etc.

La curación de los datos está compuesta por los siguientes elementos:

Data profiling

Esta acción implica elaborar perfiles de datos, es decir, examinar los datos disponibles de las fuentes y recolectar estadísticas o resúmenes informativos de la información que se encuentra.

Dentro del data profiling pueden diferenciarse las siguientes acciones:

Data quality: Recolección de estadísticas de la calidad de los datos disponibles.

Data lineage: Relacionado con el rastreo de la fuente de los datos que se extraen. El data lineage es requerido, por ejemplo, para la evaluación de riesgo crediticio: ante la solicitud de un crédito puede obtenerse información real y correcta acerca de la capacidad financiera del solicitante, para tomar decisiones que minimicen los riesgos,

Compliance & risks: Refiere al análisis de los datos para determinar si la información que se busca extraer incumple con alguna regulación (por ejemplo, si es información personal).

Capacity management: Permite conocer cómo crecerán los datos en función de la capacidad y el presupuesto.

Data retention schedule: Está relacionado con el tiempo en el que los datos serán relevantes, ya sea por regulaciones, leyes, desactualizaciones, etc.

***Obtener perfiles de los datos que nos interesa descargar es de vital importancia para saber cuántos recursos invertiremos en uniformizar la fuente.***

Data cleansing

Corresponde al proceso a través del cual se detectan y corrigen anomalías en la calidad de los datos. Estos datos anómalos pueden ser:

Inconsistentes
Inexactos
Sucios
Corruptos
Irrelevantes
Incompletos

Data cleansing puede aportar entre un 200 y un 400% de valor agregado a los datos: en esta instancia se genera la información.

***Normalizar los datos nos permite acceder a un mayor volúmen de información útil.***

¿Qué hacer cuando no se dispone de datos propios o son insuficientes?

Generar un set de datos válidos, enriquecidos y normalizados para poder operar o bien arrancar con una nueva feature es muy costoso.

Cuando no disponemos de datos suficientes un buen recurso es hacer uso de sets de datos públicos. Esto es, aquellos a los que se puede acceder libremente, y que pueden utilizarse, modificarse, reutilizarse y ser compartidos.

Las startups pueden sacar provecho de los sets de datos públicos disponibles en la web y provenientes de fuentes diversas para acelerar el desarrollo de sus productos o crecer en el mercado.

Existen diversas organizaciones que disponibilizan datos masivos de todo tipo para ser utilizados.

A continuación, algunos ejemplos:

Datos bancarios de Argentina: https://data.worldbank.org/country/argentina?view=chart

Precios del gas en Brasil de los últimos 15 años: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil
Índices de precios de Ecuador: https://fred.stlouisfed.org/series/DDOE01ECA086NWDB

La ventaja que tienen estas fuentes es que, al ser sets de datos recopilados por expertos y utilizados en algún otro proyecto, fueron pre-procesados y los problemas que se presentaron en su extracción original ya fueron resueltos.

La contracara a este beneficio es que nuestros productos y proyectos pueden requerir de información más detallada o abundante de la que podemos obtener libremente.

En definitiva, pueden ser un buen punto de partida o servirnos para aumentar el valor de nuestros productos.

*Google ofrece un buscador que nos permite obtener fuentes de datos públicos*
*Fuente:* *https://toolbox.google.com/datasetsearch*

Información de rápido acceso: integración con los sistemas internos

Una cuestión sumamente importante que hay que considerar es la integración con los sistemas internos.

Este proceso supone el almacenamiento de copias de los datos en data warehouses (base de datos corporativa) de tal manera que pueda accederse a la información de manera rápida y escalable, de acuerdo a las necesidades.

Sobre este punto nos referíamos en nuestra nota anterior con la idea de “estar listos para el cambio”. Algunos procesos que distintas empresas integran a sus sistemas son: Data Migration, Data Virtualization, ETL (Extract transform load).

Web Scraping: Las ventajas de contar con el partner adecuado

Usar Web Scraping acelera los tiempos, asegura la normalización de la información y permite probar el modelo de negocios o features en un período de tiempo acotado.

El proceso de recolección de datos de la Web presenta desafíos desde el punto de vista técnico, pero también en lo que refiere a dar con los profesionales adecuados. Especialistas que no sólo sepan procesar los datos, sino también que tengan dominio del tema sobre el que se extraerá la información.

Contar con los profesionales idóneos permitirá establecer los perfiles correctos para que los expertos en extracción puedan ejecutar esos criterios de manera eficiente e identificar potenciales cambios o fallas.

Generar grandes volúmenes de información requiere de expertos en infraestructura que desarrollen sistemas eficientes para:

Integrar nuevos formatos y fuentes en el menor tiempo posible
Cumplir con todos los requerimientos para escalar
Desarrollar sistemas que permitan soportar consultas que se respondan en el menor tiempo posible

Por ejemplo, en 7Puentes hemos recurrido a fuentes de datos públicos para incrementar el valor de los productos de nuestro cliente, una importante empresa de tarjetas de crédito.

Sets de información de balances o declaraciones de ingresos de disponibilidad pública nos permitieron integrar todo un conjunto de datos para generar un producto mucho más customizado del existente.

Nuestros analistas trabajan codo a codo con nuestros clientes para relevar cuáles son las necesidades a atacar. El resultado: un plan de acción que permite a las organizaciones beneficiarse de los resultados, en un proceso iterativo por fases de validación-ejecución.

Esta metodología permite, iteración a iteración, corregir el camino para obtener los resultados deseados, sin tener que invertir gran cantidad de tiempo en lograrlos.

Contamos, además, con una plataforma preparada para agregar nuevas o las más variadas fuentes de datos a las necesidades de cada proyecto. Nuestros expertos en data scraping hacen frente a los desafíos cotidianos, con capacidad de dar respuesta a la gran demanda de datos y sus representaciones.

Una gran experiencia en la extracción de datos efectiva es nuestra principal fortaleza. Contá con nosotros.

[contact-form-7 id=»662″ title=»Form for Contact Page»]