Data Analyst, Engineer & Scientist: jugadores clave en un proyecto de datos

Como en todo proceso de trabajo de cualquier disciplina, en los proyectos de Ciencia de Datos la división de roles, basada en distintos skills y conocimientos de los profesionales, nos garantiza un resultado exitoso y un cliente satisfecho.

La madurez lograda en 7Puentes, luego de haber construido diversos modelos de Machine Learning para empresas pertenecientes a diversas industrias verticales, nos permitió encontrar una metodología de trabajo orgánica y efectiva.

Estamos convencidos de que el Data Scientist no debe ser un profesional polifuncional que se ocupa de todo el proceso de Data Science de principio a fin. Según nuestra perspectiva, las distintas etapas de un proyecto deben involucrar, desde el punto de vista productivo, a profesionales con conocimientos similares pero con distintos perfiles o roles:

Entendiendo el negocio del cliente: el rol del Data Analyst

Con el propósito de quitarle al Data Scientist responsabilidades que lo pueden desenfocar de su principal tarea, que es el proyecto científico de datos en sí, la figura del Data Analyst (DA) es fundamental para brindar al equipo un entendimiento completo del negocio del cliente

En líneas generales, el DA se ocupa de analizar los datos que facilita el cliente, pero también se comunica con él; define alcances y es quien entiende si el modelo responde a las necesidades que la organización plantea.  

Otras de sus responsabilidades específicas son:

  • Generar un diccionario de datos a partir del acceso a los datos del cliente. 
  • Involucrarse más desde la “propuesta de la solución”  y el valor que la misma le genera al negocio del cliente. El debe entender y traducir las métricas de performance de un modelo a KPIs de negocio que el cliente pueda percibir. 
  • Colaborar con DS en el diseño del modelo de Machine Learning, las métricas de su evaluación, etc. 
  • Analizar los reportes de los resultados del entrenamiento, matriz de confusión y distintos datos que permitan evaluar la performance del modelo entrenado.. 
  • Estudiar los sesgos en el modelado para proponer mejoras. 
  • Facilitar la generación de gráficos y visualizaciones e informes de avance para el cliente.
  • Colaborar para la presentación de los resultados del modelo.
  • Involucrarse en la capacitación o knowoledge transfer necesaria al cliente.

Nuestra experiencia demuestra que es fundamental que todos los profesionales que integran el equipo tengan conocimientos de Machine Learning para que puedan dialogar entre sí.

Data Engineer: que “todo funcione” y “los datos lleguen”

El Data Engineer (DE) arma el entorno de trabajo y el repositorio de datos para que el Data Scientist y el Data Analyst trabajen, y garantiza que, desde el punto de vista técnico, todo funcione; que la infraestructura que soporta las bases de datos y los procesos sean confiables. El DA y el DS seleccionan los features que serían parte del modelo y el DE los agrega a los set de entrenamiento. En los últimos meses y a partir de la evolución natural de las plataformas cloud y sus herramientas la figura de DataOps o MLOps surgieron como una especificidad del DevOps. 

Asimismo, el DE testea nuevas propuestas y tecnologías que surgen para, eventualmente, aplicarlas a proyectos futuros. 

A continuación, enumeramos el detalle de las tareas a cargo del Data Engineer: 

  • Generar el entorno de trabajo (GIT, Jupyter) y entorno de build & deployment.
  • Manejar la infraestructura y todo el ML Ops / DataOps.. 
  • Seleccionar el stack tecnológico adecuado para el proyecto/solución, estar al tanto de herramientas interesantes y el estado del arte para poder proponer mejoras al stack. . 
  • Armar el/los entornos de configuracion de contenedores,, realizar el deployment del mismo. Ejecuta las tareas de CI & CD en general.
  • Definir las versiones de las herramientas y se ocupa de que todos tengan el mismo entorno y que no haya conflictos. 
  • Hace los DAGs de pre-procesamiento y preparación de los datasets.
  • Facilita y es responsable del acceso a la información al DA y al DS.
  • Realiza la operación del proceso de entrenamiento y experimentación.
  • Hace research de futuras herramientas a utilizar. 

Poniendo al Data Scientist en su lugar: cuál es su verdadero rol

Habiéndose librado de la problemática del cliente (DA) y de la parte técnica (DE), el Data Scientist (DS) se enfocará exclusivamente en todo lo relacionado con el problema científico: ¿es posible predecir la cantidad de casos positivos de COVID-19 que habrá la semana próxima con la información disponible? ¿sí o no? ¿con qué precisión?

El DS construye el modelo de Machine Learning: toma el resultado del proceso de feature selection, diseña el modelo inicial, lo construye, parametriza y exporta para su entrenamiento.

Detallamos a continuación algunas de sus funciones específicas: 

  • En función del EDA (análisis exploratorio de datos) se definen los experimentos a realizar , variables o características que son parte de los modelos. 
  • Tuneo de hiperparámetros y otras configuraciones necesarias para el desarrollo de los experimentos y la selección del mejor modelo posible.  
  • Colabora con el DA en el EDA y la selección e ingeniería de features. 
  • Hace research de papers para poder aplicar nuevas ideas a los proyectos de Inteligencia Artificial. 
  • Colabora con el DA y el DE en la construcción de los experimentos.
  • Estudia los sesgos en el modelado para proponer mejoras. 

Todos tirando para el mismo lado

Este modelo de organización de los roles en un proyecto de Ciencia de Datos no es arbitrario. A 7Puentes le ha permitido encarar exitosamente numerosos proyectos de diversas complejidades. 

Desde nuestra experiencia, la gran mayoría de los proyectos de Machine Learning tienen inconvenientes para llegar a producción porque se le pide al Data Scientist más de lo que debe hacer

Lo que también observamos es un avance de las herramientas que asisten al DS, en paralelo con el desarrollo de metodología y procesos para la producción de este tipo particular de software. Herramientas como MLFLow. Sagemaker, H2o.ai , etc. 

Si el DS se concentra en lo que realmente tiene que hacer, puede abordar proyectos de Machine Learning más complejos. Pero, para que esto suceda, la complejidad no debe pasar por cuestiones de las que tranquilamente deberían  poder ocuparse el analista y el ingeniero.

Más allá de las diferencias entre las distintas especialidades involucradas en el mundo del procesamiento inteligente de los datos, actividad que en 7Puentes desarrollamos desde hace años con distintos niveles de profundidad según lo demande el proyecto en curso, es clave destacar que el DA, el DE y el DS son integrantes de un mismo equipo, partes fundamentales y complementarias en un data-team. Eslabones de una misma cadena, todos igual de necesarios.

Si queres llevar a tu empresa al próximo nivel, y aplicar nuestra exitosa metodología en tus próximos proyectos, ¿qué estás esperando para contactarnos?