Llegamos a ustedes gracias a:



Noticias

Netflix abre su herramienta Metaflow

Para la gestión de ciencia de datos de fuentes abiertas.

[09/12/2019] Netflix ha abierto Metaflow, una herramienta desarrollada internamente para construir y gestionar proyectos de ciencia de datos basados en Python. Metaflow se ocupa de todo el flujo de trabajo de la ciencia de datos, desde el prototipo hasta la implementación del modelo, y proporciona integraciones incorporadas a los servicios en nube de AWS.

Los proyectos de aprendizaje automático y de ciencia de datos necesitan mecanismos para seguir el desarrollo del código, los datos y los modelos. Hacer todo esto manualmente es propenso a errores, y las herramientas para la gestión del código fuente, como Git, no son adecuadas para todas estas tareas.

Metaflow proporciona las API de Python a toda la pila de tecnologías en un flujo de trabajo de ciencias de datos, desde el acceso a los datos hasta los recursos de computación, el versionado, la formación de modelos, la programación y la implementación de modelos.

Según la documentación introductoria de Metaflow, Netflix construyó Metaflow para proporcionar a sus propios científicos y desarrolladores de datos "una API unificada para la pila de infraestructura que se requiere para ejecutar proyectos de ciencia de datos, desde el prototipo hasta la producción", y para "centrarse en la más amplia variedad de casos de uso de ML, muchos de los cuales son pequeños o medianos, a los que se enfrentan muchas empresas en el día a día".

Metaflow no favorece ningún marco de aprendizaje automático o biblioteca de ciencias de datos en particular. Los proyectos Metaflow son solo código Python, con cada paso del flujo de datos de un proyecto representado por los lenguajes de programación comunes de Python. Cada vez que se ejecuta un proyecto Metaflow, los datos que genera reciben un ID único. Esto le permite acceder a cada ejecución-y a cada paso de esa ejecución-en referencia a su ID o metadatos asignados por el usuario.

Netflix recomienda ejecutar Metaflow en AWS. La empresa ofrece una versión de Metaflow en una sandbox (con restricciones sobre el almacenamiento y la vida útil de los datos) para que los desarrolladores experimenten con el framework.

La primera versión pública de Metaflow, Metaflow 2.0, carece de algunas de las características que Netflix utiliza internamente, como el soporte para el lenguaje R o el procesamiento en memoria de datos de gran tamaño a través de DataFrames. Pero Netflix está dispuesto a hacer que esas características estén disponibles si sus correspondientes problemas de GitHub atraen suficiente apoyo.