Llegamos a ustedes gracias a:



Noticias

Airbnb pone como código abierto plataforma de uso compartido de ciencia de datos

[07/11/2016] La mayoría de las organizaciones han establecido procedimientos para la investigación y el uso compartido del código informático. Pero ¿qué hay del análisis de los datos?

Los hallazgos importantes a menudo se quedan en "un grupo heterogéneo de presentaciones, correos electrónicos y Documentos de Google, afirmaron en Medium dos miembros del equipo de ingeniería y ciencia de datos de Airbnb en febrero. Cuando alguien en la organización quiere localizar y utilizar ese trabajo existente, usualmente tiene que localizar el código actualizado y perder tiempo comprobando y reproduciendo resultados anteriores. Y luego generalmente distribuyen sus propias conclusiones "a través de una presentación, correo electrónico o Documento de Google, perpetuando el ciclo.

Después de considerar varias ideas sobre cómo resolver este problema, Airbnb creó un Knowledge Repository interno, que combina el control de versiones de git y plantillas de Markdown para reportar resultados. Airbnb recientemente puso como código abierto su Knowledge Repository Beta, y busca colaboradores para ayudar a llevar adelante el proyecto.

Git permite al mismo tipo revisión entre pares y control de versiones que los desarrolladores normalmente utilizan para colaborar en el código, mientras que Markdown ofrece una mezcla de texto y código en un archivo único y fácilmente reproducible. Puede ver el tutorial de RStudio sobre R Markdown para obtener más información sobre lo que Markdown puede hacer en general. Markdown también se encuentra disponible para otros lenguajes como Python.

La configuración del marco de trabajo de Airbnb requiere de Python y soporta "entradas de conocimiento en varios formatos.

"Las entradas se escriben en libretas Jupyter, archivos Rmarkdown o en Markdown plano, pero todos los archivos (incluyendo los archivos de consulta y otros scripts) se encuentran comprometidos. Todos los archivos empiezan con una pequeña cantidad de metadatos estructurados, como el (los) autor (es), las etiquetas y un TLDR, según la entrada en Medium, Scaling Knowledge at Airbnb. "Un script de Python valida el contenido y transforma la entrada en texto plano con sintaxis de Markdown. Utilizamos el sistema de solicitud de extracción de GitHub para el proceso de revisión. Finalmente, la aplicación web Flask renderiza los contenidos del repositorio como un blog interno, organizado por fecha, tema o contenido.

"Proporciona varios almacenes de datos (y utilitarios para su gestión) para las 'entradas de conocimiento', con un enfoque particular en las libretas (R Markdown y Jupyter / iPython Notebook) para fomentar de mejor manera las investigaciones reproducibles, de acuerdo al repositorio de GitHub. "El Knowledge Repository es un trabajo en progreso. Hay mucha limpieza de código y extensiones de funciones por determinar. Su ayuda y participación son más que bienvenidos.

Sharon Machlis, Computerworld (EE.UU.)