
[01/09/2015] comScore no es ningún extraño en big data. La empresa de análisis digital fue fundada en 1999 con el objetivo de proporcionar inteligencia a empresas sobre lo que sucedía en línea.
En esos primeros días, el volumen de los datos al alcance de la empresa era relativamente modesto. Pero eso no iba a durar para siempre.
"Las cosas se tornaron muy interesantes comenzando el 2009 desde la perspectiva de volumen”, señala Mike Brown, el primer ingeniero de software de la empresa, ahora el CTO. "Previo a eso, habíamos estado en el espacio de 50 mil millones a 100 mil millones de eventos por mes”.
Dejen que el big data fluya
Comenzando el verano del 2009, era como si alguien hubiese abierto las compuertas de la represa; el volumen de los datos aumentó de manera impresionante y ha continuado su crecimiento desde entonces. En diciembre del año pasado, Brown señala que comScore registró más de 1,9 billones de eventos -más de 10 terabytes de datos ingestados todos los días.
En el 2004, antes de que Hadoop fuese solo una idea en las cabezas de Doug Cutting y Mike Carafella, comScore había comenzado a construir su propio stack de procesamiento en grilla para hacer frente a sus datos. Pero en el 2009, con cinco años en el proyecto, comScore estaba luchando por implementar su nueva iniciativa Unified Digital Measurement (UDM) y el volumen de datos y requerimientos de procesos estaban en rápido aumento.
UDM nació como una filosofía de medición para guiar la formulación de productos de comScore, al unir datos de análisis de sitios basados en censos (usando Javascript o pixeles en sitios web, aplicaciones, videos y publicidades) con datos medidos en una audiencia de panel para crear un enfoque de los mejores en su clase.
"El censo ha sido enorme”, anota Brown. "El 90% de los 100 medios más importantes participan ahora en ese programa y cada página nos envía una llamada”.
La compañía tiene ahora alrededor 50 fuentes de datos distintas entre las categorías de censo y de panel, añade Brown.
Para acomodarse al incremento de los datos, comScore comenzó una nueva ronda de mejoras de infraestructura. Se hizo evidente que su stack de procesamiento en grilla a la medida no iba a poder escalar de acuerdo a las necesidades. Afortunadamente, había una prometedora nueva tecnología que iba ganando fuerza y que podría acomodarse a la necesidad: Apache Hadoop.
Colocar datos en MapR
Luego de experimentar con Apache Hadoop, la compañía decidió ir con la distribución de MapR Technologies.
"Creo que fuimos el primer cliente de producción de MapR”, señala Brown. "Nuestro grupo ha crecido a un tamaño decente. Tenemos 450 nodos en nuestro grupo de producción y éste tiene 10 petabytes de espacio direccionable en el disco, 40 terabytes de RAM y más de 18 mil CPU”.
Uno de los factores decisivos a favor de la distribución de MapR fue su soporte de NFS.
"HDFS es genial internamente, pero para introducir y sacar datos de Hadoop, tiene que hacer una especie de exportación HDFS”, indica Brown. "Con MapR, uno puede montar [HDFS] como NFS y luego usar herramientas nativas ya sea que usen Windows, Unix, Linux, o la que sea. NFS permitió que nuestros sistemas de empresa accedieran fácilmente a los datos en el cluster”.
Los CIO deberían pensar en pequeño sobre big data (al principio)
Dada su larga experiencia con Hadoop en producción, ¿qué consejos tiene Brown para los CIO que están comenzando a implementar tecnologías de big data? Primero, comiencen en pequeño.
"Todos se emocionan con la noción de big data, pero comiencen en pequeño”, señala Brown. "La tecnología está ahí para ayudarlo a crecer, pero teniendo un subconjunto de sus datos y ponderando esto por un rato y trabajando en ello, eso le va a permitir demostrar el valor para el negocio de modo mucho más rápido”.
Lo más importante, añade el ejecutivo, es pasar la prueba de concepto (PoC) y poner sus proyectos en producción.
"Elija algo para intentar proveer valor para demostrar que esto si funciona”, anota. "Luego ingrese eso a producción. Me da miedo de que algunos lugares elijan dejar sus proyectos de big data como una siempre verde PoC. No se vuelve real hasta que lo tienes en producción. Puede ser difícil pero es la gran cosa por hacer. Una vez que hace eso, luego rápidamente gana impulso”.
Brown señala que también es esencial tomar muy en consideración el hardware que seleccione. Una de las cosas que fue de gran ayuda para que Hadoop tenga éxito, afirma Brown, es que uno puede escalar con hardware commodity. Pero eso no significa que pueda escatimar en gastos.
"Cuando recién comenzamos, creo que el conocimiento convencional que había desde la perspectiva Hadoop era ir con unidades de baja velocidad y alta densidad”, afirma. "Pero cuando te metes en analítica, las unidades de baja velocidad hacen que la mezcla sea un poco lenta”.
comScore se encontró de frente con ese problema cuando comenzó a trabajar con Hadoop. En un trabajo MapReduce, hay un proceso de 'barajar y clasificar' que ocurre luego de la fase 'Mapa' y antes de la fase 'Reducir'. Los datos del mapper son clasificados y particionados (asumiendo que hay múltiples reductores), y luego es movida a nodos que van a correr las tareas reductoras, donde son escritas a un disco. Aquí es donde las unidades de baja velocidad pueden hacer grandes cuellos de botella, señala Brown.
"Vale la pena hacer unas pruebas tradicionales de IOPS sobre lo que puede hacer sus unidades”, comenta.
"IOPS realmente está manejando muchas de estas cosas”, agrega. "He oído que algunos departamentos están poniendo todo en SSDs ahora”.
Otra área en la que es importante enfocarse, señala Brown, es el aseguramiento de la calidad -de sus datos.
Manténgase al tanto de sus algoritmos
"Creo que lo importante, especialmente en el área de datos, es que en realidad necesitas los datos QA”, señala Brown. "¿Hizo el algoritmo lo que debía hacer? Los algoritmos pueden necesitar mantenimiento, así como lo necesita el software”.
Finalmente, dice, asegúrese de estar pensando a largo plazo.
"Lo más importante que está sucediendo ahora con la tecnología es que puede asegurarse de saber dónde quiere estar, no solo a corto plazo, si no a largo plazo, y asegúrese de que las tecnologías que elija sean algo que van a ayudarlo por ese camino”, diceseñala "Puede requerir que se tenga que reinventar periódicamente. Eso es lo grande. ¿Qué pasa si el volumen se incrementa x10 o x100? Esas cosas ayudan a guiar su toma de decisiones”.
Thor Olavsrud, CIO (EE.UU.)