Llegamos a ustedes gracias a:



Reportajes y análisis

El almacenamiento barato saca a la luz los análisis en memoria

[26/12/2012] Si está prestando atención a los temas de big data, probablemente haya oído términos como análisis en memoria o tecnologías en memoria. Al igual que muchas tendencias tecnológicas que parecen nuevas, en memoria es un término resucitado por dos tendencias actuales: big data y almacenamiento barato y rápido de productos básicos, en particular DRAM.
"Las tecnologías en memoria ha existido por mucho, mucho tiempo", señala David Smith, vicepresidente de marketing y comunidad de Revolution Analytics, un proveedor comercial de software, servicios y soporte de R, el lenguaje de programación de código abierto que sustenta gran parte del paisaje de análisis predictivo. "Ahora que contamos con grandes volúmenes de datos, únicamente la disponibilidad de un terabyte (TB) y sistemas de procesamiento masivo en paralelo, hacen que las tecnologías en memoria sean más interesantes".
Si no lo ha hecho, comenzará a ver las ofertas, incluyendo SAP HANA, y Oracle Exalytics, cuyo objetivo es traer big data y análisis a la misma caja. O también se puede tener HANA como una plataforma soportada en la nube de Amazon Web Services o la plataforma NetWeaver de SAP, que incluye Java y algunos middleware.
Mientras tanto, los proveedores de análisis como SAS, Cognos, Pentaho, Tableau y Jaspersoft han lanzado ofertas para aprovechar la bulla de la tecnología en memoria, aunque algunas de estas ofertas son solo ajustes a su gama de productos existente, comenta Gary Nakamura, gerente general de la base de datos en memoria Terracota, una empresa de Software AG.
"Ellos dicen, 'Hey, estamos poniendo 10 gigas de memoria en nuestra capacidad de producto, porque eso es todo lo que puede manejar, pero estamos llamando a esto una solución en memoria", añade Nakamura. El problema, agrega, es si se puede escalar para manejar problemas del mundo real y flujos de datos. (Para ser justos, Terracota acaba de lanzar dos productos competitivos, BigMemory Max y BigMemory Go, el último de los cuales es gratuito hasta 32GB. Tanto la escala de los productos en la gama de TB y se puede ejecutar en máquinas virtuales o en entornos distribuidos.)
La tecnología en memoria elimina la latencia de los análisis
"En resumen", señala Shawn Blevins, vicepresidente ejecutivo de ventas y gerente general de Opera Solutions, es que cada producto tiene una "capa actual en la que podemos organizar el modelo de datos en sí mismo, no solo los datos -y existen en la misma plataforma y la misma caja de memoria flash".
Desde un punto de vista empresarial, esto es realmente lo que importa. La tecnología en memoria se complica rápidamente. Si quiere entender todos los bits y bytes de línea, entonces probablemente será mejor que llame a sus chicos de TI para otra ronda conmovedora de "¿Qué hace esa parte exactamente?" Sin embargo, si lo que quiere es entender por qué en memoria se está convirtiendo en el término de moda, es un poco más fácil: proporciona una visión del negocio, lo cual conduce a mejores resultados de negocios en tiempo real.
Esencialmente, la tecnología de análisis en memoria permite que las empresas aprovechen las métricas de rendimiento recogidas de los sistemas de producción y las conviertan en indicadores clave de rendimiento con los que pueden hacer algo al respecto. Una compañía como Terracota puede regalar 32GB de capacidad porque la analítica en memoria no requiere el torrente de datos que necesita una aplicación de BI tradicional para producir resultados útiles.
"El asunto con el análisis en memoria es que el proceso de análisis que tiene que ver con la búsqueda", señala Paul Barth, co-fundador de la firma consultora de datos NewVantage Partners. Agrega que lo que usted busca son combinaciones de diferentes de cosas, por ejemplo: como se relacionan los propietarios de automóviles azules y sus códigos postales.
Para cada una de esas correlaciones, se requiere tiempo para extraer los datos, agruparlos, encontrar dependencias y ver con qué fuerza una variable se ve afectada por las demás. Cada vez que pivotee la tabla para encontrar algo nuevo o conseguir algo de claridad, los datos se mueven y se reorganizan. Esto introduce latencia -que es el problema que el análisis en memoria debe derrotar y para lo que ha sido diseñado.
"Se pueden hacer muchos de esos análisis en iteraciones muy rápidas y decir: Mírelo de esta manera, mírelo de esta otra", señala Barth. Por otro lado, "si está usando disco, sería una consulta totalmente distinta. Cada vez que tiene que hacer una iteración, si se tarda un minuto o dos para sacar esos datos de la memoria, y tiene que hacerla miles de veces, entonces está tomando entre treinta minutos y una hora hacer un análisis comparativo".
Análisis de alta frecuencia, computación baja -por ahora
En esta etapa del juego, el análisis de big data trata del descubrimiento. La ejecución de iteraciones para ver las correlaciones entre los puntos de datos no sucede sin milisegundos de latencia, multiplicados por millones (o billones) de iteraciones. El trabajo en memoria es tres veces más rápido que en disco, señala Barth. "La velocidad es importante en este negocio".
¿Alguna vez se preguntó cómo Facebook puede etiquetarle una foto tan pronto como la publica en su sitio? Una foto es un archivo grande, y Facebook tiene exabytes de fotos en su archivo. Facebook ejecuta un algoritmo contra todas las fotos para encontrar rostros y los reduce a algunos puntos de datos, señala Smith de Revolution. Esto reduce una foto de 40MB hasta aproximadamente 40 bytes de datos. Los datos luego entran en una "caja negra", que determina a quién le pertenece ese rostro, lo etiqueta, busca en la cuenta de esa persona y de todas las cuentas asociadas a la persona, y envía un mensaje.
Eso es big data en acción. Pero también es la forma en que los análisis en memoria hacen que funcione big data. En la actualidad, la mayoría de la gente no pone más de 100MB en una caché en memoria en un momento dado, debido a las limitaciones de Java. Cuantos más datos se ponen en la memoria, agrega Nakamura, más tendrá que afinar la máquina virtual de Java. "Se vuelve más lenta, no rápida, y eso es problemático cuando está en juego el desempeño a gran escala". (De acuerdo al ejecutivo, la línea de producto Big Memory de Terracota evita este problema).
Por ahora, el análisis en memoria está adecuado a la alta frecuencia y al bajo procesamiento de números. Por supuesto, cuando tiene Terabytes de almacenamiento DRAM o Flash disponibles para ejecutar análisis en tiempo real, ese comportamiento cambiará. En este caso, la tecnología tiene que ponerse al día con la necesidad, no al revés. La necesidad existe, los datos existen y, con base en el número de anuncios procedentes de Hadoop World en octubre, la tecnología está en camino. No hay huevo y gallina aquí.
Allen Bernard, CIO (EE.UU.)