Llegamos a ustedes gracias a:



Reportajes y análisis

Cinco cosas que los CIO deben saber sobre big data

[04/06/2012] El análisis de los grandes datos tiene su inicio en los grandes proveedores de servicios web como Google, Yahoo y Twitter, los cuales necesitan sacar el máximo provecho de los datos generados por el usuario. Sin embargo, las empresas harán el análisis de los grandes datos para seguir siendo competitivas y relevantes. A continuación cinco puntos clave que todo CIO debe saber sobre big data.
#1 Usted tendrá que pensar en big data (grandes datos)
El análisis de los grandes datos tiene su inicio en los grandes proveedores de servicios web como Google, Yahoo y Twitter, los cuales necesitan sacar el máximo provecho de los datos generados por el usuario. Sin embargo, las empresas harán el análisis de los grandes datos para seguir siendo competitivas y relevantes.
Podría ser una empresa muy pequeña y tener muchos datos. Un pequeño fondo de cobertura puede tener terabytes de datos, señaló Jo Maitland, director de investigación de grandes datos para GigaOm. En los próximos años, un amplio número de industrias -incluyendo las del cuidado a la salud, sector público, comercio minorista y fabricantes- se beneficiarán financieramente mediante el mayor análisis de sus datos, según anticipa la firma consultora McKinsey and Company en un informe reciente.
Hay un aire de inevitabilidad con Hadoop y las implementaciones de grandes de datos, señala Eric Baldeschwieler, director de tecnología de Hortonworks, una empresa derivada de Yahoo que ofrece una distribución de Hadoop. Es aplicable a una gran variedad de clientes. Recoger y analizar datos transaccionales dará a las organizaciones una visión más clara de las preferencias de sus clientes. Puede ser utilizada para informar mejor sobre la creación de nuevos productos y servicios, y permite que las organizaciones puedan remediar los problemas que surjan con mayor rapidez.
#2 Los datos útiles pueden venir de cualquier parte (y están en todas partes)
Puede que no piense que tiene petabytes de datos por analizar, pero lo hará, si no lo hecho ya. Los grandes datos son datos recolectados que antes se "tiraban al suelo", señala Baldeschwieler.
Los grandes datos pueden ser archivos de los ingresos a su servidor, por ejemplo. Un servidor realiza un seguimiento de todos los que ingresan a un sitio, y qué páginas visitan cuando están allí. El seguimiento de estos datos puede ofrecer información sobre lo que sus clientes están buscando. Si bien el análisis de los datos de registro no es nada nuevo, se puede hacer para analizar nuevos niveles de granularidad.
Otra fuente de datos serán los datos del sensor. Desde hace años, los analistas han estado hablando de la Internet de las cosas, en la que sensores baratos están conectados a Internet, ofreciendo flujos continuos de datos acerca de su uso. Podrían venir de los automóviles, o puentes, o máquinas de refrescos. "El valor real en torno a los dispositivos es su capacidad para capturar los datos, analizar esa información y la eficiencia de las unidades del negocio", señala el gerente general de Microsoft Windows Embedded, Kevin Dallas.
#3 Usted necesitará nuevos conocimientos para los grandes datos
Cuando se establece un sistema de análisis de grandes datos, su obstáculo más grande es encontrar el talento adecuado que sepa cómo trabajar las herramientas para analizar los datos, de acuerdo al analista de Forrester Research, James Kobielus.
Los grandes datos se basan en el modelado de los datos sólidos. Las organizaciones tendrán que centrarse en la ciencia de los datos, añade Kobielus. Tendrán que contratar modeladores de estadísticas, profesionales de minería de texto, personas que se especializan en el análisis de los sentimientos. Estas pueden no ser las mismas habilidades con las que cuentan hoy los analistas de inteligencia de negocios.
Estas personas pueden ser escasas. En el 2018, los Estados Unidos por sí solo podría enfrentarse a una escasez de 140 mil a 190 mil personas con habilidades analíticas profundas, así como 1,5 millones de gestores y analistas con los conocimientos de cómo utilizar el análisis de grandes datos para tomar decisiones efectivas, estima McKinsey and Company.
Otra habilidad que tendrá que tener a la mano es la capacidad de disputar la gran cantidad de hardware necesario para almacenar y analizar los datos. La administración de 100 servidores es un problema fundamentalmente diferente que manejar 10 servidores, señaló Maitland. Puede que tenga que contratar unos cuantos administradores de supercomputadora para el laboratorio de investigación o la universidad local.
#4 Los grandes datos no requieren una organización de antemano
Los CIO que están acostumbrados a planificar rigurosamente cada tipo de dato que va a un almacén de datos empresariales (EDW) pueden respirar un poco más tranquilos con las configuraciones de grandes datos. Aquí, la regla es recoger los datos, y luego preocuparse de cómo los va a usar más tarde.
 
Con un almacén de datos, tiene que diseñar el esquema de datos antes de poder empezar a poner los datos en sí. "Esto básicamente significa que tiene que saber lo que está buscando de antemano", señala Jack Norris, vicepresidente de marketing de MapR. Como resultado de ello, "se están aplanando los datos y se pierde parte de la granularidad", indica. "Más adelante, si cambia de opinión, o quiere hacer un análisis histórico, se verá limitado".
"Se puede utilizar un repositorio de grandes datos como vertedero, y ejecutar el análisis en la parte superior del mismo, y descubrir las relaciones más adelante", añade Norris. Muchas organizaciones no saben lo que están buscando hasta que después de haber sacrificado los datos, por lo que este tipo de libertad "es una especie de gran cosa", indica.
#5 Los grandes datos no solo tienen que ver con Hadoop
Cuando la gente habla acerca de los grandes datos, la mayoría de veces se refieren a la plataforma de análisis de datos Hadoop. "Hadoop es una iniciativa candente, con presupuestos y personas asignadas a ella" en muchas organizaciones, señala Kobielus. En última instancia, sin embargo, puede utilizar otro software.
Recientemente la gigante de la investigación jurídica, LexusNexus, no se quedó atrás en el análisis de grandes datos por sí misma, abrió el código de su propia plataforma para el análisis, HPCC Systems. Mark Logic también ha equipado su propia base de datos para datos no estructurados, el Mark Logic Server, para trabajar con los grandes datos. Otra herramienta que está ganando adeptos es el motor de búsqueda Splunk, que puede ser utilizado para la búsqueda y análisis de datos generados por las máquinas, como los archivos de registro de un servidor. "Hay una buena probabilidad de que Splunk pueda ayudar con cualquier dato que se pueda extraer de los registros", finaliza Curt Monash de Monash Research.
Joab Jackson, IDG News Service