Llegamos a ustedes gracias a:



Reportajes y análisis

8 consejos para obtener más de su gasto en convergencia de big data

Big Data

[13/09/2016] Los CIOs y otros encargados de tomar decisiones de TI están acostumbrados a tener que hacer más con menos. En el mundo del big data, ellos podrían ser capaces de lograr ahorros de costo en órdenes de magnitud y ganancias de productividad, debido a la convergencia del desarrollo, las operaciones de TI, y la estrategia de BI (business intelligence).

"A los CIO se les ha dicho 'haz más con menos' tan frecuentemente que se ha convertido en parte de su ADN, y no están abiertos a mucho debate, señala Jack Norris, vicepresidente senior de Data and Applications en MapR Technologies. "En vez de eso, consideremos lo mejor que sigue: obtener el doble de provecho de su gasto, mediante el aprovechamiento de tecnologías convergentes y conjuntos de habilidades; en otras palabras, lograr que su plataforma de datos y aplicaciones haga el doble o triple de sus deberes para reducir costos, complejidad y esfuerzo.

Norris ofrece ocho consejos para ayudarle a identificar cómo la tecnología de convergencia puede ayudarle.

Recicle los protocolos empresariales

Sí, nuevas técnicas de herramientas y APIs serán parte de sus planes inevitablemente, pero Norris afirma que los CIO y los arquitectos empresariales deberían asegurarse de buscar lazos entre los nuevos enfoques y los estándares de empresa establecidos como SQL, NFS, LDAP y POSIX.

"Ha pagado por la experiencia y estos estándares han estado operativos por décadas, afirma. "No es el momento de descartarlos de raíz de los más nuevos y brillantes hasta que sea completamente obvio que debe hacerlo. Es probable que haya un proyecto Apache o un proveedor de software empresarial que le puede ayudar a construir un puente entre el mundo viejo y el nuevo.

Spark y Hadoop, juntos y separados

Apache Hadoop ayudó a dar inicio a la revolución en la analítica de big data moderna, pero Apache Spark ha empezado a quitarle protagonismo cuando se trata de energizar a las aplicaciones basadas en datos.

"Desarrollado mucho después que Hadoop, Spark puede operarse por encima de Hadoop, pero también puede operarse independientemente, afirma Norris. "Spark es ahora la plataforma de desarrollo preferida por sobre el modelo MapReduce de Hadoop, pero las capacidades de administración de datos de Hadoop podrían convencerle de mantener a ambos juntos. Cual sea su elección, la protección de los datos es una prioridad. Las aplicaciones pueden ser reiniciadas, pero datos perdidos o corrompidos simplemente se pierden.

Evite la propagación de los clusters

Los clusters de cómputo son viejos conocidos de TI, pero el ambiente de hoy en día puede llevar fácilmente a los "clusters de clusters. "Spark y Hadoop son desplegados con frecuencia en clusters separados. El streaming de Kafka, los sistemas de archivos en cluster para administrar archivos, una front end Node.js, entre otras cosas, pueden llevar a la proliferación de los clusters.

"El clustering de crecimiento a escala es probablemente uno de los apuntalamientos más grandes de big data, afirma Norris. "Pero cada cluster podría tener su propio modelo de seguridad, interfaz administrativa, formato de datos, reglas para la persistencia y, claro, ¡un hardware separado! Esto rápidamente puede llevarle hacia los silos que intenta evitar. Busque implementaciones que le permitan considerar o converger grupos en una sola plataforma, o al menos el número mínimo de plataformas.

Data warehouse en un lago

A pesar de algunas sugerencias contrarias, el data warehouse no ha muerto, pero los lagos de datos se han convertido en una alternativa; con frecuencia, es el primer y más común uso de big data que adopta una organización de TI determinada.

"Uno de los primeros beneficios de los que se percatan los clientes respecto a los lagos de datos es simplemente una mejor visibilidad de lo que la compañía sabe, anota Norris. "La ventaja inmediata de esta visibilidad es un modelo 360 de cliente más completo y matizado. Esto con frecuencia se traduce en ventas y marketing mejorados o más informados, así como un modelo más preciso de pronostico y prevención de fraude, desperdicio o abuso.

Considere HTAP

Hybrid Transaction/Analytical Processing (HTAP) es un término creado por la firma de investigación Gartner para referirse a la próxima generación de plataformas de datos capaces tanto de procesamiento de transacción online (OLTP) y procesamiento de analítica online (OLAP) sin la necesidad de duplicación de datos.

"Hadoop y la nueva analítica ya están acorralando a los almacenes de datos y hasta están empezando a reemplazar bases de datos relacionales para algunos tipos de cargas de trabajo transaccional, señala Norris. "Algunas organizaciones encuentran que el camino hacia HTAP es a través del uso de tecnología de base de datos de documentos, que permite las operaciones OLTP y OLAP sin un paso costoso de transformación de datos. No llore por Oracle aún, pero la separación lógica y física de OLTP y las cargas de trabajo [de data warehouse] continuarán siendo retadas y erosionadas por parte de la nueva administración de datos y métodos de analítica con el paso del tiempo.

Streams de evento como un sistema de registro

Con la demanda de datos en movimiento expendiéndose continuamente cada día, las organizaciones están centrándose cada vez más en streams de evento.

"Mucha de la conversación se centra sensiblemente alrededor de la analítica de streaming, gatillos, alertas y procesamiento de eventos complejos (CEP), señala Norris. "Pero algunas compañías están empezando a ver a los streams de datos como una manera de capturar un registro sellado en el tiempo de las interacciones de datos entre sistemas y compañías. Sin embargo, para los ligeramente menos sensuales temas de procedencia de datos, linaje, persistencia y ciclo de vida, crear un registro inmutable de todas las interacciones de datos puede ser altamente valioso.

Nube híbrida

Las nubes híbridas han existido por años a estas alturas, pero el concepto está tomando un mayor significado en un mundo de big data.

"Uno de los principales principios de Hadoop y el cómputo distribuido es la noción de mover la computación hacia los datos en lugar de hacer lo contrario, señala Norris. "El mero volumen de datos que se colecta ahora es suficiente razón, pero otra es la preponderancia creciente de las fuentes de datos comerciales y la posibilidad en aumento de que las compañías se apoyarán en fuentes de datos externas para su analítica y sus aplicaciones. Esto sugiere que usted busca datos y plataformas de aplicación que pueden operar de manera cooperativa tanto en la nube como detrás del firewall.

Análisis en el lugar

Transformar y mover datos con frecuencia requiere una cantidad enorme de tiempo y esfuerzo. Existen situaciones, dice Norris, donde usted puede recortar ese costo y tiempo.

"Cuando se usa Spark, Apache Drill u otras tecnologías de procesamiento integradas a la memoria, se genera una oportunidad de evitar el movimiento de datos, operaciones ETL y otras transformaciones de datos mientras se sigue explotando el enfoque de lectura de esquema para analítica, que es un sello de la plataforma Hadoop, señala. "Recuerde que, como siempre, existen latencias de red y/o disco que entran en juego cuando se lee los datos en la memoria. Sin embargo, si usted ha invertido en un sistema de archivo distribuido a nivel de empresa, es otra arma interesante en su arsenal de analítica.

Thor Olavsrud, CIO (EE.UU.)