Llegamos a ustedes gracias a:



Reportajes y análisis

Cómo utilizar Hadoop para superar las limitaciones de almacenamiento

[03/05/2012] La tecnología de almacenamiento ha evolucionado y madurado hasta el punto en el que ha comenzado a abordar el estado del producto básico en muchos centros de datos. Sin embargo, las empresas de hoy en día se enfrentan a las necesidades cambiantes que pueden filtrar las tecnologías de almacenamiento -un ejemplo de ello es el impulso para el análisis de los grandes datos, una iniciativa que trae inteligencia de negocios (BI) a los grandes conjuntos de datos.
Sin embargo, el proceso de análisis de grandes datos demanda capacidades que por lo general están más allá de los paradigmas de almacenamiento típicos -en pocas palabras, las tecnologías tradicionales de almacenamiento, tales como redes SAN, NAS, y otras no pueden lidiar de forma nativa con los terabytes y petabytes de información no estructurada que vienen con los grandes datos. El éxito con en análisis de grandes datos exige algo más -una nueva manera de hacer frente a los grandes volúmenes de datos, en otras palabras una nueva ideología de plataforma de almacenamiento.
Vamos a escucharla para Hadoop
Ingrese a Hadoop, un proyecto de código abierto que ofrece una plataforma para trabajar con grandes datos. A pesar de que Hadoop ha existido durante algún tiempo, ahora más y más empresas están empezando a aprovechar sus capacidades.
La plataforma de Hadoop ha sido diseñada para resolver los problemas causados por las cantidades masivas de datos, especialmente los datos que contienen una mezcla de información compleja, estructurada y no estructurada, que no se presta bien al ser colocadas en las tablas. Hadoop funciona bien en situaciones que requieren el apoyo de los análisis de cómputo que son profundos y extensos, como la agrupación y la orientación.
Entonces, ¿qué es lo que Hadoop significa exactamente para los profesionales de TI que buscan aprovechar los datos de los grandes grandes? La respuesta simple es que Hadoop resuelve el problema más común asociado con los grandes datos de manera eficiente: almacenar y acceder a grandes cantidades de datos.
El diseño intrínseco de Hadoop permite que se ejecute como una plataforma que es capaz de trabajar a través de un gran número de máquinas que no comparten ninguna memoria o discos duros. Con esto en mente, es fácil ver cómo Hadoop ofrece un valor adicional -los administradores de red pueden simplemente comprar un número de servidores básicos, colocarlos en un estante y ejecutar el software Hadoop en cada uno.
Es más, Hadoop ayuda a eliminar gran parte de la carga de administración asociada con los grandes conjuntos de datos. Operativamente, a medida que una organización es cargada en una plataforma Hadoop, el software analiza los datos en pedazos manejables, que luego son repartidos de forma automática a través de servidores diferentes. La naturaleza distribuida de los datos significa que no hay un solo lugar para ir a acceder a los datos. Hadoop realiza un seguimiento de dónde residen los datos y, además, protege la información mediante la creación de múltiples copias. La resiliencia se ha mejorado, ya que si un servidor se desconecta o falla, los datos pueden ser automáticamente replicados a partir de una copia en buen estado.
¿Cómo Hadoop va más allá?
El paradigma de Hadoop va varios pasos más allá cuando se trata de trabajar con datos. Considérese, por ejemplo, las limitaciones asociadas a un sistema tradicional de base de datos centralizada, que puede consistir en una gran unidad de disco conectada a un sistema de servidor que dispone de múltiples procesadores. En ese escenario, el análisis está limitado por el rendimiento del disco y, en última instancia, el número de procesadores que se pueden comprar para aguantar.
Con un despliegue de Hadoop, cada servidor del clúster puede participar en el procesamiento de los datos a través de la capacidad de Hadoop para distribuir el trabajo y los datos en el clúster. En otras palabras, una tarea de indexación funciona mediante el envío de código a cada uno de los servidores en el cluster y cada servidor opera entonces en su propio pedacito de los datos. Entonces los resultados se entregan de nuevo como un todo unificado. Con Hadoop, el proceso se conoce como MapReduce, donde se asignan el código y los procesos para todos los servidores y los resultados se reducen a un solo conjunto.
Ese proceso es el que hace a Hadoop tan bueno al enfrentarse con grandes cantidades de datos. Hadoop se extiende a los datos y puede manejar cuestiones complejas en materia de cómputo mediante el aprovechamiento de todos los procesadores de clúster disponibles para trabajar en paralelo.
Entender Hadoop y extraer, transformar y cargar
Sin embargo, aventurarse en el mundo de Hadoop no es una experiencia plug-and-play. Hay ciertos requisitos previos, requisitos de hardware y las tareas de configuración que se deben cumplir para garantizar el éxito. El primer paso consiste en entender y definir el proceso de análisis. Afortunadamente, la mayoría de los líderes de TI están familiarizados con el análisis de negocios (BA) y los procesos de BI y pueden relacionarse con el nivel de proceso más común -la capa de extracción, transformación y carga (ETL)- y el papel crítico que juega en la construcción de soluciones BA/BI.
El análisis de grandes datos requiere que las organizaciones elijan los datos para analizarlos, consolidarlos y aplicarles métodos de agregación, antes de que puedan ser sometidos al proceso de ETL. Lo que es más, eso tiene que ocurrir con grandes volúmenes de datos, que pueden ser estructuradas, no estructuradas o de múltiples fuentes, tales como las redes sociales, los registros de datos, sitios web, dispositivos móviles, sensores y otras áreas.
Hadoop logra eso mediante la incorporación de procesos pragmáticos y consideraciones, tales como una arquitectura tolerante a fallas en clúster y la capacidad de mover el poder de cómputo cerca de los datos y realizar el procesamiento en paralelo y/o agrupar grandes conjuntos de datos. También proporciona un ecosistema abierto que soporta las capas de arquitectura de la empresa, desde el almacenamiento de datos hasta los procesos de análisis.
No todas las empresas precisan las capacidades que ofrece el análisis de grandes datos. Sin embargo, las que lo hacen deben tener en cuenta la capacidad de Hadoop para afrontar el reto. Pero Hadoop no puede lograrlo todo por sí mismo -las empresas tendrán que considerar que otros componentes de Hadoop se necesitan para construir un proyecto Hadoop.
Por ejemplo, un grupo inicial de los componentes de Hadoop puede consistir en HDFS y HBase para la gestión de datos, MapReduce y Oozie como un marco de procesamiento, Pig y Hive, como los marcos de desarrollo para la productividad del desarrollador y Pentatho, de código abierto, para la inteligencia de negocios (BI).
Desde la perspectiva del hardware, un proyecto piloto no requiere grandes cantidades de equipos. Los requisitos de hardware pueden ser tan simples como un par de servidores con múltiples núcleos, 24 o más gigabytes de RAM y una docena de unidades de disco duro de dos terabytes cada uno, que deberán acreditar suficiente energía para traer un proyecto piloto a tierra.
Sin embargo, les advertimos que una gestión eficaz y la aplicación de Hadoop requieren cierta experiencia, y si no está fácilmente disponible, la gestión de TI debe considerar asociarse con un proveedor de servicios que pueda ofrecer su pleno apoyo al proyecto Hadoop. Esta experiencia resulta especialmente importante cuando se trata de la seguridad. Hadoop, HDFS y HBase ofrecen muy poco en la forma de seguridad integrada, por lo que los datos todavía necesitan protección adicional contra el robo o el compromiso.
A fin de cuentas, un proyecto Hadoop casero tiene más sentido para una prueba piloto de las capacidades de análisis de grandes datos. Después del piloto, un gran número de soluciones comerciales o alojadas están disponibles para aquellos que quieren pisar más en el reino de los análisis de los grandes datos.
Frank J. Ohlhorst, CIO.com