FotoReportaje - Galería de fotos

Nueve tecnologías de código abierto para Big Data

Con más y más empresas que almacenan más y más datos con la esperanza de sacarles provecho, los grandes volúmenes de datos están causando gran revuelo en estos días. La tecnología de código abierto está en el centro de la mayoría de las iniciativas de Big Data. Aquí hay nueve tecnologías clave de código abierto que no debe perder de vista.

  • Apache Hadoop

    Apache Hadoop es un marco de software de código abierto para aplicaciones intensivas de datos distribuidos, originalmente creado por Doug Cutting para apoyar su trabajo en Nutch, un motor web de código abierto. Para cumplir con los requisitos de procesamiento multimáquina de Nutch, Cutting implementó un centro de MapReduce y un sistema de archivos distribuido que en conjunto se convirtieron en Hadoop. Él le puso el nombre del elefante de juguete de su hijo. A través de MapReduce, Hadoop distribuye los datos en grandes piezas sobre una serie de nodos que se ejecutan en hardware de consumo. En la actualidad, Hadoop se encuentra entre las tecnologías más populares para el almacenamiento de los datos estructurados, semi estructurados y no estructurados que forman parte de los grandes volúmenes de datos. Hadoop está disponible bajo Apache License 2.0.

    Thor Olavsrud, CIO (EE.UU.)

  • R

    R es un lenguaje de programación de código abierto y entorno de software, diseñado para el cálculo estadístico y visualización. R fue diseñado por Ross Ihaka y Robert Gentleman en la universidad de Auckland, Nueva Zelanda, a comienzos de 1993, y se está convirtiendo rápidamente en la herramienta a seguir para el análisis estadístico grandes series de datos. Es comercializado por una empresa llamada Revolution Analytics, que está llevando a cabo un modelo de servicios y soporte inspirado en el respaldo de Red Hat para Linux. R está disponible bajo la General Public License de GNU.

    Thor Olavsrud, CIO (EE.UU.)

  • Cascading

    Un software de capa de abstracción para Hadoop, Cascading, permite a los usuarios crear y ejecutar flujos de trabajo de procesamiento de datos en clústeres Hadoop usando cualquier lenguaje basado en JVM. Su objetivo es ocultar la complejidad subyacente de los trabajos de MapReduce. Cascading ha sido diseñado por Chris Wensel como alternativa API a MapReduce. A menudo se utiliza para la orientación de los anuncios, registro de análisis de archivos, bioinformática, máquina de aprendizaje, análisis predictivo, minería de contenido web y aplicaciones ETL. El soporte comercial para Cascading es ofrecido por Concurrent, una empresa fundada por Wensel después de que él desarrolló Cascading. Entre las empresas que utilizan Cascading están Twitter y Etsy. Cascadin está disponible bajo la General Public License de GNU.

    Thor Olavsrud, CIO (EE.UU.)

  • Scribe

    Scribe es un servidor desarrollado por Facebook y lanzado en el 2008. Está destinado para agregar registros de datos transmitidos en tiempo real desde un gran número de servidores. Facebook lo diseñó para cumplir con sus propios desafíos de escala, y ahora utiliza Scribe para manejar decenas de miles de millones de mensajes al día. Está disponible bajo Apache License 2.0.

    Thor Olavsrud, CIO (EE.UU.)

  • ElasticSearch

    Desarrollado por Shay Banon y basado en Apache Lucene, ElasticSearch es un servidor de búsqueda distribuido. Es una solución escalable que soporta la búsqueda casi en tiempo real y multiusuario, sin una configuración especial. Ha sido adoptado por un número de compañías, incluyendo StumbleUpon y Mozilla. ElasticSearch está disponible bajo Apache License 2.0.

    Thor Olavsrud, CIO (EE.UU.)

  • Apache HBase

    Escrito en Java y el modelado con BigTable de Google, Apache HBase es una base de datos no relacional distribuida en columnas, diseñada para ejecutarse en la parte superior de Hadoop Distributed Filesystem (HDFS). Proporciona tolerancia a fallas de almacenamiento y un rápido acceso a grandes cantidades de datos dispersos. HBase es uno de los muchos almacenes de datos de NoSQL que se han vuelto disponibles en los últimos años. En el 2010, Facebook adoptó HBase para servir a su plataforma de mensajería. Está disponible bajo Apache License 2.0.

    Thor Olavsrud, CIO (EE.UU.)

  • Apache Cassandra

    Otra tienda de datos NoSQL, Apache Cassandra, es un sistema de gestión distribuido de bases de datos desarrollado por Facebook para potenciar su función de búsqueda en la bandeja de entrada. Facebook abandonó a Cassandra en favor de HBase en el 2010, pero Cassandra todavía es utilizada por varias compañías, incluyendo Netflix, que utiliza Cassandra como la base de datos back-end para sus servicios de streaming. Casandra está disponible bajo la licencia Apache 2.0.

    Thor Olavsrud, CIO (EE.UU.)

  • MongoDB

    Creado por los fundadores de DoubleClick, MongoDB es otro popular almacén de datos NoSQL. Almacena los datos estructurados en documentos tipo JSON con esquemas dinámicos llamados BSON (por Binary JSON). MongoDB ha sido adoptado por un número de grandes empresas, incluyendo MTV Networks, craigslist, Disney Interactive Media Group, The New York Times y Etsy. Está disponible bajo la GNU Affero General Public License, con idiomas disponibles bajo Apache License. La empresa 10gen ofrece licencias comerciales de MongoDB.

    Thor Olavsrud, CIO (EE.UU.)

  • Apache CouchDB

    Apache CouchDB es otra base de datos NoSQL. Utiliza JSON para almacenar datos, JavaScript como lenguaje de consulta y MapReduce y HTTP como API. CouchDB fue creado en el 2005 por el ex desarrollador de IBM Lotus Notes, Damien Katz, como un sistema de almacenamiento para una base de datos de objetos grandes. La BBC utiliza CouchDB para sus plataformas de contenidos dinámicos, mientras que el departamento de productos de Credit Suisse lo utiliza para almacenar los detalles de configuración de su mercado de marco de datos Python. CouchDB está disponible Apache License 2.0.

    Thor Olavsrud, CIO (EE.UU.)

Llegamos a ustedes gracias a:

FOTO REPORTAJES

Más »
12 utilidades que le pueden dar más control sobre su PC

12 utilidades que le pueden dar más control sobre su PC

Monitoree y gestione todos los aspectos de su PC de Windows.
Primer vistazo: Samsung Galaxy S8

Primer vistazo: Samsung Galaxy S8

Samsung ha lanzado su nuevo teléfono inteligente Android, su buque insignia, el Galaxy S8 -dele un vistazo.
Muy buenas aplicaciones de Google que no sabía que necesitaba

Muy buenas aplicaciones de Google que no sabía que necesitaba

Todos los teléfonos Android vienen con un grupo de aplicaciones preinstaladas de Google, pero éstas las tendrá que descargar de Google Play.
8 herramientas de prueba para desarrolladores de aplicaciones móviles

8 herramientas de prueba para desarrolladores de aplicaciones móviles

Están surgiendo herramientas y servicios de nube para ayudarle a que sus aplicaciones operen sin problemas en todos los dispositivos.