Llegamos a ustedes gracias a:



Noticias

Splice Machine mejora la plataforma híbrida de datos relacionales

[02/12/2016] A partir de su capacidad para ejecutar simultáneamente cargas de trabajo transaccionales y analíticas a escala empresarial, Splice Machine ha anunciado el lanzamiento de la versión 2.5 de su plataforma.

La plataforma de la startup es un relational database management system (RDBMS) de doble motor basado en Apache Hadoop y Apache Spark que se especializa en hybrid transactional and analytical processing (HTAP). Splice Machine utiliza el aislamiento de recursos -separa los procesos y la gestión de recursos para sus componentes de Hadoop y Spark- para asegurar que las consultas OLAP (online analytical processing) grandes y complejas no abrumen a las consultas OLTP (online transaction processing) que son sensibles al tiempo.

La arquitectura híbrida le permite a uno ejecutar cargas de trabajo analíticas y cargas de trabajo transaccionales simultáneamente -una gran ayuda para los casos de uso que van desde el marketing digital hasta la aceleración ETL, lagos de datos operativos, offloads de almacenes de datos, aplicaciones de Internet de las cosas (IoT, por sus siglas en inglés), web, móvil y aplicaciones sociales y aplicaciones operativas.

La última versión añade soporte para el almacenamiento en columnas, caching en memoria y almacenamiento optimizado en costos para los usuarios de AWS, entre otras características.

Las nuevas capacidades de la versión 2.5 de la plataforma de Splice Machine incluyen las siguientes:

* Columnar External Tables. Columnar External Tables permiten las consultas híbridas en columnas y las basadas en filas. Las tablas externas en columnas pueden crearse en Apache Parquet, Apache ORC o formatos de texto. Columnar Storage mejora los escaneos de las tablas grandes, uniones grandes, agregaciones o agrupaciones, mientras que el almacenamiento basado en filas nativo se utiliza para la ingestión optimizada para escritura, búsquedas/actualizaciones de registros únicos y escaneos cortos.

* Caching In-Memory vía Pinning. Esta característica proporciona la capacidad de mover tablas y archivos de datos en columnas hacia la memoria para tener un acceso a los datos de gran velocidad. Evita los escaneos de tablas múltiples o las escrituras en sistemas de archivo con alta latencia como Amazon S3. Splice Machine afirma que la capacidad permite que los datos sean almacenados en almacenamiento muy económico y al mismo tiempo que tengan un buen desempeño en memoria cuando sea necesario en las aplicaciones.

* Estadísticas vía Sketching. Esta característica ayuda a resolver el viejo problema de que los optimizadores basados en los costos son sólo tan buenos como sus estadísticas, pero la mayoría de las estadísticas son pobres porque el cómputo de las estadísticas es caro. Splice Machine utiliza la biblioteca de sketching creada por Yahoo! para proporcionar un análisis aproximado muy rápido de las estadísticas de big data con errores acotados. Mediante el uso de sketches e histogramas, Splice Machine afirma que el optimizador basado en costos puede elegir índices, unir órdenes y unir algoritmos con mucha más precisión.

* Almacenamiento optimizado en costos para usuarios de AWS. Los datos se pueden almacenar localmente en almacenamiento efímero, en EBS, S3 y EFS. Dependiendo de la carga de trabajo y la longevidad de los datos, diferentes datos pueden ser almacenados en diferentes sistemas de almacenamiento con diferentes características de precio/desempeño.