Llegamos a ustedes gracias a:



Noticias

InfluxDB introduce nuevo motor de series temporales

[27/10/2022] A medida que las empresas ven un aumento sin precedentes en el análisis de datos en tiempo real, InfluxDB señaló el miércoles que estaba lanzando un motor de series de tiempo de próxima generación para su servicio de base de datos gestionada InfluxDB Cloud.

Los datos de series temporales, según la empresa de investigación de mercado IDC, pueden definirse como un conjunto de puntos de datos que se recogen a intervalos de tiempo regulares con marcas de tiempo fijas.

Estos tipos de conjuntos de datos se utilizan sobre todo para revelar patrones o estacionalidad entre otras tendencias, y pueden ayudar a los equipos de análisis de las empresas a describir y entender lo que está sucediendo con los datos y por qué, para tomar mejores decisiones de negocio, escribió Amy Machado, gerente de investigación de IDC, en un informe de investigación. 

Las bases de datos o conjuntos de datos de series temporales han ganado recientemente más protagonismo con la llegada de las tecnologías de streaming, escribió Machado, añadiendo que, en contraste con la práctica anterior de cargar una base de datos de este tipo en un formato de lotes de alta latencia, las tecnologías de streaming permiten que los datos de series temporales fluyan hacia la base de datos en tiempo real.

"Una base de datos de series temporales y un conjunto de herramientas de análisis funcionan mejor para manejar primero una gran afluencia de datos continuos, y luego extraer con éxito las cargas de trabajo masivas de datos para obtener información", escribió Machado en el informe.

Desarrollado en Rust para mejorar el rendimiento y la escala

El nuevo motor, que se basa en el proyecto de código abierto IOx de la compañía introducido en el 2020, ha sido desarrollado en el lenguaje de programación Rust para mejorar la escala y el rendimiento, señaló Paul Dix, fundador y CTO de InfluxData, en un comunicado.

Con el fin de apoyar el rendimiento en términos de almacenamiento más rápido, el ejecutivo afirmó haber rediseñado su almacenamiento orientado a columnas, lo que permite al motor ingerir datos en grandes volúmenes con cardinalidad ilimitada. 

Normalmente, una base de datos orientada a columnas es más rápida que una orientada a filas, ya que utiliza menos memoria para almacenar los datos. Esto también mejora la velocidad de salida de las consultas, ya que el sistema necesita acceder a una porción más pequeña de la base de datos para procesarla. 

La cardinalidad en un sistema de gestión de bases de datos puede definirse como las relaciones entre los datos de dos tablas de la base de datos. Cuanto más cardinalidad se permita, mejor podrá escalar una base de datos.

"El nuevo motor puede procesar consultas sobre la mayoría de los datos de series temporales en milisegundos, sostuvo Dix, y añadió que utiliza archivos Apache Parquet en el almacenamiento en disco y Apache Arrow para las operaciones de datos en memoria entre los componentes.

Escritura de consultas en SQL

Con la introducción del nuevo motor, el ejecutivo anotó que por fin añadía soporte para permitir a los desarrolladores escribir consultas en SQL.

SQL es el lenguaje operativo de bases de datos más popular, ya que se utiliza en la mayoría de las bases de datos relacionales tradicionales.

"La capacidad SQL de la que presume InfluxDB ha sido incorporada desde el principio por Timescale, que siempre se ha basado en PostgreSQL", afirma Tony Baer, analista principal de la empresa de estudios de mercado dbinsight.

Anteriormente, InfluxDB permitía a los desarrolladores escribir consultas con la ayuda de las API, Flux e InfluxQL.

Flux, que se basa en el código abierto, es un lenguaje independiente de scripting y consulta centrado en la reutilización del código y optimizado para la extracción, transformación y carga (ETL), según la empresa.

InfluxQL, por su parte, es un lenguaje de consulta con una sintaxis similar a la de SQL.

Añadir soporte para SQL es una tendencia creciente en general para las soluciones de datos en tiempo real, anotó Machado, señalando que el número de desarrolladores que conocen SQL es grande. "La compatibilidad con SQL puede aumentar los índices de adopción. Puedes utilizar los equipos existentes para añadir nuevos casos de uso cuando ofrezcas compatibilidad con SQL".

Según la empresa, se puede acceder a todos los lenguajes de consulta a través del motor de consulta DataFusion, que es un marco extensible de planificación, optimización y ejecución de consultas, escrito en Rust, que utiliza Apache Arrow como formato en memoria.

Además, el nuevo motor añadirá soporte para casos de uso de observabilidad, ya que las empresas tendrán acceso a los datos necesarios para la observabilidad, como trazas, registros y métricas, indicó Dix.

InfluxDB se enfrenta a la competencia

InfluxDB está muy bien valorado cuando se trata de cargas de trabajo de datos de series temporales y compite con empresas como Graphite, Prometheous, TimeScaleDB, QuestDB, Apache Druid y DolphinDB, entre otras, según el sitio web de recomendación de bases de datos dbengines.com.

Cuando se le preguntó por el impulso de InfluxDB en el mercado, Baer dijo: "De entrada, InfluxDB se convirtió en una de las primeras favoritas de los desarrolladores, pero desperdiciaron la oportunidad con bifurcaciones incompatibles que frenaron su impulso".

"Mientras tanto, los datos de series temporales se han convertido en una casilla de verificación con muchas bases de datos operativas y analíticas en la nube", añadió Baer.

Los datos de series temporales o las cargas de trabajo han aumentado con la explosión de la IoT, y tienen una gran demanda de casos de uso en torno a las operaciones dentro del petróleo y el gas, la logística, la cadena de suministro, el transporte y la sanidad, según IDC.