Llegamos a ustedes gracias a:



Noticias

SAP quiere abarcar todos sus almacenes de datos con Data Hub

[27/09/2017] Si los almacenes de datos son para los fanáticos del orden (información empaquetada en inferencias pulcras, ordenada y apilada, el resto descartados) y los lagos de datos son para los acumuladores (introduce todo, nunca sabes lo que podría ser útil) entonces el nuevo Data Hub de SAP puede ser para el resto de nosotros.

Se trata de una nueva herramienta de gestión de datos diseñada para procesar solo los datos que necesita y buscarlos donde se crean o almacenan, sin necesidad de que tenga que arrastrarlos a un solo lugar.

Los científicos de datos podrán utilizarlo para analizar datos de múltiples fuentes y sistemas.

"Data Hub es una capa paraguas de gestión de datos que permite la integración de datos, el procesamiento de datos y la gobernanza de datos", señaló Irfan Khan, director global de ventas de bases de datos SAP y gestión de datos.

"Nos permite mirar a través de todos los datos que posee, y acceder a toda la información. Pero no busca centralizar todos estos datos en un lago de datos propio, sino que busca capturar datos y acceder a ellos exactamente donde residen hoy", indicó Khan.

Mientras que la noción de un hub de datos empresariales ha existido durante algún tiempo, SAP está utilizando el término de forma un poco diferente a la mayoría: donde otros, como MapR o Cloudera, importan todos los datos en un gigantesco clúster Hadoop u otro repositorio central antes de procesarlos, SAP pretende dejar los datos in situ hasta que sean necesarios.

Esto se logrará mediante la creación de pipelines de datos: flujos de datos compuestos por operaciones reutilizables y configurables para procesar datos extraídos de diversas fuentes, incluidos archivos CSV, APIs de servicios web y servicios cloud comerciales, así como los propios almacenes de datos de SAP. Las operaciones pueden ser conectores a diferentes sistemas de archivos o APIs, analíticas o bibliotecas de aprendizaje de máquinas como TensorFlow, o tareas codificadas a medida.

SAP proporciona una herramienta gráfica para modelar flujos de trabajo y pipelines, y una capa de orquestación para invocar trabajos y reiniciar o retroceder tareas en caso de falla. Esto puede tomar el lugar de los sistemas de programación de flujo de trabajo como Apache Oozie, indicó Khan.

La ejecución del pipeline puede ser arrastrado a otras plataformas, como el motor de computación Vora de SAP, añadió.

Data Hub no necesita de una empresa que construya sobre SAP para funcionar: también puede integrarse con productos de terceros, anotó. "No es necesario que utilice el procesamiento ETL de SAP, puede que esté utilizando Informatica", afirmó, o quizás la capa de mensajería Kafka de código abierto.

SAP Data Hub ya está disponible en general, pero ¿cuánto costará? Inevitablemente, como ocurre con la mayoría de los programas empresariales, depende.

La determinación de precios se basa en el total de sistemas y nodos informáticos gestionados por SAP Data Hub, según el portavoz de SAP. También requiere una licencia para el motor de base de datos en memoria de SAP, HANA. Los clientes con licencias HANA existentes pueden utilizarlas, si tienen capacidad suficiente. Los clientes sin licencia de HANA pueden comprar una pequeña cantidad de capacidad de HANA para asegurar que las necesidades de tiempo de ejecución de Data Hub sean satisfechas.