Llegamos a ustedes gracias a:



Reportajes y análisis

Reseña: IBM Watson vuelve a atacar

IBM Watson

[02/05/2016] El sistema de inteligencia artificial Watson de IBM atrajo la atención del mundo cuando, en febrero del 2011, ganó en "Jeopardy y derrotó a dos de los máximos campeones de dicho juego. Desde entonces, IBM ha trabajado para aplicar el sistema Watson a problemas más interesantes que una simple prueba de trivialidades. IBM también ha expandido las capacidades de Watson a desarrolladores, científicos de datos, y hasta a usuarios comunes de negocios. Junto con el software de analítica predictivas SPSS de IBM, Watson forma la base de los productos de aprendizaje de máquina y analítica avanzada de nube de IBM.

IBM divide al sistema Watson en cinco partes: aprendizaje de máquina, análisis de preguntas, procesamiento de lenguaje natural, ingeniería de funciones, y análisis ontológico. Desde estas partes, IBM ha construido una suite de servicios de nube acoplables desde los cuales puede hacer su propio mini Watson como solución a su problema. (Tenga en cuenta que compilar la base de conocimientos para las respuestas es fácil: 95% de las preguntas de "Jeopardy pueden ser respondidas con los títulos de los artículos de Wikipedia).

Mientras tanto, IBM está colaborando en la aplicación de técnicas de Watson al cuidado de la salud, sismología y educación, entre otros campos, a nivel empresarial. Aunque estos esfuerzos sean muy interesantes, especialmente a largo plazo, para los propósitos de esta reseña me concentraré en Watson y otras tecnologías de aprendizaje de máquina (ML, por sus siglas en inglés) que están disponibles para su uso en IBM Cloud, que incluye a la PaaS, Bluemix.

¿Qué otras tecnologías ML? En una esquina distante del enorme imperio de IBM, IBM SPSS le ofrece implementaciones del paquete SPSS Modeler tanto para Windows como para nube, además del servicio Predictive Analytics que puede ejecutar las predicciones de su modelo en tiempo real en la PaaS Bluemix, y trabajos por lotes periódicos para actualizar los modelos. IBM SPSS Modeler es comparable con Azure Machine Learning y Databricks, mientras que los servicios IBM Watson son comparables con Project Oxford y Cortana Analytics de Microsoft, así como con Haven OnDemand de HPE.

SPSS Modeler y Predictive Analytics de IBM

Empecemos por SPSS Modeler y Predictive Analytics de IBM. Descargué la prueba gratuita de 30 días de SPSS Modeler para Windows y la puse a trabajar. La versión gratuita tiene activadas las funciones Personal Edition en el periodo de prueba: acceso y exportación de datos; preparación de datos automática, wrangling y ELT; más de 30 algoritmos base de aprendizaje de máquina y automodelamiento; extensibilidad de R y Python scripting. No cuenta con acceso a big data a través de un IBM SPSS Analytic Server para Hadoop/Spark, y no incluye las funcionalidades champion/challenger, testeo A/B, analítica de texto y entidad, o análisis de redes sociales. Aquellas funciones vienen con los SKU más costosos.

Los algoritmos de ML en SPSS Modeler son comparables con lo que uno encuentra en Azure Machine Learning y Spark.ml, como los métodos de selección de funciones y la selección de formatos soportados. Hasta el automodelamiento (entrene y califique a un grupo de modelos y elija el mejor) es comparable, aunque es más obvia la forma de usarlo en SPSS Modeler que en otros.

IBM SPSS Modeler para Windows tiene más de 30 modelos de ML, incluyendo el automodelamiento. Con una interfaz de apuntar y hacer clic, es sencillo de usar considerando su complejidad.
IBM Watson

Lo que tiene SPSS Modeler y no encontrará en Jupyter Notebooks de Azure Machine Learning o en Notebooks de Databricks es una interfaz tipo 'señalar y hacer clic'. Hubo un tiempo (hace mucho) en el que yo admiraba lo grandioso que era que SPSS hiciera que sus programas de análisis estadístico fueran más fáciles de usar, al añadir interfaces Windows de mouse y menú. Ya no me importa mucho eso. De hecho, ahora prefiero un enfoque tipo notebook, principalmente porque un notebook con anotaciones en vivo (el cual creo haber visto por primera vez en Mathcad para DOS) facilita que otro analista siga lo que usted ha hecho y que revise o amplíe su trabajo.

En general, pienso que IBM SPSS Modeler es bastante competente y fácil de usar, con un buen desempeño, pero es demasiado costoso. La designación "llame para saber el precio me dice que SPSS Modeler Gold en IBM Cloud y SPSS Analytic Server son probablemente incluso más caros.

¿Qué hace usted con los modelos SPSS una vez que los ha creado? Cárguelos a Bluemix. IBM Bluemix alberga servicios de Predictive Analytics Web que aplican modelos SPSS para exponer una API de puntajes que puede invocar desde sus aplicaciones. IBM ha publicado dos ejemplos de aplicaciones en GitHub; éstas están basadas en conjuntos de muestreo de datos provistos con SPSS Modeler, y son implementados como servicios Web invocados a través de aplicaciones Node.js y/o Angular.js. Ambas se ven relativamente claras.

El servicio de Predictive Analytics, que opera en IBM Bluemix, puede tomar modelos SPSS y desplegarlos como servicios web para darle puntajes a las predicciones para sus aplicaciones.
IBM Watson

Además de los servicios Web, Predictive Analytics soporta trabajos por lotes para retener y reevaluar modelos en base a datos adicionales. Opcionalmente, un trabajo por lotes puede actualizar un modelo desplegado con un modelo reentrenado; eso resuelve el problema común de los modelos predictivos: Que decaen cuando los datos van cambiando. Actualmente, los trabajos por lotes de Predictive Analytics solo se exponen como llamadas API; no he encontrado una interfaz de usuario.

Watson en Bluemix

Encontrará 18 servicios Bluemix enumerados en Watson, los cuales se muestran en la figura de abajo. Cada servicio expone una API REST. Además, uno puede descargar los SDK para usar la API desde sus aplicaciones. Por ejemplo, la AlchemyAPI tiene SDK y ejemplos disponibles para Java, C/C++, C#, Perl, PHP, Python, Ruby, JavaScript y Android OS. Necesitará una llave API para ejecutar las muestras y llamar a la API exitosamente. En general, una vez que provisiona un servicio de Watson en Bluemix, se le presentarán enlaces a una muestra en línea que puede ejecutar y dividir, así como a la documentación.

Actualmente existen 18 servicios Watson disponibles en IBM Bluemix, de los cuales 15 pertenecen a IBM.
IBM Watson

La AlchemyAPI ofrece un conjunto de tres servicios (AlchemyLanguage, AlchemyVision y AlchemyData) que capacita a los negocios y a los desarrolladores para construir aplicaciones cognitivas que entienden el contenido y contexto dentro de los textos e imágenes. AlchemyLanguage procesa el texto para darle un puntaje a su sentimentalidad, emoción (Beta), palabras clave, entidades y conceptos de alto nivel. AlchemyVision procesa imágenes para reconocer imágenes, escenas y objetos. AlchemyData proporciona noticias y contenidos de blogs en los que se pueden realizar búsquedas y que se encuentran enriquecidos con procesamiento de lenguaje natural. AlchemyAPI parece atraer las capacidades de muchos de los otros servicios de Watson y fusionarlos en un solo servicio que incluye una llamada combinada para las páginas Web.

El Dialog Service le permite diseñar la forma en que una aplicación interactúa con un usuario a través de una interfaz de conversación, usando lenguaje natural e información del perfil del usuario. El servicio Document Conversion convierte un documento HTML, PDF o de Microsoft Word en un HTML normalizado, texto simple o en un conjunto de unidades de Answer con formato JSON que pueden ser usadas con otros servicios de Watson.

Language Translation funciona en muchos campos del conocimiento y pares de idiomas. En los campos de las noticias y la conversación, las parejas origen/destino son el inglés y portugués brasileño, francés, árabe moderno estándar, o español. En patentes, las parejas son inglés y portugués brasileño, chino, coreano, o español. El servicio Translation puede identificar texto mientras se escribe en uno de los 62 idiomas.

El servicio Natural Language Classifier aplica técnicas de computación cognitiva para devolver las mejores clases que coincidan con una oración, pregunta o frase, después de entrenar en su conjunto de clases y frases.Usted puede ver cómo fue útil esta capacidad para jugar "Jeopardy.

Personality Insights extrae insights de datos transnacionales y de redes sociales (al menos mil palabras escritas por un solo individuo) para identificar rasgos psicológicos, devolviendo la información como un árbol de características en el formato JSON. Relationship Extraction analiza las oraciones de acuerdo a sus componentes y detecta relaciones entre los componentes (partes del discurso y funciones) a través de un análisis contextual. La API Personality Insights está documentada para Curl, Node, y Java; la demo para el API analiza los tuits de Oprah, Lady Gaga y King James, así como varios pasajes textuales.

Retrive and Rank es un optimizador de relevancias entrenado mediante ML para los resultados de búsqueda en Apache Solr. Solr es un servidor de búsquedas que toma en cuenta la taxonomía y que, a su vez, ha sido construido en base al indexamiento de texto completo de Apache Lucene.

El servicio de Speech to Text convierte a la voz humana en una palabra escrita para el idioma inglés, japonés, árabe (moderno estándar), mandarín, portugués (Brasil) y español. Junto con el texto, el servicio regresa los metadatos como el puntaje de confianza por palabra, tiempo de inicio/fin por palabra, y alterna la hipótesis/ N-Best (las N alternativas más probables) por frase.

El servicio Text to Speech procesa texto y lenguaje natural para generar un output de audio sintetizado completo con la entonación y la cadencia apropiada. Las voces están disponibles para inglés americano y europeo, francés, alemán, portugués brasilero, italiano, español americano y japonés. De acuerdo a la documentación, una de las tres voces del inglés americano fue utilizada como la voz de Watson para "Jeopardy, pero esa voz no estaba en oferta cuando usé la demo.

Tone Analyzer, aún en beta, identifica emociones, tendencias sociales y estilos de escritura de textos. Tradeoff Analytics usa técnicas de filtración Pareto para poder identificar las alternativas óptimas a lo largo de muchos criterios, después utiliza estrategias analíticas y visuales para ayudar al que toma las decisiones a explorar los trade offs dentro del conjunto de alternativas identificadas.

Finalmente, el servicio de Visual Recognition le permite analizar la apariencia visual de imágenes JPEG (o cuadros de video) para entender qué está pasando en una escena. Usando tecnología de aprendizaje de máquina preentrenada, los clasificadores semánticos reconocen muchas entidades visuales comunes, como lo pueden ser locaciones, objetos y eventos, etiquetas de retorno y puntajes de probabilidad.

Los tres servicios que no son IBM Watson en Bluemix se encuentran en betas cerradas.

Watson Analytics

Watson Analytics usa el procesamiento de lenguaje natural propio de IBM para hacer que el aprendizaje de máquina sea más fácil de usar para los analistas de negocios y otros roles de negocio que no implica a científicos. Es una aplicación web que aparentemente usa muchos de los servicios que IBM incluye en la sección Watson de Bluemix. Yo probé la edición gratuita y la usé para analizar el conjunto de datos relacionados con el alquiler de bicicletas que fue proporcionada como una de las muestras.

IBM Watson Analytics opera en su propio sitio en vez de hacerlo en Bluemix. Como se ha mostrado, esto le permite analizar datos a través de cinco procesos. El énfasis se encuentra en hacer que la ciencia de datos sea accesible.
IBM Watson

Puedo ver que este enfoque podría ser de utilidad para alguien que quiere resultados de ML sin programación o sin siquiera entender los métodos muy bien. Sin embargo, encontré que la interfaz de lenguaje natural y todos los diagnósticos útiles, en su mayoría, me estorbaron. Eso me sorprendió porque las interfaces de usuario de los productos de inteligencia de negocio Tableau y Qlik Sense, que implementan una parte de lo que Watson Analytics intenta lograr, definitivamente no me estorbaron.

A Watson se le ocurrió un modelo de árbol de decisión para un conjunto de datos de alquiler de bicicletas con un 48% de fortaleza predictiva. Esta hoja de cálculo no ha separado a los conductores en días laborables y no laborables.
IBM Watson

He intentado cubrir tres (o más, dependiendo de cómo se cuenten) de los productos de ML de IBM en una sola reseña. Debo admitir que no fue fácil, y no me fue posible realizar una evaluación tan extensa de cada producto como me hubiese gustado, pero aun así he sido capaz de llegar a algunas conclusiones generales.

IBM SPSS Modeler ofrece entrenamiento y calificación convencional de ML en una interfaz de usuario Windows o en línea. Es bastante bueno, pero costoso. Bluemix Predictive Analytics puede operar modelos SPSS como servicios web y devolver predicciones. También puede ejecutar trabajos por lotes para actualizar modelos.

Watson Services en Bluemix ofrece servicios de nube y APIs para aplicaciones de ML útiles y especializadas. Se ofrecen 15 servicios IBM Watson, que pueden ser incorporados en sus aplicaciones. Aunque todos son distintos, todos aparentan ser buenos adicionales y de costo razonable para la bolsa de trucos de un programador.

Watson Analytics es una aplicación web para analizar datos con ML y herramientas asociadas, incluyendo la exploración de datos. Watson Analytics se esfuerza tanto en ser fácil de usar que me hace sentir desorientado y me hace querer arrancar la interfaz de usuario y cambiar el código. Puedo ver el valor de Watson Analytics para su audiencia objetivo de personas de negocios sin entrenamiento en ciencia de datos, pero a mí no me gusta particularmente.

Los verdaderos científicos de datos probablemente querrán evitar Watson Analytics en favor de SPSS Modeler y Watson Services en Bluemix. Los analistas de negocios podrían utilizar Watson Analytics, pero podría irles mejor usando Tableau para su análisis de datos exploratorio, y después colaborando con un científico de datos para desarrollar sus modelos predictivos.

Martin Heller, InfoWorld (EE.UU.)