Llegamos a ustedes gracias a:



Reportajes y análisis

Web semántica: Herramientas que puede utilizar

[01/04/2011] Vince Fioramonti tuvo una revelación en el 2001. Se dio cuenta de que la información valiosa sobre las inversiones estaba cada vez más disponibles en la web, y que un número creciente de vendedores estaban ofreciendo software para capturar e interpretar esa información en términos de su importancia y relevancia.

"Yo ya tenía un equipo de analistas leyendo y tratando de digerir las noticias financieras de las empresas", señala Fioramonti, socio y analista senior de cartera internacional en la firma de inversión Alfa Equity Management. Pero el proceso era demasiado lento y los resultados tendían a ser subjetivos e inconsistentes.
Al año siguiente, Fioramonti licenció la plataforma semántica de Autonomy Corp, Intelligent Data Operating Layer (IDOL), para procesar diversos tipos de información digital de forma automática. La implementación se topó con un obstáculo, IDOL proveía solo algoritmos semánticos generales. Alpha Equity debería haber tenido que asignar un equipo de programadores y analistas financieros para desarrollar algoritmos específicos de las finanzas y los metadatos, indica Fioramonti. La administración desechó el proyecto porque era demasiado caro.
El avance para Alpha Equity llegó en el 2008, cuando la empresa se inscribió en Machine Readable News de Thomson Reuters. El servicio recolecta y analiza noticias en línea de tres mil periodistas de Reuters, y de terceros, tales como los periódicos en línea y blogs. A continuación, analiza y anota el material por sentimiento (lo que el público siente por una empresa o producto), relevancia y novedad.
Los resultados se transmiten a los clientes, que incluyen relacionistas públicos y profesionales del marketing, comerciantes que realizan comercio automatizado y los administradores de carteras, quienes agregan e incorporan esa data en las decisiones de inversión a largo plazo.
La suscripción mensual al servicio no es barata, señala Fioramonti. Según una estimación -que Thomson Reuters no quiso comentar- el costo de las actualizaciones de los datos en tiempo real es de entre 15 mil y 50 mil dólares mensuales. Pero Fioramonti afirma que el valor del servicio justifica el precio que Alpha Equity paga. Él dice que la información le ha ayudado a aumentar el rendimiento de la cartera de la empresa, y ha permitido que consigan dar un salto sobre sus competidores. "Thomson Reuters nos da las noticias y el análisis para que podamos seguir creciendo como profesionales cuantitativos", agrega.
La experiencia de Alpha Equity no es la única. Si una empresa decide construir en sus instalaciones o contratar a un proveedor de servicios, a menudo paga un alto precio para aprovechar plenamente la tecnología de web semántica. Esto es particularmente cierto si la información que se busca y analiza contiene la jerga, los conceptos y las siglas que son específicas para un dominio de negocio en particular.
He aquí un resumen de lo que está disponible para ayudar a que las empresas implementen y exploten las infraestructuras de web semántica, junto con una mirada a lo que sigue siendo necesario para que la tecnología alcance su potencial.
Las normas clave
En el núcleo de la visión no realizada de Tim Berner sobre la web semántica, está la búsqueda federada. Esto permitiría que un motor de búsqueda, un agente automatizado o una aplicación consulte cientos o miles de fuentes de información en la web, descubran y analicen semánticamente el contenido relevante, y entreguen el producto exacto, respuesta o información que el usuario estaba buscando.
A pesar de que la búsqueda federada se está imponiendo -sobre todo en Windows 7, que la presenta como una característica- le queda un largo camino para ser un fenómeno en la web.
Para ayudar a que la búsqueda federada gane tracción, la World Wide Web Consortium (W3C) ha desarrollado varias normas clave que definen a una infraestructura de base semántica. Estas normas incluyen las siguientes:
*Protocolo simple y RDF Query Language (SPARQL), que define un lenguaje estándar para realizar consultas y acceder a los datos.
*Resource Description Framework (RDF) y RDF Schema (RDFS), que describen cómo está representada y estructurada la información en una ontología semántica (también llamado vocabulario).
*Web Ontology Language (o OWL), que proporciona una descripción más rica de la ontología y también incluye algunos elementos RDFS.
Las versiones finales de estas normas son compatibles por los principales proveedores de plataformas web semántica como Cambridge Semantics, Expert System, Revelytix, Endeca, Lexalytics, Autonomy y Topquadrant.
Los principales motores de búsqueda web, como Google, Yahoo y Bing de Microsoft, están comenzando a utilizar los metadatos semánticos para dar prioridad a las búsquedas y para soportar los estándares del W3C como RDF.
Y los vendedores de software empresarial como Oracle, SAS Institute e IBM están saltando a bordo, también. Su oferta incluye Oracle Database 11g Semantic Technologies, Ontology management de SAS y InfoSphere BigInsights de IBM.
Conceptos básicos de semántica
El software semántico utiliza una variedad de técnicas para analizar y describir el significado de los objetos de datos y sus interrelaciones. Estos incluyen un diccionario de términos genéricos y, a menudo, las definiciones específicas que se utilizan en la industria, así como análisis de la gramática y el contexto para resolver ambigüedades del lenguaje, tales como palabras con múltiples significados.
El propósito de resolver las ambigüedades del lenguaje es ayudar a garantizar, por ejemplo, que un comprador que hace una búsqueda usando una frase como "autos usados de color rojo" también obtenga resultados de los sitios web que utilizan términos ligeramente diferentes, con significados similares, tales como "de segunda mano" en lugar de usados y "automóvil "en lugar de "auto ".
Los estándares W3C están diseñados para resolver las inconsistencias en la forma en que diversas empresas organizan, describen, presentan y estructuran la información, y así preparar el camino para las consultas semánticas de dominios cruzados y búsqueda federada.
Para ilustrar las ventajas de la utilización de tales normas, Michael Lang, director general de Revelytix, fabricante de herramientas de gestión de ontología, ofrece el siguiente escenario: Si 200 minoristas de electrónica de consumo en línea usan estándares de la web semántica como RDF para desarrollar ontologías que describen sus catálogos de productos, el software de Revelytix podría hacer que esa información sea accesible a través de un punto de consulta SPARQL. Entonces, señala Lang, los compradores en línea pueden utilizar herramientas W3C-compatibles del navegador con la búsqueda de productos a través de estos sitios, el uso de consultas como: "Mostrar todos los televisores de pantalla plana que sean de 42 a 52 pulgadas, y clasificar los resultados por precio".
Los motores de búsqueda y otros sitios web de compra de terceros ofrecen comparaciones de productos, pero las comparaciones tienden a ser limitadas en cuanto a la gama de atributos objeto de una búsqueda determinada. Por otra parte, los compradores se encuentran a menudo con que los datos proporcionados por las fuentes comerciales de terceros están fuera de fecha o son incorrectos y engañosos -no puede, por ejemplo, disponer de información precisa sobre la disponibilidad de un determinado tamaño o color. La consulta basada en estándares a través de los propios sitios web de los comerciantes permite que los compradores comparen la información más rica y más actualizada proporcionada por los propios comerciantes.
El grupo de trabajo W3C SPARQL está elaborando una descripción del servicio SPARQL diseñada para estandarizar la forma en que los extremos de SPARQL, o fuentes de información, presentan sus datos, con normas específicas para la forma en que describen los tipos y cantidad de datos que tienen, señala Lee Feigenbaum, el vicie presidente de tecnología semántica en Cambridge y co-presidente del grupo de trabajo del W3C SPARQL.
Bloques de construcción y herramientas de software
Las herramientas, plataformas, componentes predefinidos y servicios están disponibles para ayudar a que las implementaciones de semántica consuman menos tiempo, sean menos complejas técnicamente y (de algún modo) menos costosas. Aquí está un breve vistazo a algunas opciones.
Jena es un marco de código abierto de Java para construir aplicaciones de web semántica. Incluye API para RDF, RDFS y OWL, un motor de consulta SPARQL y un motor de inferencia basado en reglas. Otra plataforma, Sesame, es un marco de código abierto para el almacenamiento, inferencia y consultas de datos RDF.
La mayoría de las principales plataformas web semánticas vienen con repositorios de conocimientos que describen términos generales, conceptos y siglas, dándoles a los usuarios un inicio rápido en la creación de ontologías. "Los clientes tienen exigencias contradictorias: que la plataforma pueda ser capaz de dar respuestas precisas, y tenerla adaptada a su área de negocio", señala Seth Redmore, vicepresidente de gestión de productos de Lexalytics.
Para hacer frente a ese dilema, Lexalytics vende su plataforma semántica principalmente a sus socios proveedores del servicio, que a continuación, lo pulirán para los dominios de negocio y aplicaciones específicas. Machine Readable News de Thomson Reuters es un ejemplo.
Otros proveedores de plataformas han estado desplegando soluciones específicas de negocio. Endeca, por ejemplo, proporciona herramientas de desarrollo de aplicaciones para el comercio electrónico y aplicaciones semánticas empresariales, incluyendo ofertas específicas para el comercio y la publicación electrónicas.
También hay herramientas para incorporar automáticamente los metadatos semánticos y los estándares del W3C, en los órganos existentes de información. Por ejemplo, la utilidad Spyder de Reveltix transforma automáticamente tanto los datos estructurados como no estructurados a RDF, según Lang. A continuación presenta, o "publica" la información en la web como un endpoint de SPARQL que puede ser accesible por navegadores compatibles con SPARQL, añade.
Una herramienta de código abierto llamada D2RQ puede asignar el contenido seleccionado a la base de datos de RDF y ontologías OWL, haciendo que los datos sean asequibles por las aplicaciones compatibles con SPARQL.
Revelytix vende una herramienta de modelado del conocimiento compatible con W3C, llamada Knoodl.com, un marco basado en wiki diseñado para ayudar a que todos, desde los especialistas técnicos y expertos en la materia, hasta a los usuarios de negocios colaboren en desarrollar un vocabulario que describe y mapea la información específica de dominios que residen en múltiples sitios web. Las comunidades de interés pueden utilizar Knoodl.com para acceder, compartir y refinar el conocimiento, según Lang.
Por ejemplo, la consultora Dachis Group ha desarrollado lo que denomina una arquitectura de diseño de negocios sociales, cuyo propósito es ayudar a los usuarios a colaborar/compartir ideas y luego reducirlas y "exponer y dar sentido a" los datos dentro de una organización empresarial u otra comunidad de personas relevantes, tales como clientes o socios, indica Bryant Lee, director general de las operaciones europeas de la empresa.
Estas ofertas puedan facilitar considerablemente la tarea de desarrollar una infraestructura semántica. Por ejemplo, Bouygues Construction utiliza la plataforma semántica de Sinequa, Context Engine, y necesitaba solo seis meses para hacer una aplicación inicial de un sistema semántico para la localización la experiencia dentro de la empresa, según Eric Juin, director de los servicios electrónicos y la gestión del conocimiento en Bouygues.
Desde entonces, Bouygues ha desarrollado una aplicación de búsqueda semántica que ayuda a los trabajadores del conocimiento a encontrar rápidamente la información, que reside tanto en los sistemas internos como en la web, añade Juin.
Context Engine indexa y calcula la relevancia de las personas y los conceptos de medio millón de documentos, incluyendo actas de las reuniones, fichas de datos de los productos, materiales de capacitación y documentación del proyecto, comenta. La plataforma incluye un "diccionario semántico genérico" de palabras y términos comunes, que se puede traducir entre diferentes idiomas, según Juin. Por ejemplo, un empleado francés pueda buscar semánticamente un documento escrito en alemán.
Algunos términos y siglas específicas del negocio tienen que añadirse manualmente -lo que representa un proceso continuo que requiere de expertos en semántica para colaborar con los usuarios de negocios, señala Juin. Con el tiempo, sin embargo, su grupo ha ido añadiendo definiciones de palabras clave, ya que el motor semántico puede utilizar otras palabras, en relación a determinar la pertinencia de un término en un tema específico, agrega.
La opción SaaS
Las empresas que carecen de los recursos internos para construir su propia infraestructura de web semántica pueden seguir el ejemplo de Alfa Equity, e ir con un servicio de semántica proporcionado por un tercero.
Uno de estos proveedores es Thomson Reuters, que, además de su servicio de lectura mecánica de noticias, ofrece un servicio llamado OpenCalais a través del cual crea metadatos semánticos para el contenido de los clientes. Los clientes pueden desplegar ese contenido etiquetado para la búsqueda, la agregación de noticias, blogs, catálogos y otras aplicaciones, según Thomas Tague, vicepresidente de Thomson Reuters.
OpenCalais también incluye un conjunto de herramientas gratuitas que los clientes pueden usar para crear sus propias infraestructuras de semántica y metadatos, y crear vínculos con otros proveedores de Internet. El servicio ahora procesa más de cinco millones de documentos por día, de acuerdo con Tagua.
DNA13 (que ahora es parte de CNW Group), Lithium Technologies (ahora dueña de Scout Labs) y Cymfony se encuentran entre los proveedores de servicios semánticos que consultan, recogen y analizan noticias en la web y medios sociales, con miras a ayudar a los clientes en áreas tales como la gestión de la marca y de la reputación, la gestión de relaciones con los clientes y la comercialización.
¿Cuándo es que la web semántica importa realmente?
En una encuesta de Pew del 2010 a cerca de 895 expertos en tecnología semántica y partes interesadas, el 47% de los encuestados coincidieron en que la visión de Berners-Lee de una web semántica no se realizará o hará una diferencia significativa para los usuarios finales en el año 2020. Por otro lado, el 41% de los encuestados predijeron que sí lo haría. El resto no respondió a esa consulta.
Las normas básicas del W3C están terminadas y ganando apoyo, y hay un número creciente de plataformas y herramientas de software. Sin embargo, la tecnología de web semántica -y sus norma - están lejos de alcanzar esa masa crítica de apoyo necesaria para aprovechar plenamente sus beneficios, algo en que los expertos están de acuerdo.
En este punto es importante hacer una distinción clara entre las tecnologías semánticas en general y las tecnologías de web semántica que hacen uso de los estándares del W3C, y que se aplican específicamente a las fuentes de información en la web.
Las tecnologías semánticas están siendo adoptadas, en particular para la gestión del conocimiento de la empresa y la inteligencia de negocios, según concuerdan los expertos. El mercado de herramientas de análisis semántico basado en texto que ayudan a los usuarios "encontrar lo que buscan en información no estructurada" está creciendo a un 20% por año, señala Susan Feldman, analista de la firma de investigación IDC. Por otra parte, las plataformas de búsqueda más empresariales incluyen ahora la tecnología semántica, agrega.
En comparación con las herramientas BI más tradicionales, uno de los principales beneficios de la tecnología semántica es que a los expertos en la materia se les da la capacidad de construir sus propias estructuras de consulta, sin que necesiten a TI yendo a través de las largas y rigurosas tareas que consumen tiempo y luego reconstruyen la data de los almacenes y del mercado. Por ejemplo, "un experto en, digamos, auditoría para el cumplimiento de normas y regulaciones puede construir una estructura semántica en dos semanas, no en nueve meses", y luego cambiarla de manera rápida y fácil, señala Mills Davis, director gerente de la firma de investigación semántica Project10X.
Otros beneficios de la tecnología semántica -de nuevo en comparación con las herramientas tradicionales de BI- incluyen la posibilidad de realizar consultas más complejas, más amplias, analizar datos no estructurados, y la posibilidad de empezar poco a poco con las consultas específicas, y luego crecer y desarrollarse con pequeños incrementos.
En la web, la tecnología semántica ha establecido una posición firme en un número creciente de nichos en el mercado. Uno de ellos es la publicación electrónica, que los servicios de noticias en línea como DBpedia, Geonames, RealTravel y Metaweb (Freebase) fueron los primeros en adoptar. Otra es la información financiera en línea de servicios empresariales, donde las empresas como Thomson Reuters y Dow Jones se han subido a bordo. Algunos de los usuarios destacados de la oferta de Thomson Reuters, son organizaciones de medios noticiosos como CBS Interactive y su unidad CNET, Slate, el Huffington Post, y el agregador de e-noticias Moreover Technologies. Por otra parte, más de nueve mil sitios de publicación en línea ahora utilizan OpenPublish, un paquete que integra OpenCalais con Drupal, un sistema de gestión de contenido de código abierto.
Recientemente, los minoristas en línea han comenzado el despliegue de plataformas de web semántica para ayudar a optimizar el producto y la ubicación de la marca en los motores de búsqueda, y proporcionarles a los consumidores mejores y más eficientes experiencias de compra.
Los obstáculos a superar
Todavía falta, sin embargo, un amplio consenso en los estándares del W3C y vocabularios comunes que faciliten las consultas semánticas a través de diferentes dominios web y de negocios. En este momento, la mayoría de los esquemas web semánticos son desarrollados por y para empresas individuales, dentro y fuera de la web; además sirven para grupos diferentes dentro de una empresa. Estos marcos a menudo contienen términos específicos de la empresa y de sus funciones, la jerga y siglas que no se traducen bien a otros ámbitos de conocimiento. Como resultado de ello, para hacer la consulta de varios dominios, las aplicaciones semánticas y los servicios deben interactuar con la ontología de cada fuente de información de manera individual, según fuentes de la industria.
Tomemos el caso de Eni. Los técnicos y expertos de la compañía global de energía han pasado 12 años en el desarrollo y el perfeccionamiento de una plataforma semántica BI basada en Cogito de Expert System, de acuerdo con Daniel Montanari, líder de las prácticas de Eni con las tecnologías semánticas. La plataforma soporta los procesos, producción y logística del comercio de petróleo, gas y otros relacionados con la energía, agrega Montanari.
Cogito permite que los usuarios finales de Eni vayan a una fuente de información preseleccionada, y a menudo presuscrita, en la web; localice la información clave sobre un tema en particular y genere un "corpus" que puede ser descargado, actualizado automáticamente y solicitado semánticamente, señala Montanari.
Los esquemas semánticos tienden a ser específicos de un área de negocio en particular, agrega Montanari. Por ejemplo, la división de refinación de la compañía ha desarrollado marcos semánticos y clasificaciones para localizar rápidamente la información dentro de un amplio corpus de artículos. Muchos de estos artículos fueron escritos por el grupo R&D de Eni, mientras que otros provienen de fuentes web a las que el grupo se suscribe, señala.
Sin embargo, las búsquedas generalizadas en la web -por ejemplo, por los últimos adelantos técnicos en la industria petrolera- son problemáticas debido a que cada sitio tiene su propia ontología propietaria, señala Montanari. "Para cubrir múltiples fuentes dentro de un dominio de la información, tiene que definir un modelo semántico común", añade.
Las mismas cuestiones se aplican a las consultas semánticas internas, agrega Montanari. Su grupo quiso una vez crear un esquema semántico en toda la empresa que pudiera "modelar y mapear las correspondencias de todo lo que estaba en nuestras bases de datos y conjuntos de datos, sin más ambigüedad", pero la compañía no fue capaz de resolver las diferencias entre los dominios de negocios, incluido el petróleo, el gas, R&D, marketing y otros.
"Incluso a nivel de la lingüística, hay problemas", señala. Como resultado, las consultas internas tienden a permanecer dentro de un grupo profesional o especializado.
Moviendo las cosas
Las ontologías estandarizadas están empezando a surgir en las industrias que sienten la presión de los clientes o de los reglamentos, tales como las de salud y productos farmacéuticos. Aún está por verse si las empresas de comercio electrónico se unirán en torno a un esquema común.
Uno de estos esfuerzos es el vocabulario semántico de comercio electrónico GoodRelations. Hasta ahora, solo un puñado de compañías, incluyendo BestBuy.com y Overstock.com, se ha inscrito en él. Google anunció recientemente que también es compatible con el vocabulario, según Hepp Research, que vende y publica GoodRelations.
"Al igual que los teléfonos y la Internet... la tecnología se vuelve más valioso a medida que más gente la utiliza", señala Phil Simon, un consultor y autor de The Next Wave of Technologies. Lo que aún le falta a muchas empresas, es una clara recuperación de la inversión que se justifique el costo, a menudo elevado, de la implementación, añade. Una compañía que quiera hacer accesible una gran cantidad de información no estructurada, ya sea internamente o en la web, "puede pasar años y años creando una infraestructura web semántica... antes de que se vea una recompensa", señala Simon, añadiendo que tales esfuerzos pueden implicar grandes inversiones en la limpieza y el etiquetado de los datos, además de las inversiones en nuevas tecnologías.
De hecho, la web semántica, al igual que muchas otras tecnologías innovadoras de la información que la precedieron, puede quedar atrapada en un clásico Catch-22: se necesita una masa crítica de usuarios antes de que ingresen los beneficios; pero las empresas, especialmente las de comercio electrónico, no darán el salto hasta que se haya alcanzado el número mágico.
En el blog, Random Musings, el ingeniero jefe de desarrollo web de BestBuy.com, Jay Myers, señala: "Las categorías de productos pueden ser únicas para un minorista o fabricante, y con miles de millones de productos de consumo y un sinfín de categorías de productos, la categorización del producto universal parece ser una meta inalcanzable. He visto unos pocos intentos de clasificación de la masa del producto, pero no he visto mucho progreso (¿quién querría administrar una taxonomía masiva de productos globales?). Por otra parte, conseguir un consenso en la definición de las categorías parece un esfuerzo inútil que debe ser evitado".
Más optimista, prosigue, "solo porque no hay normas universales por ahí, no quiere decir que no se pueda comenzar a dotar a las máquinas con una semblanza de la clasificación del producto" utilizando los estándares y la ontología disponible de W3C como GoodRelations. "Eso es ganancia segura", añade, "ya que el negocio obtiene clientes satisfechos, y el cliente hace decisiones de compra óptimas sobre la base de datos relevantes de los productos".
De hecho, muchos otros miembros de la comunidad de la web semántica tienen la esperanza de que la tecnología semántica, va a revolucionar la web -con el tiempo.
"El aumento de usuarios y la movilidad de datos, y la expansión de los servicios de Internet y la información de datos digitales en la vida cotidiana, nos están empujando hacia la dirección semántica", señala Davis de Project10X. Con la rápida proliferación de las fuentes de información en la web, cuya procedencia es dudosa, continúa, " no solo está buscando una aguja en un pajar -está buscando el pajar correcto. La semántica proporciona un medio fundamental para separar el trigo de la paja".
"Cuando hablo de web semántica en los círculos de tecnología, nueve de cada 10 no saben de qué demonios estoy hablando", señala el autor de Next Wave, Simon. "Pero ¿creo en su poder, y que será un elemento de cambio en el futuro? Por supuesto.
Elisabeth Horwitt , Computerworld (US)