Llegamos a ustedes gracias a:



Noticias

Diffbot organiza los datos de la web para su uso empresarial

[09/06/2015] Diffbot está intentando reorganizar todos los datos en la web de tal forma que se pueda hacer un mejor uso de ellos.

El servicio "convierte la web existente en una representación estructurada tipo base de datos que esencialmente se puede usar para todo tipo de aplicaciones inteligentes, sostuvo Mike Tung, CEO de Diffbot.

El jueves, Diffbot afirmó que había recibido 500 mil dólares en financiamiento de Bloomberg Beta, el brazo inversor de la compañía de medios Bloomberg. Andy Bechtolsheim, uno de los fundadores de Sun Microsystems y el primer gran inversionista de Google, también respalda el proyecto. Diffbot señala que ya tiene clientes de paga en el servicio, el cual está siendo usado por Bing, Adobe, Salesforce.com y eBay.

El servicio crea un objeto para cada página web que encuentra. El objeto proporciona estructura a un conjunto de datos relacionados de tal forma que puedan ser programáticamente reutilizables, junto con otros objetos similares, por parte de un motor de query o una aplicación externa. El software ha estado copiando todas las páginas que encuentra en la web y las reorganiza en objetos.

Quizás el ejemplo más conocido de este enfoque basado en objetos es Knowledge Graph de Google, un proyecto de web semántica. Si se realiza una búsqueda sobre una palabra clave en particular, como el nombre "Johnny Depp, Google retornará, junto con una lista estándar de páginas web, una caja que contiene información básica sobre el actor, como su fecha de nacimiento y estatura. Esa caja de información es un rendering del objeto "Johnny Depp de Knowledge Graph construido por Google.

Diffbot, con oficinas centrales en Palo Alto, California, fue fundada en el 2008, y afirma que su propia colección de objetos es superior a la de Google.

La compañía, que cuenta con 14 empleados, afirma que ha creado un sistema completamente automatizado para crear objetos con exactitud. El enfoque de Google es en parte manual, requiere que algunas personas editen los objetos después de que han sido creados, confirmó un portavoz de Google.

Knowledge Graph de Google es más grande que el de Diffbot, ya que contiene aproximadamente mil millones de objetos, mientras que el índice global de Diffbot de la web ahora incluye 600 millones de objetos. Pero Google aún no ofrece una API de Knowledge Graph para uso comercial de terceros, aunque está trabajando en una.

Diffbot se basa en la idea de que los negocios podrían usar una colección de información organizada para sus propios propósitos. Nike, por ejemplo, podría desplegar el servicio para construir un perfil de las otras compañías de calzado y sus productos, sugirió Tung. Diffbot ofrece un conjunto de API que las aplicaciones de terceros pueden usar para hacer queries en el enorme conjunto de objetos.

La compañía ha desarrollado un conjunto de algoritmos de inteligencia artificial (AI, por sus siglas en inglés) que pueden identificar el contexto y el sujeto de las páginas web; la compañía está en el proceso de patentar algunos de ellos. Un nuevo algoritmo de AI se basa en la visión de computadora, que no es una técnica muy usada para indexar páginas web, reconoció Tung. La disposición y el diseño de las páginas web pueden proporcionar importantes pistas para ayudar a definir mejor los objetos. "La disposición es el signo que nos permite determinar qué tipo de página es, sostuvo Tung. Un sitio de comercio electrónico tiene una estructura totalmente diferente que un sitio de noticias, por ejemplo.

Joab Jackson, IDG News Service