Llegamos a ustedes gracias a:



Reportajes y análisis

Búsqueda abierta

[22/05/2012] Twitter, Facebook, la biblioteca del Congreso -todas estas instituciones tienen descomunales cantidades de datos estructurados y no estructurados que se deben indexar y buscar rápidamente. En el caso de Twitter, son alrededor de 300 millones de nuevas piezas de información para indexar todos los días.
Por lo tanto, no es de extrañar que esas instituciones se aventuren en el aparentemente indómito mundo de las aplicaciones de búsqueda de código abierto; no solo por el ahorro de costos, sino también por la posibilidad de personalizar y modificar las aplicaciones de forma rápida. Además, el código abierto tiene una comunidad activa que puede ayudar a resolver los problemas relacionados.
Pero ¿qué pasa con otros usuarios de la empresa? Según Gartner, alrededor del 80% de la información en una empresa típica no está estructurada, incluyendo textos, correos electrónicos, blogs y videos, y ese porcentaje va en aumento. Toda esta información tiene un valor potencial, y en la actualidad se espera que todos los sitios web consulten y obtengan resultados relevantes tan rápido como los mejores motores de búsqueda en Internet. "La gente necesita la tecnología de búsqueda en casi todo lo que hace hoy en día. Todo el mundo piensa que la capacidad de búsqueda va a estar integrada en todo", señala Whit Andrews, analista de Gartner.
En este momento, la mayoría de las organizaciones tienen muy limitadas capacidades de búsqueda, que se basan generalmente en las consultas SQL o informes específicos. "Ese paradigma se romperá pronto, porque la cantidad de datos es demasiado grande, y está sucediendo demasiado rápido en un entorno 24/7", añade.
La mejor búsqueda
Las empresas de todo tipo están empezando a explorar las aplicaciones de búsqueda de código para echarle un vistazo a sus colecciones de datos estructurados y no estructurados. Uno de ellas es Lucene Solr, una plataforma de búsqueda de código abierto desarrollada por Lucid Imagination, una compañía de software de San Mateo, California.
El interés en las aplicaciones de búsqueda de código abierto empezó a despegar hace tres años. "Fue entonces cuando vimos la creación de Lucid Imagination, que se formó como un recurso de apoyo comercial" para el software de código abierto, señala Greg Olson, director senior del Olliance Group, una firma de consultoría de código abierto y una unidad de Black Duck Software. "Ese es un buen indicador de la demanda principal de los servicios o una solución en torno a una tecnología en crudo como Lucene".
No nos equivoquemos -Lucene es para los pesos pesados de la búsqueda, añade Andrews. "Lucene vale para personas que necesitan una oferta o producto de búsqueda muy sofisticado. Su usuario típico es un proveedor que necesita una enorme extensión en su aplicación de tecnologías. Es un gran lugar para utilizar Lucene -cuando necesita ser capaz de buscar mil millones de cosas. No verá el uso de Lucene cuando la Intranet necesita una búsqueda por el próximo jueves".
Otros jugadores ofrecen herramientas de búsqueda más ligeras basadas en la misma tecnología de código abierto de Lucene. Por ejemplo, el minorista en línea Zappos.com utiliza Lucene Solr para alimentar las 63 millones de consultas mensuales de sus clientes. Pero internamente, la empresa despliega el motor de búsqueda de código abierto Elasticsearch, para "sistemas críticos ajenos al sitio web o los servicios de falta de cumplimiento", señala Aye Thu, líder del equipo de búsqueda.
Muchos otros proveedores de aplicaciones de búsqueda han sido recientemente adquiridos por gigantes del software, creando dudas sobre su orientación futura. Microsoft adquirió las aplicaciones de búsqueda de código abierto Search&Transfer en el 2008, y las hizo de consumo a través de SharePoint. En agosto del 2011, HP adquirió Autonomy, y dos meses después, Oracle anunció sus planes para adquirir Endeca, que proporciona gestión de datos no estructurados, comercio web y soluciones de inteligencia empresarial.
Aunque ninguno de estos gigantes del software ha indicado que dejará de apoyar a su motor de búsqueda recientemente adquirido, "cada vez que su proveedor de tecnología es comprado, lo pone nervioso - especialmente si es otro proveedor de tecnología", señala Andrews.
Por el momento, esto deja a Lucene Solr como el líder independiente de la plataforma de búsqueda empresarial. Lucid informa que entre 200 mil y 300 mil copias de Lucene Solr se descargan todos los meses.
EMC está utilizando Solr Lucene para construir un add-on de análisis de texto para su oferta de base de datos relacional. "Si nos fijamos en la industria de la búsqueda empresarial, la mayoría de los jugadores de la vieja escuela o han sido adquiridos o se han desviado del camino", señala George Chitouras, director senior de investigación y desarrollo de EMC. "Desde mi perspectiva, la tecnología con la mayor fuerza de respaldo y la maduración más rápida es la tecnología Solr Lucene".
Aunque EMC no se llevado aún capacidades de búsqueda de código abierto dentro de su propia empresa, Chitouras indica que ve miles de usos para la tecnología en casi cualquier industria. "Cualquier gran empresa la ha utilizado para la recuperación de la información, ya sea haciendo procesos de centro de llamadas, gestión de relaciones con los clientes, e incluso la gestión de la innovación", añade.
Opciones de código abierto
A mediados del 2011, Lucid Imagination lanzó LucidWorks para la empresa, un paquete para la empresa basado en suscripción con soporte de expertos en la búsqueda de código abierto. Hoy en día, 100 clientes empresariales utilizan el producto. En el mes de febrero, Lucid también lanzó una versión de búsqueda como servicio basada en nube.
El CEO de Lucid, Paul Doscher ve que hay tres tipos de necesidades que motivan a las empresas a utilizar la búsqueda empresarial de código abierto. En primer lugar, "la gente quiere usar la búsqueda efectiva para alimentar sus sitios web, pero no quieren ser molestados con la infraestructura, gestión y mantenimiento de la misma", señala. LucidWorks se conecta a sus sitios web, rastrea los datos y crea la respuesta en el cuadro de búsqueda", con una capacidad mucho mayor de la que tienen ahora mismo", añade Doscher.
Segundo, las grandes empresas están recurriendo a la búsqueda de código abierto cuando se quiere tener una caja de arena para desarrollar prototipos de aplicaciones -pero no tienen la experiencia de desarrolladores, infraestructura o hardware para ello.
Tercero, las empresas pueden adoptar la opción del código abierto si están tratando de ampliar el valor de los datos que tienen actualmente. Es probable que la aplicación de búsqueda como servicio atraiga a estos usuarios, señala Doscher. Similar a lo que ofrece Salesforce.com, la aplicación en nube de Lucid permite que los usuarios rastreen la información a través de sus aplicaciones SaaS y luego la busquen con mayor eficacia o la integren con otra información dentro de la empresa o en la web. "Puede utilizarla como una plataforma de desarrollo de aplicaciones para desarrollar solicitudes de información más ricas y más eficaces", señala Doscher.
El científico jefe de Lucid, Grant Ingersoll, también considera algunos usos híbridos de la búsqueda de código abierto. "Usted aprovisiona su propia aplicación interna en sus centros de datos, pero luego se derrama sobre el exceso de capacidad de la versión soportada en nube", añade.
Para mantenerse por delante de los competidores, Lucid Imagination planea entrar en la inteligencia de negocios y en los espacios de almacenamiento de datos y permitir la integración con las grandes tecnologías de datos, señala Doscher. "Si pone aplicaciones tradicionales de almacenamiento de datos o de inteligencia de negocios en la parte superior de Hadoop, en algunos casos, es casi como tratar de aprovechar la tapa de registro de oportunidades y lanzarla a través de una manguera", indica. La aplicación de tecnologías de búsqueda de código abierto en estas zonas aliviará la presión acumulada por demasiadas capacidades de búsqueda de datos e índices inadecuados.
El volumen de información almacenada por las empresas de cara al futuro "va a dar miedo", agrega Doscher. La tecnología de búsqueda de código abierto se ocupará de ese diluvio.
"Creo que lo que Google ha hecho por la Internet, lo harán nuestras tecnologías para las empresas, ayudando a que la información esté disponible dentro de la empresa", señala Doscher. "Con el tiempo, usted será capaz de tener consultas en lenguaje natural dentro de la empresa, que influyen en todas las diferentes bases de datos, aplicaciones y ERP que la empresa ejecuta. Esto permitirá que la gente obtenga información instantánea en tiempo real, que está consolidada y es contextualmente relevante en torno al tema en el que están interesados".
Stacy Collett, Computerworld (EE.UU.)