Llegamos a ustedes gracias a:



Columnas de opinión

Cinco ventajas del Acceso Unificado a la Información

Por: Sid Probstein, CTO en Attivio

[11/08/2010] La primera ola de búsqueda empresarial ayudó a las compañías a aprovechar el mundo del texto, a veces descrito como información "no estructurada" o "semi-estructurada". Las primeras iniciativas incluyeron la necesidad de monetizar el contenido digital, reducir el riesgo a través de cumplimiento de normas o de aumentar la productividad de los empleados, clientes y socios. Estas primeras implementaciones proporcionaron un valor significativo y resolvieron problemas importantes; también demostraron las limitaciones que han dado lugar a la demanda de la próxima generación: el acceso unificado a la información o Unified Information Access (UIA).

Este artículo detalla las cinco razones más importantes por las que las empresas más visionarias del mundo están actualizándose a UIA.
1. Ventaja competitiva
Una encuesta reciente sobre los despliegues legacy de búsqueda empresarial para uso interno encontró que las mejores implementaciones le ahorraban a los usuarios, en promedio, más de seis horas de su tiempo productivo por semana. Las implementaciones menos efectivas ahorraron en promedio menos de una hora.
¿Qué hizo la diferencia? Las mejores implementaciones se centraron en proporcionar la mayor información posible al usuario final a través de una interfase de búsqueda. Las que proporcionan menos beneficios estuvieron impulsadas por las preocupaciones de precio, costo total de propiedad y el número de formatos de archivo admitidos.
Esto no debería sorprender. Numerosos estudios en los últimos dos decenios han identificado que los silos de información constituye un importante obstáculo a la productividad.
Pero la búsqueda tiene limitaciones significativas, ya que fundamentalmente tiene que lidiar con información no estructurada en bruto en forma de bloques de texto. Muchas demostraciones populares de gran búsqueda" utilizan contenido preparado cuidadosamente, como el que se encuentra en los sistemas de administración contenidos; otros se centran en documentos de oficina normalmente ubicados en servidores de archivos.
La incorporación de información de otros sistemas empresariales como el correo electrónico, sistemas de colaboración, sistemas CRM y ERP, etc., puede ser muy difícil -especialmente si ofrecen seguridad compleja o granular. Responder a este desafío es la clave para aquellos que utilizan la productividad como una ventaja competitiva.
Más allá del impacto en los usuarios finales, está el impacto sobre el departamento de TI en sí. Aunque a veces se puede realizar, la implementación de soluciones UIA con un motor de búsqueda y con base de datos puede ser costosa. Simplemente crear una base de datos y un motor de búsqueda puede ser difícil. Añadir la lógica del negocio para permitir que la aplicación utilice cualquier repositorio puede resultar complejo y difícil.
Las plataformas UIA remueven la mayoría de estas barreras y agilizan la interacción real con la aplicación; en lugar de varias consultas contra múltiples repositorios, una sola consulta recupera toda la información a través de todas las fuentes. El trabajo verdadero es procesar los resultados. El UIA reduce el riesgo y la complejidad de un proyecto único. A medida que usted implementa múltiples proyectos, los ahorros se multiplican dramáticamente, mientras que el valor obtenido en un proyecto se convierte en alimento para los próximos.
Por supuesto, la productividad es solo una de las ventajas del UIA. Ser capaz de analizar la información de todo tipo con gran rapidez, abre una variedad de nuevas puertas. Por ejemplo, podría ser posible crear nuevos análisis de conversión o de rentabilidad que usen datos no estructurados creados por los usuarios durante las interacciones de servicio. Puede ayudar a tomar mejores decisiones el incorporar en el análisis la opinión (o el sentimiento) recogido de fuentes tanto internas como externas. O pueden crearse nuevas oportunidades de venta si se manejan modelos complejos de acceso o de suscripción. Cualquiera de ellos puede ser un apalancador importante de facturación o ganancias.
2. Nuevos requisitos
Se ha dicho muchas veces que la única constante en la vida es el cambio. En la última década, la organización promedio es cada vez más ligera y distribuida. Un ambiente de intercambio de información es esencial para la eficiencia. ¿Habrá más distribución en la próxima década, o menos? Si cree que las organizaciones serán más distribuidas, entonces es claro que va a tener que empezar a tratar con los nuevos requerimientos.
Los viejos supuestos perderán su validez a un ritmo creciente. Por ejemplo, ya no será una conclusión definitiva de que la solución X se desplegará en el hardware de la compañía o en la red de la organización.
Los costos y el deseo están empujando a las empresas hacia modelos de computación en la nube, pero esto es solo el primer paso. A medida que las organizaciones se entrelazan más con socios estratégicos y clientes, tendrán que compartir datos y, además, tendrán que hacerlo a través de silos.
Imagine la futura vista de 360 grados en tiempo real de los clientes. ¿Estará basada en el data warehouse monolítico que muchas organizaciones tienen hoy? La respuesta es no. El cliente del futuro es uno "virtual" que atraviesa la frontera interior/exterior y que no está representado solo por una transacción, sino también por texto.
Las tecnologías legacy simplemente no son lo suficientemente ágiles para manejar estos datos de manera oportuna y distribuida, pero el UIA sí lo es. El UIA fue diseñado y concebido con estos retos en mente. La información puede ser de cualquier tipo, en casi cualquier formato. Puede ser remota o local. La clave es que consiga una única API contra la cual codificar, así como también debe tener una sola respuesta que pueda ser procesada. El procesamiento es lo divertido, la parte rápida de crear aplicaciones, y para el departamento de TI, inundado de nuevos requerimientos y nuevas complejidades, esto significa un gran alivio.
3. Licencias / Modelo de Negocio
Otra razón por la que las organizaciones van hacia UIA se debe a los modelos de negocio generalmente favorecidos por las compañías de software empresarial, incluyendo especialmente a los fabricantes de repositorios.
Ya sea que vayan unidos a los CPU, servidores, máquinas virtuales, documentos/datos o al volumen de consultas, la gran mayoría de esquemas de licenciamiento requieren que usted gaste más y más dinero a medida que use cada vez más información.
Con el volumen de información en explosión ¿es realmente esta una situación viable?
En pocas palabras? ¡no! Atar el costo de las soluciones de información a la cantidad de datos o contenidos que incorporan, o proveen, es contraproducente. Esto obliga a los gerentes a elegir entre algunos costos duros, cuantificables -el dinero necesario para nuevo hardware, por ejemplo- y un beneficio más complejo, como la productividad o una mejor toma de decisiones.
Para algunas empresas, el ahorro de dinero será la opción correcta; pero para la mayoría, las ventajas competitivas descritas anteriormente son demasiado importantes como para renunciar a ellas. Las empresas que dejan los datos y el contenido fuera de importantes aplicaciones debido a costos, están simplemente empujando ese costo hacia algún otro lado -probablemente hacia su fuerza de trabajo cada vez más magra. A medida que las empresas se vuelven más y más distribuidas, este efecto se convertirá en un ciclo negativo: malas decisiones llevan a resultados poco satisfactorios, lo que reduce el gasto para la toma de mejores decisiones.
Una solución a este desafío es buscar software libre y gratuito o Free & Open Source Software (FOSS). Muchas empresas han hecho esto y encontraron un conjunto totalmente nuevo de temas de implementación, experiencia y complejidad. Para algunas empresas es una buena opción que evita la cuestión de costos de licencias por completo. Para las demás existen plataformas líderes de UIA, la mayoría de las cuales parecen haberse alejado de los modelos de precios variables -quizá dándose cuenta de que el crecimiento de la información, así como el uso cada vez mayor de la virtualización, es solo una parte del todo el escenario a nivel macro al que todos deben adaptarse.
4. Escalabilidad
Si el licenciamiento variable es un gran problema para el futuro del acceso a la información, la escalabilidad es uno enorme. The Economist entre otros, ha demostrado que el próximo año las empresas tendrán que gestionar una cada vez mayor "avalancha de datos". De la misma manera que el pago por CPU o por documento es insostenible; gastar incluso una pequeña cantidad de esfuerzo para hacer escalar un sistema será ruinoso. Esto no presagia nada bueno para la base de datos relacional tradicional, ahora de por lo menos 40 años de edad (según Wikipedia).
Las bases de datos relacionales son notoriamente difíciles de escalar, en especial para el volumen de consultas y la latencia. Eventualmente puede llegar al límite de lo que puede ser soportado por su combinación de hardware/software, y no tener donde más avanzar sin repensar las cosas.
Por supuesto, esto no es una idea nueva; en los últimos años han aparecido numerosas alternativas, desde el naciente movimiento NoSQL, bases de datos orientadas a columnas, hasta modelos masivamente paralelos. Muchos de ellos requieren compensaciones de algún tipo, pero son cada vez más populares, especialmente para aplicaciones específicas. La clave, sin embargo, es que la mayoría de estas opciones se ocupan solo de los tradicionales datos estructurados de las bases de datos.
En el otro lado de la ecuación están los motores de búsqueda tradicionales, los cuales son mucho más recientes que la base de datos relacional, y están centrados en contenido (texto) no estructurado puro. Los motores de búsqueda normalmente pueden ser escalables, pero surge la pregunta de la facilidad de uso. Muchos ejemplos antiguos requieren todo el hardware necesario para el futuro, para estar disponible en el primer momento de la operación. Agregar hardware o mover contenido por cualquier motivo puede ser costoso y doloroso.
El UIA ofrece la capacidad de almacenar todo tipo de información -datos estructurados y no estructurados de texto- y escalar de forma lineal, utilizando el modelo de "compartir nada". Las principales plataformas UIA se han centrado en "la facilidad de escalamiento" a través de características como la "escalabilidad en cascada" en que los servidores están cargados de información hasta que alcanzan un límite de rendimiento, a continuación, se agregan más -sin problemas- sin la necesidad de volver a indexar o mover datos.
En los próximos años, a medida que aprendemos la verdadera magnitud de la avalancha de datos, ser capaz de escalar sencilla y rápidamente a través de cualquier tipo de frontera de información será una gran ventaja.
5. Seguridad
La mayoría de las grandes conferencias sobre búsquedas empresariales tienen por lo menos una sesión principal acerca de la seguridad. Los directivos que asisten a veces temen escuchar de cosas como "late binding" y "modelos híbridos" y discusiones sobre las brechas de seguridad que a veces se producen cuando los documentos están siendo reprocesados para reflejar los cambios de permisos. Se trata de cuestiones serias que simplemente no existen en el lado de las bases de datos.
La razón es simple: Las bases de datos resolvieron el problema de seguridad hace varias décadas. Los permisos de usuario y de grupo, o las listas de control de acceso (ACL) se almacenan en tablas, las credenciales de los usuarios finales se añaden a la consulta que es en última instancia, enviada a la base de datos, y los resultados solo contienen la información a la que usuario tenga autorización de ver.
La clave para la seguridad de base de datos es la noción de "tablas" y las relaciones entre ellas. (Lo "relacional" en una "base de datos relacional" se refiere a esta capacidad exacta). Los motores de búsqueda empresarial no son bases de datos, sin embargo, están centrados en documentos, no en las tablas. Ellos suelen almacenar permisos para un documento como campos en el documento -junto con campos comunes como "Título", "Cuerpo" y "Autor". Al igual que con la base de datos, las credenciales de los usuarios se agregan a la consulta y por tanto el usuario alcanza solo los documentos a los que está autorizado a ver -y funciona, siempre y cuando las condiciones de seguridad no cambien.
Sin embargo, un acto tan simple como cambiar permisos en una carpeta con unos pocos miles de documentos en ella puede crear una violación masiva de seguridad, ya que los documentos son extraídos y reprocesados con ACL y luego indexados. Un archivo en PDF de gran tamaño puede tardar 10 segundos en ser procesado; si usted tiene unos pocos miles de ellos tendrá que esperar algunos minutos para que el índice de búsqueda coincida con los permisos.
Los proveedores de soluciones de búsqueda han tratado de corregir esto de varias maneras, principalmente utilizando una base de datos relacional independiente para almacenar el nombre de usuario y los permisos de grupo, ejecutando la consulta contra el índice de búsqueda sin seguridad. A continuación, se utiliza la base de datos para filtrar cada resultado a medida que regresa al usuario.
Hay muchos efectos secundarios desafortunados de este modelo, incluyendo malos resultados, y posibles fugas de seguridad a través de sugerencias ortográficas, facetas o navegadores. Estas capacidades útiles son calculadas por el motor de búsqueda, pero no pueden ser fácilmente filtradas por la base de datos.
A falta de una solución transparente, las empresas suelen optar por dejar la información no estructurada segura de las soluciones internas, no importa tratando de proporcionar el acceso a varios silos seguros a la vez.
Poner la información no estructurada en una base de datos es igualmente desagradable. Afortunadamente, el UIA ofrece la mejor respuesta: Modela los datos de seguridad como lo haría una base de datos, manteniendo los documentos por separado. Al momento de la consulta, las credenciales de los usuarios se utilizan para identificar la información que están autorizados a ver, y esto se combina con la información que coincide con la consulta - incluyendo las facetas y sugerencias de ortografía. No hay necesidad de utilizar una base de datos, aceptar largos "problemas de sincronización" de seguridad o de dejar información segura fuera del índice.
En resumen, al adoptar el enfoque del UIA, las empresas pueden rápidamente combinar y aprovechar la información en toda la empresa -segura, no segura, interna, externa, estructurada y no estructurada- y todos los puntos intermedios.
CIO, (US)
Sid Probstein tiene más de 15 años de experiencia en la gestión de organizaciones de I+D y en soluciones y software empresariales de alto valor. Antes de trabajar como CTO en Attivio, fue vicepresidente de Tecnología de Fast Search & Transfer, y con anterioridad fue vicepresidente de Ingeniería en Northern Light Technology. También se desempeñó como Director de Ingeniería de Software en Freemark Comunications, y fue la persona más joven en ostentar el título de Gerente de sistemas en John Hancock Financial Services.