Llegamos a ustedes gracias a:



Reportajes y análisis

Su smartphone se vuelve más inteligente

El reconocimiento de voz, que nunca fue un gran éxito en el escritorio, por fin ha despegado en los teléfonos inteligentes.

[04/04/2011] Cuando éramos niños, mis amigos y yo solíamos jugar un juego donde fantaseábamos sobre cuál de las tecnologías de Viaje a las Estrellas tenía más probabilidades de ser inventada en el mundo real a lo largo de nuestras vidas. ¿La unidad de transporte y de deformación? No eran muy probables. Sin embargo, el comunicador, la computadora activada por voz y el traductor universal, sí lo eran.

Cuando el reconocimiento de voz llegó a la computadora de escritorio, me pareció una gran idea -pero para la mayoría de la gente, no fue un reemplazo del teclado y del mouse. Ahora la tecnología de reconocimiento de voz está siendo utilizada en un entorno completamente nuevo: los teléfonos. Y su presencia está llevando su uso y desarrollo en direcciones a las que nunca podría haberse dirigido en el escritorio.
Historia
El reconocimiento de voz apareció por primera vez como una tecnología primitiva en la década de 1950, como poco más que una curiosidad. En la década de 1960, el dispositivo de IBM caja de zapatos podía reconocer 16 palabras y responder a peticiones matemáticas simples, tales como "tres más cuatro total.
DragonDictate de Dragon Systems fue probablemente el primer programa de reconocimiento de voz para PC, lanzado en la década de 1980 para las computadoras DOS. Solo podía reconocer palabras individuales, dichas una por vez. Con el tiempo evolucionó en el producto Dragon Naturally Speaking (que ahora está en la versión 11 y es propiedad de Nuance Communications), que puede transcribir texto hablado en un tono y velocidad normal de conversación.
El reconocimiento de voz en el escritorio tenía dos grandes limitaciones. En primer lugar, para que el programa pueda trabajar con un alto grado de precisión, tuvo que ser entrenado para reconocer los patrones del habla del usuario. La tecnología speech-to-text de Windows Vista y Windows 7, y los productos de terceros como Dragon Naturally Speaking, todavía requieren un período de formación por parte del usuario para ser útiles.
La segunda limitación es la prevalencia del teclado. La mayoría de la gente ya estaba acostumbrada a tipear, no a hablar, y así el control por voz se enfrentó a las mismas barreras que enfrentó el diseño del teclado Dvorak ¿Por qué aprender a usar Dvorak cuando Qwerty estaba disponible y funcionaba bien?
Abhi Rele, gerente de producto senior del equipo Tellme de Microsoft, el grupo responsable del desarrollo de las tecnologías de reconocimiento de voz para múltiples entornos, está de acuerdo en este punto: "En el entorno de escritorio, los usuarios tienen fácil acceso a otras modalidades de interacción -a saber, el teclado y el mouse- y por lo tanto el uso de la voz es principalmente dirigido a los entusiastas del habla".
Lo que la computación controlada por voz necesitaba para conseguir mayor adopción fueron dos cosas -un mejor uso fuera de la caja y un lugar donde la palabra ya reinaba, por así decirlo. Uno de esos lugares ha estado creciendo desde hace mucho tiempo: el teléfono móvil.
Matt Revis, vicepresidente de gestión de producto y marketing de Nuance, explica las diferencias entre los entornos móviles y de escritorio de esta manera: "El escritorio es un entorno fijo, así que la voz en el escritorio sigue el flujo de tareas: soporte a aplicaciones de oficina, navegar por Internet, comunicaciones, etc. En el sector móvil, la voz está más dirigida a apoyar una variedad de escenarios de estilo de vida: profesionales en la ruta, divirtiéndose, llamadas de manos libres y así sucesivamente.
El analista de Gartner, Tuong Nguyen, está de acuerdo en que la voz tiene más sentido en un contexto móvil. "Desde una perspectiva de uso", señala, "el valor de reconocimiento de voz en un dispositivo de mano es mucho mayor. Añade un método de entrada fácil e intuitivo".
Esto es cierto, añade Nguyen, si la alternativa de dictar una declaración simple es excavar a través de una serie de menús o la luchar con pequeños teclados en la pantalla: "Con la creciente adopción de dispositivos táctiles (sin teclas físicas), el reconocimiento de voz se utiliza para ingresar datos mejorados. También es compatible con los requerimientos de manos libres o de legislación".
Haciendo que funcione
El reconocimiento de voz funciona haciendo modelos estadísticos del lenguaje hablado. "Para reconocer las palabras habladas", señala el gerente de producto de Google, Amir Mane ", se compara el discurso de entrada con un modelo estadístico del leguaje, tratando de encontrar la coincidencia más cercana.
Los modelos estadísticos de una lengua requieren una gran cantidad de almacenamiento para que sean prácticos. "Deben cubrir todos los sonidos fundamentales del lenguaje (fonemas), todas las palabras, y todas las diferentes maneras en que las palabras pueden ser ensartadas en la lengua hablada", agrega Mane. Además de eso, hay acentos, las variaciones en el sexo y la edad, los acentos regionales, elección de palabras ("soda" versus "cola" versus "pop") y así sucesivamente.
Mane señala que el modelo estadístico de Google Voice Search requiere tres elementos: los modelos acústicos, modelos de lenguaje y un léxico. "Un modelo acústico se crea mediante la adopción de grabaciones de la palabra y las transcripciones de lo que se dijo, usando los dos para crear una representación de los teléfonos -los componentes básicos de todas las palabras en un idioma determinado", indica.
El modelo de la lengua consiste en averiguar qué palabras son propensas a seguir otras palabras, y usar eso como una forma de mejorar la precisión del reconocimiento. "la palabra 'imperio' será seguida por 'estado' o 'contraataca' [como en El Imperio Contraataca] con más frecuencia de lo que es seguida por palabras como diversas ' o 'guayabo", explica Mane. La recopilación de datos de campo ayuda a mejorar continuamente el modelo de la lengua y el léxico.
Google no es la única empresa masificando sus datos de reconocimiento. La aplicación de reconocimiento de voz Vlingo coloca cookies en los teléfonos de los usuarios para construir continuamente modelos de conversación basados en los propios comentarios de los usuarios, combinados con modelos similares.
En los dispositivos móviles
Como los dispositivos móviles habitualmente tienen solo una fracción del almacenamiento y la potencia de procesamiento de una computadora de escritorio, el procesamiento del habla ha demorado en aparecer en los teléfonos como algo más que una forma rudimentaria.
El Manual de Springer de procesamiento de voz describe cómo los teléfonos en la década del 2000, a pesar de sus limitaciones, podían ser programados para reconocer voz en el marcado dígito a dígito, y en cierta medida reconocer los nombres. El principal problema era la memoria, así que la mayoría de estos teléfonos podían reconocer solo hasta 10 nombres a la vez, más o menos. Pero otro problema citado por los autores fue el relativo poco uso de esta característica, posiblemente debido a la mala comercialización por parte de los fabricantes de teléfonos.
La memoria y la potencia de procesamiento creció, al igual que la capacidad de reconocimiento en el teléfono promedio. El Samsung SCH-p-207, lanzado en el 2005 a 99 dólares, agregó dictado de voz-a-texto, así como la marcación activada por el habla. La actual generación de teléfonos inteligentes, con memorias que se ejecuta en cientos de megabytes y gigabytes de almacenamiento basados en Flash, son mucho menos restringidos.
Otro avance fundamental ha sido la velocidad de la red. La creciente ola de redes inalámbricas más rápidas ha hecho crecer gran cantidad de servicios, incluyendo la generación más reciente de tecnologías de procesamiento de voz, haciendo posible descargar el trabajo en un servidor remoto.
Amir Mane, gerente de producto de Google Voice Search, explica cómo esto ha ayudado a aplicaciones de Google Voice. "Puesto que todo el trabajo pesado en términos de procesamiento se realiza en la red [por los servidores de Google]", señala, "éramos menos susceptibles a las limitaciones en la potencia informática del dispositivo de mano".
Las aplicaciones de hoy
El estado actual de la técnica de reconocimiento de voz en los teléfonos se presta a mucho más que solo la marcación por voz.
Las funciones activadas por voz en realidad incluyen la marcación por voz, una de las primeras características que apareció en los teléfonos. Incluso muchos teléfonos básicos de gama baja la tienen en la actualidad, como mi teléfono slip Nokia, del 2007 y así sucesivamente -a pesar de que su reconocimiento fue un poco dudoso para los nombres más inusuales en su directorio telefónico.
Nguyen de Gartner señala que la gama más nueva de funciones de voz es más abierta. "En vez de programar comandos de voz para funciones específicas", explica, "la aplicación reconoce el discurso y ejecuta la acción apropiada. Los dispositivos de gama más alta han hecho uso de estas aplicaciones de forma más viable". En otras palabras, en lugar de solo ser capaz de usar la frase "llamar al 888-555-1212" para marcar un número de teléfono, los usuarios pueden decir "marca a mamá" o "llama a mi madre".
Esto hace que las aplicaciones impulsadas por voz, como Google Voice Search, sean más prácticas. Por ejemplo, si dice "Tron Legacy, horarios de películas", es dirigido a una página que muestra proyecciones por código postal o ubicación -la aplicación no solo reconoce el contexto de la frase, también puede extraer información de ambos, su teléfono (su ubicación actual) y la web (horas de proyección).
La aplicación también es bastante diestra con el inglés y hace ciertas distinciones automáticamente, sin entrenamiento. Si digo "Mötley Crüe" (la banda de rock) el programa lo hace bien -incluso utiliza la ortografía idiosincrásica de la banda en la búsqueda, aunque deja fuera la diéresis. Búsque "Motleys Crew", y tendrá la tira cómica.
Dicho esto, los límites del reconocimiento de voz de Google se hacen evidentes cuando más se desvía de la corriente principal del inglés. Los nombres extranjeros casi no tienen esperanza. Otro problema constante para las aplicaciones de reconocimiento de voz es la presencia del ruido ambiental, que afecta a los usuarios móviles más a menudo que a los usuarios de escritorio. Revis de Nuance cita "una alta precisión de reconocimiento en ambientes ruidosos al aire libre" como un asunto en curso.
El dictado ha recorrido un largo camino desde que ese teléfono Samsung del 2005. La aplicación Dragon Dictation del iPhone, que es proporcionada por Dragon Naturally Speaking, le permite al usuario dictar todo, desde las notas y correos electrónicos a actualizaciones de Twitter. Dragón para e-mail ofrece capacidades similares para el BlackBerry.
Para los teléfonos Android, Nuance ofrece FlexT9, que combina características de Dragon Dictation con tres tipos de entrada basada en el tacto. También está la aplicación SMS Handcent que se integra con la tecnología de reconocimiento de voz nativa de Android para ayudarle a enviar mensajes de texto dictados por voz.
La traducción ha estado a disposición de texto a texto desde hace años (por ejemplo, a través del conocido sitio web Babel Fish). La traducción a medida que se habla aún no está aquí, pero ha llegado mucho más cerca. Por ejemplo, Jibbigo para el iPhone traduce palabras, frases y oraciones simples razonablemente, permitiendo que dos partes hablen de forma alterna.
Rumbo futuro
Pregúntele a cualquier persona involucrada en la ingeniería de las tecnologías del habla sobre cuál es el próximo paso, y por lo general le darán una respuesta: el procesamiento del lenguaje natural.
Revis lo describe como "sistemas que entiendan lo que usted quiere decir, no solo lo que usted dice -modelos de interacción conversacional donde los usuarios hablan lo que quieren, sin ningún tipo de restricciones en cómo lo dicen". Él da como ejemplos comandos o peticiones de información, tales como "¿Dónde puedo encontrar una cámara Nikon por menos de cien dólares?" o "Texteale a Jenny que voy a tener 20 minutos de retraso" o "Has reservas para tres personas en Cala para esta noche."
"Ofrecer el procesamiento de lenguaje natural en un diálogo hablado es un doble desafío", señala Mane de Google. "Primero hay que reconocer las palabras, entonces tiene que extraer el significado". La primera parte es cada vez más fácil, pero la segunda todavía es muy difícil de alcanzar: el significado es contextual y resbaladizo, y no siempre analizado con éxito por los seres humanos.
Rele de Microsoft piensa que los servicios adicionales prestados por un teléfono (por ejemplo, una brújula o GPS) pueden aumentar la utilidad de procesamiento de lenguaje natural. Por lo que podría, dice, "planear salir a cenar y ver una película para dos personas, descomponiendo la tarea para utilizar los datos de diversas fuentes, tales como calendarios, calificaciones de restaurantes, reseñas de películas y ubicación".
Además, los servicios del teléfono se pueden utilizar para proporcionar un contexto para el discurso. "La entrada de voz del usuario, junto con la inteligencia adquirida en otras modalidades y los sensores de los usuarios y su entorno, pueden proporcionar resultados más ricos y relevantes", señala Rele. Si acaba de utilizar Foursquare para registrarse en un restaurante, por ejemplo, el sesgo de los ambiguos comandos de voz puede ser inclinado hacia cosas como salir a cenar, hacer reservaciones, conseguir un taxi y así sucesivamente.
La aplicación multiplataforma Vlingo, que se anuncia como un "asistente virtual", ya ofrece algunas funciones que van en esta línea. Se conecta a servicios como OpenTable y Fandango para llevar a cabo gran parte de lo que ofrece: hacer reservas en restaurantes, reservar entradas para el cine, y así sucesivamente.
Otra área que el reconocimiento por voz mejorará en el futuro, según Nguye, es el juego. "[La voz] se puede utilizar en los videojuegos para agregar una dimensión diferente al juego", agrega. Así, por ejemplo, le puede dar órdenes a las naves al estilo del capitán Kirk, o interrogar a los sospechosos en un misterio.
¿Es usted?
Otra característica que ya se está aplicando es la adaptación del reconocimiento para cada usuario. Esta es una versión manos libres del entrenamiento de voz requerido por el reconocimiento de voz de escritorio.
Por ejemplo, la última versión de Google Voice Search tiene incluida una opción que permite construir un perfil de voz a medida para el usuario. "Cuando un usuario opta por utilizar el reconocimiento personalizado", explica Mane, "mantenemos un vínculo entre ellos y sus expresiones, lo que nos permite construir los primeros modelos rudimentarios del reconocimiento personalizado".
El reconocimiento personalizado no está destinado a ser una bala de plata, aunque -solo es un paso de transición hacia la fabricación de un reconocimiento de voz más perfecto. "Consideramos que el reconocimiento personalizado no es la única solución, sino como una serie de innovaciones que van a venir", señala Mane, quien también cree que las futuras mejoras de este tipo "pueden requerir una participación más activa de nuestros usuarios".
Conclusiones
Los teléfonos celulares han sido conductores e incubadoras de muchas tecnologías, basados en hardware y software. Hasta el momento, añadir la voz a la mezcla ha dado como resultado mejoras incrementales -como el buen funcionamiento de la aplicación de Google Voice.
Sin embargo, esas mejoras van allanándole el camino a más avances importantes, y la tecnología móvil ofrece un escenario completamente nuevo de cómo pueden ser agregadas las nuevas tecnologías. Puede que el paso siguiente no sea un teléfono que entienda todo lo que usted diga, pero sí entiende lo suficiente como para ser mucho más útil.
Serdar Yegulap, Computerworld (US)