Llegamos a ustedes gracias a:



Noticias

El servicio de reconocimiento de voz de Microsoft llega a beta pública

[16/02/2017] Las compañías que crean aplicaciones que aprovechan el reconocimiento de voz tienen una nueva herramienta basada en el aprendizaje de máquina para mejorar su trabajo. Microsoft está abriendo la beta pública de su Custom Speech Service, dijo la compañía el martes.

El servicio, anteriormente conocido como CRIS, permite a los clientes entrenar a un sistema de reconocimiento de voz para que trabaje en un escenario específico, lo que le permite producir resultados más precisos. Por ejemplo, el Custom Speech Service puede ser entrenado para proporcionar mejores resultados en un ruidoso aeropuerto, o configurado para trabajar mejor con las voces de un grupo en particular, como los niños o personas con acentos diferentes.

En estos momentos, el Custom Speech Service funciona con inglés y chino, pero una de sus ventajas es que puede ser entrenado para trabajar con acentos de hablantes no nativos.

Microsoft lo está haciendo disponible como parte de su suite de Cognitive Services, un conjunto de herramientas de nube encaminadas a ofrecer los frutos de la investigación en inteligencia artificial y aprendizaje de máquina de la empresa al resto del mundo.

Ahora, hay ocho de tales servicios cognitivos disponibles para todos y 17 adicionales en beta. Más de 424 mil desarrolladores han probado los servicios desde que se lanzó, afirmó Microsoft. Los desarrolladores de todo el mundo pueden acceder a los servicios, muchos de los cuales están disponibles para su compra a través de Microsoft Azure.

Cada uno de los servicios tiene una capa gratuita con fuertes límites en su uso, así que los desarrolladores tienen la libertad de probar las APIs sin gastar un centavo. El Custom Speech Service tiene un complicado modelo de precios basado en capas que incluye una cuota de suscripción junto con cobros basados en el número de muestras de voz alimentadas al sistema y la cantidad de entrenamiento de adaptación acústica.

El Custom Speech Service es una herramienta clave en el arsenal de Human Interact, una pequeña empresa de desarrollo de juegos que usa comandos de voz como el único medio de interacción para su próximo juego Starship. El reconocimiento de voz personalizado, junto con el Language Understanding Intelligent Service (LUIS) de Microsoft, conforman las piezas claves del sistema de reconocimiento y comprensión de voz que utilizan los jugadores para guiar su nave.

El servicio Human Interact permite crear su propio diccionario específico para Starship Commander, lo que significa que el sistema puede entender a los jugadores cuando preguntan por los Ecknians, los antagonistas alienígenas del juego. Después de que las voces de los jugadores han sido traducidas a texto legible para la máquina, LUIS las procesa y traduce en comandos del juego.

Otros dos servicios cognitivos de Microsoft llegarán a disponibilidad general el próximo mes. El servicio Content Moderator está diseñado para bloquear automáticamente el contenido objetable en texto, videos e imágenes, mientras que al mismo tiempo permite la revisión humana de los casos dudosos. Puede detectar las malas palabras en más de 100 idiomas y también permite a los clientes incluir listas personalizadas de texto ofensivo.

La API de Bing Speech está diseñada para dar a los desarrolladores una forma generalizada y fácil de convertir voz a texto y viceversa. Soporta reconocimiento de voz desde 18 idiomas y dialectos procedentes de 28 países, incluyendo alemán, francés, chino, español y árabe. Los desarrolladores también pueden utilizar la API para hacer el trabajo de texto a voz en 10 idiomas con soporte para dialectos provenientes de 18 países.

Microsoft está luchando con varias otras empresas de nube en este campo, incluyendo a Google, Amazon e IBM, cada uno de los cuales tiene su propio conjunto de herramientas de inteligencia de máquina.