Llegamos a ustedes gracias a:



Noticias

Microsoft ofrece una versión preliminar de la red neuronal de texto a voz

[18/12/2018] Aplicando lo último en innovación de aprendizaje profundo, Speech Service, que es parte de Azure Cognitive Services ahora ofrece una capacidad de texto a voz de red neuronal.

"El texto a voz neuronal hace que las voces de sus aplicaciones sean casi indistinguibles de las voces de las personas. Puede usarse para hacer que las conversaciones con chatbots y asistentes virtuales sean más naturales y atractivas, para convertir los textos digitales como los libros electrónicos en audiolibros, y para actualizar los sistemas de navegación en el automóvil con experiencias de voz naturales y mucho más, afirmó Xuedong Huang, technical fellow de Cloud and AI de Microsoft.

El ejecutivo añadió que esta versión incluye mejoras desde que revelaron por primera vez Neural Text-to-Speech a principios de este año.

Calidad de voz mejorada

Huang indicó que las voces suenan más robustas y naturales en toda una amplia variedad de escenarios de usuario, lo cual se logra aprovechando lo siguiente:

  • Una gran capacitación supervisada con aprendizaje transferido a través de diversos oradores.
  • Más características de preentrenamiento sin supervisión.
  • Incorporación de un robusto diseño de modelo neuronal.

Desempeño acelerado del tiempo de ejecución

El ejecutivo señaló, asimismo, que el desempeño del tiempo de ejecución del motor Neural Text-to-Speech es casi instantáneo gracias a una amplia optimización del código con aceleradores de hardware, aplicando modelos de inferencia paralela y simplificaciones del modelo que consideran el equilibrio entre la calidad del sonido y el desempeño. "El factor tiempo real se ha mejorado con respecto a la versión anterior a menos de 0,05 X, lo que significa que 1 segundo de audio se puede generar en menos de 50 milisegundos. La producción del primer byte de audio ahora se ejecuta seis veces más rápido que antes, anotó Huang.

Mayor disponibilidad del servicio

Neural Text-to-Speech se ha ampliado a tres centros de datos en los Estados Unidos, Europa y Asia. "Con estas actualizaciones, la capacidad Speech Services Neural Text-to-Speech ofrece la experiencia de voz más natural para sus usuarios en comparación con los enfoques de sistemas híbridos y tradicionales, agregó.

Se puede usar esta capacidad a partir de hoy con dos voces neuronales prefabricadas en inglés -Jessa y Guy.