Llegamos a ustedes gracias a:



Noticias

Google presenta programa para colocar leyendas a las fotos

[21/11/2014] La próxima vez que se quede 'en blanco' al tratar de escribir la leyenda de una foto, pruebe Google.

El gigante de las búsquedas ha desarrollado un sistema de aprendizaje de máquina que puede escribir leyendas para fotos de forma automática y exacta, de acuerdo a una entrada del Google Research.

La innovación podría hacer que sea más sencillo buscar imágenes en Google, ayudar a que las personas con discapacidad visual entiendan el contenido de las imágenes y proporcionen textos alternativos para las imágenes cuando las conexiones a Internet son lentas.

El modelo combina una CNN de visión con un RNN de generación de lenguaje para que pueda tomar una imagen y generar una leyenda de lenguaje natural.
Google leyendas fotos

En un paper publicado en arXiv, los investigadores de Google Oriol Vinyals, Alexander Toshev, Samy Bengio y Dumitru Erhan, describieron cómo desarrollaron un sistema de leyendas llamado Neural Image Caption (NIC).

El NIC se basa en técnicas del campo de la visión de computadora, el cual permite a las máquinas ver el mundo, y el procesamiento de lenguaje natural, que intenta hacer que el lenguaje humano sea significativo para las computadoras.

Los investigadores utilizaron dos diferentes tipos de redes neuronales artificiales, las cuales son modelos de computadora inspirados en la biología. Una de las redes codifica la imagen en una representación compacta, mientras que la otra red genera una oración para describirla.

La meta de los investigadores era entrenar al sistema a producir leyendas sorprendentemente naturales basadas en los objetos que reconoce en las imágenes.

El NIC produce resultados exactos como "Un grupo de personas comprando en un mercado para la foto de un mercado, pero también generó varias leyendas con pequeños errores, como una imagen de tres perros a la que puso una leyenda afirmando que solo habían dos perros, y también con errores más grandes, como el de una imagen de un letrero en una carretera que describió como si fuera un refrigerador.

Aun así, el modelo NIC obtuvo 59 puntos en un conjunto de datos en particular en el cual el 'estado del arte' es de 25 puntos, y donde los puntajes superiores indican una mejoría, de acuerdo a los investigadores, quienes también señalaron que los humanos alcanzan los 69 puntos. El desempeño fue evaluado usando un algoritmo de ranking que compara la calidad del texto generado por una máquina con el generado por un ser humano.

"Queda claro de estos experimentos que, a medida que se incremente el tamaño de los conjuntos de datos disponibles para la descripción de la imagen, también mejorará el desempeño de los enfoques como el NIC, escribieron los investigadores.

Tim Hornyak, IDG News Service