
[09/11/2023] OpenAI anunció recientemente nuevas y poderosas capacidades de ChatGPT, incluida la capacidad de usar imágenes además de mensajes de texto para conversaciones con el chatbot de inteligencia artificial.
La empresa ofreció ejemplos:
"Tome una fotografía de un punto de referencia mientras viaja y tenga una conversación en vivo sobre lo que tiene de interesante. Cuando esté en casa, tome fotografías de su refrigerador y despensa para saber qué hay para cenar -y haga preguntas de seguimiento para obtener una receta paso a paso-. Después de la cena, ayude a su hijo con un problema de matemáticas tomándole una fotografía, rodeando el conjunto de problemas y pidiéndole que comparta pistas con ambos”.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
(La compañía también anunció que su aplicación móvil soportaría input y output de voz para el chatbot. Podrá hablar con ChatGPT, tal como lo permiten docenas de aplicaciones de terceros. Y los funcionarios de OpenAI también anunciaron que ChatGPT pronto será capaz de acceder al motor de búsqueda Bing de Microsoft para obtener información adicional).
OpenAI no es la única empresa de inteligencia artificial que promete imágenes.
Los nuevos lentes para cámara de Meta
Meta, la compañía antes conocida como Facebook, presentó recientemente la segunda versión de sus lentes con cámara, creados en una asociación con la división Ray-Ban de EssilorLuxottica. Las nuevas especificaciones, que cuestan 299 dólares, cuentan con más y mejores cámaras, micrófonos y parlantes que la primera versión, y permiten la transmisión en vivo en Facebook e Instagram.
Los nerds de los dispositivos electrónicos de vanguardia y las personas influyentes en las redes sociales están entusiasmados con estas funciones. Pero la verdadera mejora es la inteligencia artificial. Los lentes contienen el nuevo y potente chip AR1 Gen 1 de Qualcomm, lo que significa que los usuarios que usan los lentes inteligentes Meta Ray-Ban pueden mantener conversaciones con inteligencia artificial a través de los parlantes y micrófonos integrados. Pero esta no es una inteligencia artificial cualquiera.
En un anuncio relacionado, Meta anunció una alternativa a ChatGPT llamada Meta AI que también soporta chat de voz, con respuestas realizadas por cualquiera de las 28 voces sintéticas disponibles. Meta ha estado integrando Meta AI en todas sus plataformas sociales -incluyendo los lentes-, y Meta AI también podrá buscar en el motor de búsqueda Bing de Microsoft información más actualizada que la información en la que ha sido entrenado Llama LLM (LLM significa Large Language Model).
Facebook prometió una actualización de software el próximo año que hará que los lentes Meta Ray-ban sean "multimodales”. En lugar de interactuar con el chatbot Meta AI a través de la voz, los lentes tendrán la capacidad de aceptar "mensajes de imágenes”, como lo hace ahora OpenAI. Pero en lugar de cargar un jpg, los lentes Meta Ray-Ban simplemente capturarán la imagen utilizando las cámaras integradas en los lentes.
Mientras usted usa los lentes, podrá mirar un edificio y decir: "¿Qué edificio es este?” y la inteligencia artificial le dirá la respuesta. Meta también prometió traducción en tiempo real de letreros y menús, instrucciones sobre cómo reparar cualquier electrodoméstico que esté mirando y otros usos. Supongo que es sólo cuestión de tiempo antes de que los lentes le digan con quién estás hablando a través de la poderosa tecnología de reconocimiento facial de Meta.
En otras palabras, Meta Ray-Bans se convertirán efectivamente en lentes de realidad aumentada con esa actualización de software.
Por qué el futuro de la realidad aumentada es la inteligencia artificial
La realidad aumentada es una tecnología que mejora o proporciona información adicional sobre lo que vemos en la realidad física a través de imágenes, sonidos y textos digitales.
Empresas como Apple, Microsoft y Magic Leap han pasado décadas -y gastado miles de millones de dólares- inventando sistemas para mostrarles objetos, personajes y avatares virtuales en 3D de alta resolución a los usuarios de sus costosos, pesados y agotadores lentes de realidad aumentada.
Siempre que, en los medios tecnológicos o en la industria tecnológica, pensamos o hablamos sobre realidad aumentada, tendemos a centrarnos en qué tipo de imágenes holográficas podríamos ver superpuestas al mundo real a través de nuestras lentes de realidad aumentada. Imaginamos Pokémon Go con manos libres o versiones radicalmente mejores de Google Glass.
Pero desde que se produjo la revolución generativa de los chatbots basados en inteligencia artificial/LLM a finales del año pasado, se ha vuelto cada vez más claro que de todas las piezas que componen una experiencia de realidad aumentada, los objetos virtuales digitales holográficos son los menos importantes.
Los lentes son necesarios. Los teléfonos Android y iPhone han tenido capacidades de "realidad aumentada” durante años, y a nadie le importa porque mirar su teléfono no se compara con simplemente ver el mundo con las manos libres a través de lentes.
Las cámaras y otros sensores son necesarios. Es imposible aumentar la realidad si su dispositivo no tiene forma de percibir la realidad.
La inteligencia artificial es necesaria. Necesitamos inteligencia artificial para interpretar y dar sentido a personas, objetos y actividades arbitrarias en nuestros campos de visión.
Es necesario el audio bidireccional. El usuario necesita una forma de manos libres destinada a consultar e interactuar con el software para poder ejercer control sobre la realidad aumentada.
Y resulta que la pantalla virtual, los datos y los objetos virtuales, aunque es bueno tenerlos, no son necesarios.
La tecnología que solíamos considerar más importante resulta ser la menos importante. Hemos enfatizado demasiado la calidad visual del "output” cuando hablamos de realidad aumentada. Los asistentes a la conferencia, el público de las demostraciones y los primeros clientes quedaron deslumbrados por los personajes 3D que saltan y otros contenidos inútiles.
¿Qué pasa con la calidad del contenido y su relación con la realidad que se aumenta? Lo que realmente hace que la realidad aumentada sea poderosa es cuando nuestros dispositivos comienzan con una comprensión clara de lo que tenemos frente a nosotros y luego pueden brindarnos información, conocimientos y consejos sobre esa realidad.
Ha quedado claro que la inteligencia artificial es el componente más indispensable de la realidad aumentada de propósito general.
Esto es lo opuesto a la realidad virtual, donde las imágenes lo son todo y la inteligencia artificial ni siquiera es necesaria.
Zuckerberg afirmó en el anuncio de Meta Ray-Ban que "los lentes inteligentes son el factor de forma ideal para permitir que los asistentes de inteligencia artificial vean lo que estás viendo y escuchen lo que estás escuchando”.
Tiene razón.
No está del todo claro que Meta domine el futuro de la realidad aumentada. Pero lo que está claro es que la inteligencia artificial es el futuro de la realidad aumentada, y la realidad aumentada es el futuro de la inteligencia artificial. No me sorprendería que todas las empresas líderes en inteligencia artificial, incluyendo a OpenAI, Microsoft y Google, lanzaran rápidamente lentes tipo Meta Ray-Ban. Porque hablar es mejor que escribir y mostrar es mejor que hablar.
Las filtraciones, patentes e informes sobre Apple sugieren que la compañía está trabajando en lentes de realidad aumentada livianos y de uso diario que se enviarán años en el futuro, mucho después de que se lance su enorme, voluminosa y solo para interiores, Vision Pro. Pero me parece que Apple va a volver a perder el tren, tal como lo hizo con el asistente virtual doméstico Amazon Echo. Apple tardó más de dos años en enviar el Apple HomePod después de que Amazon enviara a Echo. Lo que está retrasando los lentes de uso cotidiano de Apple es que se obsesiona con presentar al usuario datos visuales convincentes en los lentes, en lugar de centrarse en las conversaciones de voz y el input de la cámara de inteligencia artificial.
Nadie parece estar registrando completamente las implicaciones de los anuncios de la semana pasada, así que lo mencionaré sin rodeos: el anuncio de los lentes inteligentes Meta Ray-Ban significa que la carrera para dominar la nueva plataforma de lentes de realidad aumentada basados en inteligencia artificial está realmente en marcha. Se trata de una plataforma informática completamente nueva que será enorme tanto para los consumidores como para las empresas. Lo repetiré: el futuro de la realidad aumentada es la inteligencia artificial. Y el futuro de la inteligencia artificial es la realidad aumentada.
Basado en el artículo de Mike Elgan (Computerworld) y editado por CIO Perú