IA: ChatGPT habla e interpreta imágenes

Posted On: septiembre 26, 2023

SAN FRANCISCO: OpenAI dijo el lunes que ha equipado su programa de inteligencia artificial (IA) ChatGPT con voz y visión para hacerlo «más intuitivo».

La interfaz que popularizó la IA generativa (capaz de producir texto, imágenes y otros contenidos en el lenguaje cotidiano mediante una simple solicitud) pronto podrá procesar solicitudes con imágenes y también chatear verbalmente con sus usuarios.

Por ejemplo, podrán tomar una foto de un monumento y «tener una conversación con ChatGPT» sobre la historia del edificio, o incluso mostrarle al software lo que hay en su refrigerador para que pueda sugerir una receta. OpenAI en un comunicado de prensa.

Otros posibles casos de uso según la startup: ayudar a tus hijos con sus deberes (haciendo una foto de un problema de matemáticas, por ejemplo) o incluso pedirle al chatbot que les cuente un cuento antes de irse a dormir.

Estas nuevas herramientas se implementarán durante las próximas dos semanas para los suscriptores de ChatGPT Plus, la versión paga del chatbot, o para las organizaciones clientes del servicio.

La compañía anunció la próxima incorporación de este tipo de funciones el pasado mes de marzo, al momento de presentar GPT-4, la última versión de su modelo de lenguaje, la tecnología que sustenta chatGPT.

GPT-4 es multimedia, ya que puede procesar datos distintos de texto o código informático.

“Alucinaciones”

El éxito de ChatGPT desde finales de 2022 ha provocado una gran carrera por la IA generativa entre los gigantes tecnológicos, con Google y Microsoft a la cabeza.

Pero la rápida introducción de estos programas todavía muy mal regulados también suscita muchas preocupaciones, sobre todo porque tienden a «alucinar», es decir, a inventar respuestas desde cero.

«Los modelos de visión presentan nuevos desafíos, desde alucinaciones hasta hacer que las personas confíen en la interpretación de imágenes del programa en dominios de alto riesgo», reconoció OpenAI en su comunicado del lunes.

La nueva empresa afirma haber «probado» el modelo en temas como el extremismo y el conocimiento científico y confía en que mejorará el uso en el mundo real y la retroalimentación de los usuarios.

Limitó aún más la capacidad de ChatGPT para «analizar personas» porque la interfaz «no siempre es precisa y estos sistemas deben respetar la privacidad de las personas».

La plataforma de streaming Spotify también anunció el lunes una asociación con OpenAI para traducir podcasts directamente con IA.

Las transmisiones grabadas en inglés ahora estarán disponibles en otros idiomas “conservando las características vocales distintivas del hablante”, dijo el servicio en un comunicado.

La compañía sueca asegura que la nueva tecnología de generación de voz de OpenAI «reproduce el estilo del hablante original, permitiendo una experiencia auditiva más auténtica, personal y natural que el doblaje tradicional».