OpenAI ha comenzado a desplegar el Modo de Voz Avanzada de ChatGPT, con respuestas de audio hiperrealistas gracias a GPT-4o. Según recoge TechCrunch, la versión alfa está disponible para un pequeño grupo de usuarios Plus desde el martes, y se lanzará a todos los usuarios en otoño de 2024.
Lanzada inicialmente en mayo, la función sorprendió al mundo entero al disponer de una voz llamada Sky que era muy similar a la de Scarlett Johansson en la película Her, aunque la actriz negó haber autorizado el uso de su voz y tomó medidas legales. OpenAI desmintió el uso de su voz, pero acabó retirando Sky de la biblioteca de voces.
Esta nueva función permitirá a ChatGPT hablar y escuchar de manera más fluida, gracias a la capacidad multimodal de GPT-4o. A diferencia del modo de voz anterior, que utilizaba tres modelos separados, el nuevo sistema es capaz de procesar toda la conversación sin ayuda de modelos auxiliares, reduciendo significativamente la latencia y permitiendo percibir entonaciones emocionales.
El lanzamiento se está realizando de forma gradual para monitorizar el uso de la nueva función, y los usuarios seleccionados recibirán notificaciones a través de la app y por email con instrucciones para probarla. Desde la demostración de mayo, OpenAI ha probado las capacidades de voz con más de 100 expertos de seguridad que hablan 45 idiomas. La compañía publicará un informe a principios de agosto sobre estas pruebas.
Las voces disponibles son Juniper, Breeze, Cove y Ember, creadas en colaboración con actores de doblaje, mientras que Sky ya no está disponible. Lindsay McCallum, portavoz de OpenAI, asegura que “ChatGPT no puede suplantar las voces de otras personas” y afirma que se implementarán filtros para evitar generar música u otros contenidos protegidos por derechos de autor. Con esta medida, la compañía pretende evitar futuros problemas legales y polémicas como las ocurridas con otras tecnologías de clonación de voz.