OpenAI представила новую модель искусственного интеллекта GPT-4o с продвинутым голосовым режимом

OpenAI представила новую модель искусственного интеллекта GPT-4o с продвинутым голосовым режимом

Буква «o» в названии — это сокращение от «omni» (то есть «всесторонний»). Новая версия модели работает с речью, текстом и видео. GPT-4o в среднем реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, отметили в компании.

Новая модель соответствует производительности GPT-4 Turbo, предыдущей «самой продвинутой» модели OpenAI, но по сравнению с с прежними версиями GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.

Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником. Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками, заявили в OpenAI.

GPT-4o доступен для пользователей с 13 мая, при этом доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а предположительно в июне — у платных подписчиков.

———

Видео: канал OpenAI в ютьюбе.