Я изучил новые аудиомодели OpenAI — Вот что на самом деле кажется другим

В марте 2025 года компания тихо представила три новые модели, ориентированные на работу с аудио:

gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-mini-tts

Каждая из них выполняет свою задачу, но все они движутся к одной цели: сделать голос естественной частью взаимодействия с ИИ — не заплаткой, не сторонним API, а чем-то, что встроено в продукт на фундаментальном уровне.

Я изучил официальную документацию, примеры из SDK и аудиодемки. Вот что действительно изменилось — и что пока ещё не идеально.

Что нового? Гораздо больше, чем просто улучшенное распознавание речи

1. Речь в текст: не только быстрее, но и умнее

Две новые модели транскрипции (gpt-4o-transcribe и её облегчённая версия gpt-4o-mini-transcribe) умеют не просто записывать слова. Они стали лучше справляться со сложными аудиовходами:

Сильные акценты
Перебивающие друг друга голоса
Фоновый шум (например, в метро или кафе)
Быстрая речь

И это подтверждают тесты — у этих моделей ниже коэффициент ошибок (WER) для разных языков и акустических условий. Это важно не только для персональных ассистентов — представьте юридические, медицинские или сервисные центры, где ошибки транскрипции стоят денег и доверия.

2. Текст в речь, который действительно понимает вас

Вот что меня удивило.

Новая gpt-4o-mini-tts не просто генерирует приятный голос. Ей можно объяснить, как говорить — обычными словами. Например:

«Говори спокойно, как терапевт»
«Звучи воодушевлённо, как ведущий презентации»
«Говори тихо, как будто шепчешь в библиотеке»

И модель адаптируется — динамически, без перепрограммирования.

Пока не идеально, но экспрессивность и способность следовать инструкциям — это новый рубеж. Эмоциональную окраску голоса теперь можно задать за секунды. Доступ к модели можно получить через API преобразования текста в речь или OpenAI.FM. Важно: это предустановленные искусственные голоса, которые проходят проверку на соответствие синтетическим стандартам.

3. Agents SDK теперь с голосом

Этот момент меня порадовал. OpenAI обновила Agents SDK, добавив в него голосовые функции. Теперь:

Ваш агент может слушать
Ваш агент может говорить
И всё это работает в непрерывном цикле: вход → обработка → голосовой вывод

Интеграция сделана аккуратно. Если у вас уже есть текстовый агент, его не нужно переделывать — просто подключите голос. Это наконец-то делает голосовые интерфейсы не похожими на костыли. Больше не нужна куча инструментов — всё работает нативно. Для тех, кому важна минимальная задержка, в Realtime API рекомендуются модели для прямого преобразования речи в речь.

Как это в работе?

Транскрипция? Чёткая. Я протестировал публичные демо и разные аудиозаписи. Эти модели справляются с хаотичным звуком намного лучше старых версий на базе Whisper. Если ваш сценарий включает разговоры нескольких людей или шумные записи — эти модели готовы к работе.
Синтез речи? Неожиданно отзывчивый. Голос звучит естественно, без роботизированных нот, и передаёт нюансы. До уровня профессиональных актёров пока не дотягивает — но это огромный шаг вперёд по сравнению с «текст на входе — монотонный голос на выходе».

Этот релиз прошёл тихо — и, возможно, в этом его суть. OpenAI не стремилась взорвать интернет. Вместо этого компания незаметно вплела голос в основу работы агентов. Теперь голос — это мощный инструмент для автоматизации. И если вы ждали момента, когда можно будет перестать печатать и начать разговаривать со своими инструментами — это может быть тот самый сигнал.

Автоматизируйте голосовые процессы с Нодулем

Хотите превращать аудио в действия, а текст — в голос, без необходимости писать код с нуля?

Нодуль позволяет автоматизировать процессы с распознаванием и синтезом речи за минуты. Никакого сложного программирования. Просто настройте триггеры — и вперёд. Интегрируйте десятки ИИ-моделей. Подключайте любые сервисы через API или no-code. Пока мы работаем над подключением новых аудиомоделей OpenAI, вот пример голосовой автоматизации:

На Нодуле, вы сможете:

Получить голосовое сообщение из Telegram,
Перевести его в текст с помощью Whisper AI,
Сгенерировать пост и описание для изображения через ChatGPT,
Создать картинку в Recraft AI и отправить всё обратно в Telegram.

Где это пригодится?

Планируйте день, генерируйте идеи — вообще ничего не печатая.
Превращайте голосовые сообщения в тикеты поддержки.
Автоматически суммируйте записи встреч и публикуйте в Slack.
Связывайте голосовые входы и выходы в цикл — с любой логикой между ними.

Всё строится на no-code, модульности и реальных сценариях.

Я изучил новые аудиомодели OpenAI — Вот что на самом деле кажется другим

Вася

Что нового? Гораздо больше, чем просто улучшенное распознавание речи

1. Речь в текст: не только быстрее, но и умнее

2. Текст в речь, который действительно понимает вас

3. Agents SDK теперь с голосом

Как это в работе?

Автоматизируйте голосовые процессы с Нодулем

Другие статьи

Реквизиты

Контакты

Я изучил новые аудиомодели OpenAI — Вот что на самом деле кажется другим

Вася

Что нового? Гораздо больше, чем просто улучшенное распознавание речи

1. Речь в текст: не только быстрее, но и умнее

2. Текст в речь, который действительно понимает вас

3. Agents SDK теперь с голосом

Как это в работе?

Автоматизируйте голосовые процессы с Нодулем

Другие статьи

Что такое мессенджерный маркетинг: примеры и прецеденты использования

Стратегии автоматизации мессенджерного маркетинга

Инструменты и программное обеспечение для эффективного маркетинга в мессенджерах

Реквизиты

Контакты