Я изучил новые аудиомодели OpenAI — Вот что на самом деле кажется другим

В марте 2025 года компания тихо представила три новые модели, ориентированные на работу с аудио:
- gpt-4o-transcribe
- gpt-4o-mini-transcribe
- gpt-4o-mini-tts
Каждая из них выполняет свою задачу, но все они движутся к одной цели: сделать голос естественной частью взаимодействия с ИИ — не заплаткой, не сторонним API, а чем-то, что встроено в продукт на фундаментальном уровне.
Я изучил официальную документацию, примеры из SDK и аудиодемки. Вот что действительно изменилось — и что пока ещё не идеально.
Что нового? Гораздо больше, чем просто улучшенное распознавание речи
1. Речь в текст: не только быстрее, но и умнее
Две новые модели транскрипции (gpt-4o-transcribe и её облегчённая версия gpt-4o-mini-transcribe) умеют не просто записывать слова. Они стали лучше справляться со сложными аудиовходами:
- Сильные акценты
- Перебивающие друг друга голоса
- Фоновый шум (например, в метро или кафе)
- Быстрая речь

И это подтверждают тесты — у этих моделей ниже коэффициент ошибок (WER) для разных языков и акустических условий. Это важно не только для персональных ассистентов — представьте юридические, медицинские или сервисные центры, где ошибки транскрипции стоят денег и доверия.
2. Текст в речь, который действительно понимает вас
Вот что меня удивило.
Новая gpt-4o-mini-tts не просто генерирует приятный голос. Ей можно объяснить, как говорить — обычными словами. Например:
- «Говори спокойно, как терапевт»
- «Звучи воодушевлённо, как ведущий презентации»
- «Говори тихо, как будто шепчешь в библиотеке»
И модель адаптируется — динамически, без перепрограммирования.
Пока не идеально, но экспрессивность и способность следовать инструкциям — это новый рубеж. Эмоциональную окраску голоса теперь можно задать за секунды. Доступ к модели можно получить через API преобразования текста в речь или OpenAI.FM. Важно: это предустановленные искусственные голоса, которые проходят проверку на соответствие синтетическим стандартам.
3. Agents SDK теперь с голосом
Этот момент меня порадовал. OpenAI обновила Agents SDK, добавив в него голосовые функции. Теперь:
- Ваш агент может слушать
- Ваш агент может говорить
- И всё это работает в непрерывном цикле: вход → обработка → голосовой вывод
Интеграция сделана аккуратно. Если у вас уже есть текстовый агент, его не нужно переделывать — просто подключите голос. Это наконец-то делает голосовые интерфейсы не похожими на костыли. Больше не нужна куча инструментов — всё работает нативно. Для тех, кому важна минимальная задержка, в Realtime API рекомендуются модели для прямого преобразования речи в речь.
Как это в работе?
- Транскрипция? Чёткая. Я протестировал публичные демо и разные аудиозаписи. Эти модели справляются с хаотичным звуком намного лучше старых версий на базе Whisper. Если ваш сценарий включает разговоры нескольких людей или шумные записи — эти модели готовы к работе.
- Синтез речи? Неожиданно отзывчивый. Голос звучит естественно, без роботизированных нот, и передаёт нюансы. До уровня профессиональных актёров пока не дотягивает — но это огромный шаг вперёд по сравнению с «текст на входе — монотонный голос на выходе».
Этот релиз прошёл тихо — и, возможно, в этом его суть. OpenAI не стремилась взорвать интернет. Вместо этого компания незаметно вплела голос в основу работы агентов. Теперь голос — это мощный инструмент для автоматизации. И если вы ждали момента, когда можно будет перестать печатать и начать разговаривать со своими инструментами — это может быть тот самый сигнал.
Автоматизируйте голосовые процессы с Нодулем
Хотите превращать аудио в действия, а текст — в голос, без необходимости писать код с нуля?
Нодуль позволяет автоматизировать процессы с распознаванием и синтезом речи за минуты. Никакого сложного программирования. Просто настройте триггеры — и вперёд. Интегрируйте десятки ИИ-моделей. Подключайте любые сервисы через API или no-code. Пока мы работаем над подключением новых аудиомоделей OpenAI, вот пример голосовой автоматизации:
На Нодуле, вы сможете:
- Получить голосовое сообщение из Telegram,
- Перевести его в текст с помощью Whisper AI,
- Сгенерировать пост и описание для изображения через ChatGPT,
- Создать картинку в Recraft AI и отправить всё обратно в Telegram.
Где это пригодится?
- Планируйте день, генерируйте идеи — вообще ничего не печатая.
- Превращайте голосовые сообщения в тикеты поддержки.
- Автоматически суммируйте записи встреч и публикуйте в Slack.
- Связывайте голосовые входы и выходы в цикл — с любой логикой между ними.
Всё строится на no-code, модульности и реальных сценариях.