Маркетинг
Apps:
No items found.

Я изучил новые аудиомодели OpenAI — Вот что на самом деле кажется другим

Вася

April 20, 2025

В марте 2025 года компания тихо представила три новые модели, ориентированные на работу с аудио:

  • gpt-4o-transcribe
  • gpt-4o-mini-transcribe
  • gpt-4o-mini-tts

Каждая из них выполняет свою задачу, но все они движутся к одной цели: сделать голос естественной частью взаимодействия с ИИ — не заплаткой, не сторонним API, а чем-то, что встроено в продукт на фундаментальном уровне.

Я изучил официальную документацию, примеры из SDK и аудиодемки. Вот что действительно изменилось — и что пока ещё не идеально.

Что нового? Гораздо больше, чем просто улучшенное распознавание речи

1. Речь в текст: не только быстрее, но и умнее

Две новые модели транскрипции (gpt-4o-transcribe и её облегчённая версия gpt-4o-mini-transcribe) умеют не просто записывать слова. Они стали лучше справляться со сложными аудиовходами:

  • Сильные акценты
  • Перебивающие друг друга голоса
  • Фоновый шум (например, в метро или кафе)
  • Быстрая речь

И это подтверждают тесты — у этих моделей ниже коэффициент ошибок (WER) для разных языков и акустических условий. Это важно не только для персональных ассистентов — представьте юридические, медицинские или сервисные центры, где ошибки транскрипции стоят денег и доверия.

2. Текст в речь, который действительно понимает вас

Вот что меня удивило.

Новая gpt-4o-mini-tts не просто генерирует приятный голос. Ей можно объяснить, как говорить — обычными словами. Например:

  • «Говори спокойно, как терапевт»
  • «Звучи воодушевлённо, как ведущий презентации»
  • «Говори тихо, как будто шепчешь в библиотеке»

И модель адаптируется — динамически, без перепрограммирования.

Пока не идеально, но экспрессивность и способность следовать инструкциям — это новый рубеж. Эмоциональную окраску голоса теперь можно задать за секунды. Доступ к модели можно получить через API преобразования текста в речь или OpenAI.FM. Важно: это предустановленные искусственные голоса, которые проходят проверку на соответствие синтетическим стандартам.

3. Agents SDK теперь с голосом

Этот момент меня порадовал. OpenAI обновила Agents SDK, добавив в него голосовые функции. Теперь:

  • Ваш агент может слушать
  • Ваш агент может говорить
  • И всё это работает в непрерывном цикле: вход → обработка → голосовой вывод

Интеграция сделана аккуратно. Если у вас уже есть текстовый агент, его не нужно переделывать — просто подключите голос. Это наконец-то делает голосовые интерфейсы не похожими на костыли. Больше не нужна куча инструментов — всё работает нативно. Для тех, кому важна минимальная задержка, в Realtime API рекомендуются модели для прямого преобразования речи в речь.

Как это в работе?

  • Транскрипция? Чёткая. Я протестировал публичные демо и разные аудиозаписи. Эти модели справляются с хаотичным звуком намного лучше старых версий на базе Whisper. Если ваш сценарий включает разговоры нескольких людей или шумные записи — эти модели готовы к работе.
  • Синтез речи? Неожиданно отзывчивый. Голос звучит естественно, без роботизированных нот, и передаёт нюансы. До уровня профессиональных актёров пока не дотягивает — но это огромный шаг вперёд по сравнению с «текст на входе — монотонный голос на выходе».

Этот релиз прошёл тихо — и, возможно, в этом его суть. OpenAI не стремилась взорвать интернет. Вместо этого компания незаметно вплела голос в основу работы агентов. Теперь голос — это мощный инструмент для автоматизации. И если вы ждали момента, когда можно будет перестать печатать и начать разговаривать со своими инструментами — это может быть тот самый сигнал.

Автоматизируйте голосовые процессы с Нодулем

Хотите превращать аудио в действия, а текст — в голос, без необходимости писать код с нуля?

Нодуль позволяет автоматизировать процессы с распознаванием и синтезом речи за минуты. Никакого сложного программирования. Просто настройте триггеры — и вперёд. Интегрируйте десятки ИИ-моделей. Подключайте любые сервисы через API или no-code. Пока мы работаем над подключением новых аудиомоделей OpenAI, вот пример голосовой автоматизации:

На Нодуле, вы сможете:

  1. Получить голосовое сообщение из Telegram,
  2. Перевести его в текст с помощью Whisper AI,
  3. Сгенерировать пост и описание для изображения через ChatGPT,
  4. Создать картинку в Recraft AI и отправить всё обратно в Telegram.

Где это пригодится?

  • Планируйте день, генерируйте идеи — вообще ничего не печатая.
  • Превращайте голосовые сообщения в тикеты поддержки.
  • Автоматически суммируйте записи встреч и публикуйте в Slack.
  • Связывайте голосовые входы и выходы в цикл — с любой логикой между ними.

Всё строится на no-code, модульности и реальных сценариях.

Другие статьи