Автоматизируйте. Меняйте.
Развивайте.
[email protected]
[email protected]
t.me/nodul
Форум Nodul
Готовые автоматизации
Партнерам
Вакансии
+569-231-213
В марте 2025 года компания тихо представила три новые модели, ориентированные на работу с аудио:
Каждая из них выполняет свою задачу, но все они движутся к одной цели: сделать голос естественной частью взаимодействия с ИИ — не заплаткой, не сторонним API, а чем-то, что встроено в продукт на фундаментальном уровне.
Я изучил официальную документацию, примеры из SDK и аудиодемки. Вот что действительно изменилось — и что пока ещё не идеально.
Две новые модели транскрипции (gpt-4o-transcribe и её облегчённая версия gpt-4o-mini-transcribe) умеют не просто записывать слова. Они стали лучше справляться со сложными аудиовходами:
И это подтверждают тесты — у этих моделей ниже коэффициент ошибок (WER) для разных языков и акустических условий. Это важно не только для персональных ассистентов — представьте юридические, медицинские или сервисные центры, где ошибки транскрипции стоят денег и доверия.
Вот что меня удивило.
Новая gpt-4o-mini-tts не просто генерирует приятный голос. Ей можно объяснить, как говорить — обычными словами. Например:
И модель адаптируется — динамически, без перепрограммирования.
Пока не идеально, но экспрессивность и способность следовать инструкциям — это новый рубеж. Эмоциональную окраску голоса теперь можно задать за секунды. Доступ к модели можно получить через API преобразования текста в речь или OpenAI.FM. Важно: это предустановленные искусственные голоса, которые проходят проверку на соответствие синтетическим стандартам.
Этот момент меня порадовал. OpenAI обновила Agents SDK, добавив в него голосовые функции. Теперь:
Интеграция сделана аккуратно. Если у вас уже есть текстовый агент, его не нужно переделывать — просто подключите голос. Это наконец-то делает голосовые интерфейсы не похожими на костыли. Больше не нужна куча инструментов — всё работает нативно. Для тех, кому важна минимальная задержка, в Realtime API рекомендуются модели для прямого преобразования речи в речь.
Этот релиз прошёл тихо — и, возможно, в этом его суть. OpenAI не стремилась взорвать интернет. Вместо этого компания незаметно вплела голос в основу работы агентов. Теперь голос — это мощный инструмент для автоматизации. И если вы ждали момента, когда можно будет перестать печатать и начать разговаривать со своими инструментами — это может быть тот самый сигнал.
Хотите превращать аудио в действия, а текст — в голос, без необходимости писать код с нуля?
Нодуль позволяет автоматизировать процессы с распознаванием и синтезом речи за минуты. Никакого сложного программирования. Просто настройте триггеры — и вперёд. Интегрируйте десятки ИИ-моделей. Подключайте любые сервисы через API или no-code. Пока мы работаем над подключением новых аудиомоделей OpenAI, вот пример голосовой автоматизации:
На Нодуле, вы сможете:
Где это пригодится?
Всё строится на no-code, модульности и реальных сценариях.