Voice AI agents: як працює голосове спілкування з AI і як агент може дзвонити
Коротко
Голосовий AI-агент — це не одна магічна модель, а ланцюжок сервісів:
- Speech-to-Text (STT) — розпізнає голос
- LLM — думає і формує відповідь
- Text-to-Speech (TTS) — озвучує відповідь
- Telephony / voice transport — якщо треба працювати через телефонні дзвінки
- Orchestration layer — керує всією сесією, логікою та інструментами
Саме тому стеки на кшталт:
- Vapi
- Telnyx
- ElevenLabs
- Claude Opus / GPT / інша LLM
зустрічаються дуже часто.
1. Як людина спілкується з AI голосом
Базовий потік дуже простий:
- людина говорить у мікрофон;
- система перетворює голос у текст;
- LLM генерує відповідь;
- система озвучує цю відповідь назад голосом.
Це виглядає так
Ти говориш → STT → LLM → TTS → агент відповідає голосом
Це і є мінімальний voice AI loop.
2. Які шари потрібні
Speech-to-Text
Потрібен сервіс, який добре розпізнає мовлення.
Приклади:
- OpenAI speech / realtime stack
https://platform.openai.com/docs/ - Deepgram
https://developers.deepgram.com/ - ElevenLabs speech products
https://elevenlabs.io/
LLM
Це мозок агента.
Він:
- розуміє контекст;
- вирішує, що відповісти;
- може викликати інструменти;
- може передавати дзвінок людині або зберігати підсумок.
Text-to-Speech
Потрібен голос, який звучить нормально і має мінімальну затримку.
Приклади:
- ElevenLabs
https://elevenlabs.io/ - Azure AI Speech
https://learn.microsoft.com/azure/ai-services/speech-service/ - Google Cloud Text-to-Speech
https://cloud.google.com/text-to-speech
3. Як агент може дзвонити
Ось тут з’являється окремий шар — телефонія.
Щоб AI-агент міг:
- приймати дзвінки;
- здійснювати вихідні дзвінки;
- працювати через номер телефону;
потрібен telephony provider.
Приклади:
- Telnyx
https://telnyx.com/ - Twilio
https://www.twilio.com/ - Vonage
https://www.vonage.com/
Потік для дзвінка
Outbound:
- бекенд або orchestration layer викликає API телефонного провайдера;
- створюється дзвінок;
- коли людина підіймає слухавку, агент підключається до audio stream;
- далі працює той самий ланцюжок: STT → LLM → TTS.
Inbound:
- людина дзвонить на номер;
- провайдер маршрутизує дзвінок у voice app;
- агент відповідає.
4. Роль orchestration layer
Часто це окремий сервіс, наприклад Vapi.
Його роль:
- керувати voice session;
- підключати STT/TTS;
- інтегрувати LLM;
- давати tool calling;
- керувати промптами, станом, fallback logic.
Тобто Vapi — це не “сам голос” і не “сама модель”, а клей і control plane для агента.
5. Типові use cases
Inbound voice agent
Користувач дзвонить агенту:
- reception;
- FAQ;
- support triage;
- booking;
- routing.
Outbound voice agent
Агент сам дзвонить:
- нагадування;
- підтвердження запису;
- follow-up;
- lead qualification;
- оповіщення.
Voice assistant без телефонії
Просто розмова через веб або мобільний інтерфейс:
- micro-app у браузері;
- голосовий тьютор;
- hands-free AI assistant.
6. Чому це не так просто, як здається
1. Latency
Для голосу затримка критична.
Якщо ланцюжок повільний, розмова стає неприродною.
2. Turn-taking
Агент має вміти:
- не перебивати;
- розуміти паузи;
- правильно входити в діалог.
3. Hallucinations
У тексті це неприємно. У дзвінках — часто вже небезпечно.
Особливо якщо агент:
- говорить від імені компанії;
- працює з бронюванням;
- торкається документів, грошей, дат, умов.
4. Compliance
Потрібно думати про:
- recording consent;
- персональні дані;
- outbound calling rules;
- локальні регуляторні обмеження.
5. Cost
Voice AI швидко стає дорогим, бо ти платиш одразу за кілька шарів:
- телефонію;
- STT;
- TTS;
- LLM;
- orchestration.
7. Який стек найчастіше має сенс
Швидкий MVP
- voice web app;
- мікрофон у браузері;
- STT/TTS;
- одна LLM;
- без телефонії.
Це найкращий старт для перевірки якості діалогу.
Practical production stack
- Telephony: Telnyx або Twilio
- Orchestration: Vapi / Retell / custom backend
- STT/TTS: ElevenLabs / Deepgram / OpenAI / Azure
- LLM: Claude / GPT / Gemini
- Backend: Node / Python
- Tools: CRM, календар, база, вебхуки
8. Як я б радив це будувати
Етап 1 — voice chat without phone
Спочатку зробити voice agent без телефонії:
- веб-інтерфейс;
- перевірити latency;
- перевірити turn-taking;
- перевірити prompt and tool logic.
Етап 2 — inbound phone agent
Потім додати номер і прийом дзвінків.
Етап 3 — outbound voice agent
Лише після того, як уже стабільні:
- сценарії;
- fallback;
- safety guardrails;
- handoff logic;
- logs and QA.
9. Що важливо для якісного voice agent
Не достатньо просто “підключити голос”.
Потрібно продумати:
- prompt design;
- short responses for speech;
- confirmation loops;
- escalation to human;
- retry logic;
- error handling;
- silence / interruption handling.
10. Bottom line
Voice AI agent — це система, а не одна модель.
Щоб він говорив і дзвонив, потрібні:
- голосовий input/output;
- LLM;
- телефонний провайдер;
- orchestration layer;
- хороша product логіка.
І найкращий practical шлях — не починати одразу з outbound calls, а спочатку перевірити якість простого голосового діалогу.
References
- Vapi
https://vapi.ai/ - Telnyx
https://telnyx.com/ - Twilio Voice
https://www.twilio.com/docs/voice - ElevenLabs
https://elevenlabs.io/ - OpenAI platform docs
https://platform.openai.com/docs/ - Deepgram docs
https://developers.deepgram.com/