ElevenLabs é um serviço de text-to-speech com voz muito natural (a melhor disponível em 2026). O Syncro integra com ElevenLabs pra que agentes IA respondam com áudio ao invés de texto — útil pra atendimento que parece humano. Esse artigo cobre setup e configuração por agente.
Pré-requisitos
- Permissão admin.
- Plano com cota IA (Free não tem).
- Conta ElevenLabs com créditos (configurada pelo super_admin via env vars).
- Agente IA criado no Syncro. Veja Criar agente IA.
Como funciona
Por agente (não global)
ElevenLabs não é uma integração global que se ativa uma vez. É configurada por agente IA:
- Agente A: voz feminina brasileira.
- Agente B: voz masculina americana (atendimento internacional).
- Agente C: sem voz (texto puro).
Cada agente tem sua voice_id específica.
Fluxo
- Cliente manda mensagem WhatsApp/Instagram/Website.
- Agente IA gera resposta de texto (via Agno/OpenAI).
- Se
agent.enable_voice_reply=true:
- Sistema chama
ElevenLabsService::textToSpeech(text). - ElevenLabs retorna MP3 do áudio.
- Sistema envia áudio no canal de comunicação.
- Cliente recebe áudio ao invés de texto.
Setup — habilitar voz no agente
- Vá em
/ia/agentes. - Edite o agente.
- Aba Voz (ou similar).
- Toggle Habilitar resposta em áudio (default OFF).
- Voice ID (
elevenlabs_voice_id):
- Use Default (definido pelo super_admin no env
ELEVENLABS_VOICE_ID). - Ou selecione voz específica do dropdown (lista de voices da sua conta ElevenLabs).
- Modelo:
eleven_multilingual_v2(default — recomendado pra português).eleven_monolingual_v1(inglês apenas, mais rápido).
- Salve.
Voices disponíveis
Você precisa criar voices na sua conta ElevenLabs primeiro:
- elevenlabs.io → Voices.
- Escolha entre:
- Premade voices (gratuitas) — vozes profissionais prontas.
- Voice clones — clone sua voz com 1-3 min de áudio (premium).
- Anote o voice_id da voz desejada.
Voice clones permitem:
- Voz da CEO atendendo clientes.
- Voz da Camila (atendente real) em chatbot.
- Voz da própria marca consistente.
⚠️ Atenção: clone de voz exige consentimento explícito do dono da voz. Não clone sem permissão.
Quando usar voz
✅ Bom uso
- Atendimento pessoal (clínica, consultório, loja boutique).
- Cliente idoso que prefere áudio a texto.
- Mensagens longas que ficam cansativas em texto.
- Diferenciação — competidor manda texto, você manda áudio personalizado.
❌ Evite
- Mensagens curtas ("ok", "obrigado") — desnecessário.
- Confirmações técnicas ("seu pedido foi #1234") — texto é mais útil pra cliente copiar.
- Documentos, listas longas, links — texto melhor.
Custos
ElevenLabs cobra por caractere convertido (não por minuto):
| Plano | Caracteres/mês | Preço |
|---|---|---|
| Trial | 10.000 | $0 |
| Starter | 30.000 | $5 |
| Creator | 100.000 | $22 |
| Growth | 500.000 | $99 |
💡 Dica: 100.000 chars ≈ ~5h de áudio. Calcule estimativa antes de habilitar pra agente alto volume.
Tracking de uso
Cada conversão é registrada em ElevenlabsUsageLog:
tenant_id.agent_id.conversation_id.characters_used.cost_usd(estimado).
Acompanhe em /ia/agentes/{agent} → seção Uso de voz.
Limites do Syncro
Existe cota mensal por tenant pra evitar surpresas:
- Configurada pelo super_admin (default 50.000 chars/mês).
- Quando esgota, agente degrada pra texto automaticamente (não bloqueia atendimento).
- Notificação ao admin.
Idiomas suportados
Modelo eleven_multilingual_v2 suporta:
- Português (Brasil) ✅ excelente qualidade.
- Inglês.
- Espanhol.
- Francês.
- Alemão.
- Italiano.
- Polonês.
- ~25 outros.
Latência
ElevenLabs leva ~2-5 segundos pra gerar áudio:
- Texto curto (50 chars): ~2s.
- Texto longo (500 chars): ~5-7s.
- Cliente vê digitando… durante geração + envio.
Casos práticos
Clínica de estética
Agente Camila (voz feminina BR) responde em áudio:
- "Olá, Maria! Vi que você quer agendar limpeza de pele. Tenho 3 horários disponíveis..."
Cliente percebe atendimento mais humano vs concorrente que manda texto robótico.
Atendimento internacional
Agente bilingue. Detecta idioma do cliente:
- Cliente fala português → voz BR.
- Cliente fala inglês → voz US.
Configure 2 agentes distintos no Syncro com voices diferentes.
Comunicação de oferta
Mensagem promocional gravada em áudio:
- "João, você acaba de ser selecionado pra oferta exclusiva..."
Maior taxa de abertura/escuta vs texto promocional ignorado.
Limitações
❌ Não funciona em:
- Templates HSM Cloud API — Meta exige texto.
- Mensagens automáticas de chatbot — apenas em respostas geradas pela IA.
- Reply Comment Instagram — só DMs.
⚠️ Cuidados
- Acentos pesados (português com "ã", "ê") podem ter pronúncia ruim em vozes inglesas. Use voices BR.
- Números longos — modelo nem sempre lê certo (R$ 1.234,56). Prefira escrever por extenso.
- Siglas (CRM, SaaS) — modelo lê letra por letra. Pra leitura natural, escreva "sistema CRM" explícito.
Erros comuns
"Áudio não chega ao cliente"
- Verifique se canal suporta áudio (WhatsApp ✅, Instagram ✅, Website ⚠️ depende).
- Cota ElevenLabs pode ter esgotado.
- Verifique logs
/storage/logs/laravel.logpor erros API.
"Áudio chegou mas voz é errada"
elevenlabs_voice_idno agente está correto?- Voice deletada na conta ElevenLabs? Atualize.
"Áudio com pronúncia estranha"
- Modelo errado? Use
eleven_multilingual_v2pra português. - Texto tem caracteres especiais que confundem? Teste com texto simples.
"Latência muito alta — clientes reclamam de demora"
- Texto muito longo. Quebre em vários blocos curtos.
- Considere usar texto + áudio (texto fica visível enquanto áudio carrega).
Setup técnico (super_admin)
Variáveis no portainer-stack.yml:
ELEVENLABS_API_KEY=...
ELEVENLABS_VOICE_ID=21m00Tcm4TlvDq8ikWAM # default voice
ELEVENLABS_MODEL_ID=eleven_multilingual_v2
Próximos passos
- Pra criar agente IA, veja Criar agente IA.
- Pra entender quotas IA gerais, veja Quota de tokens.