Voz com ElevenLabs

Atualizado em 30 de abril de 2026

Em vez de só responder com texto, o agente IA pode falar — gerando áudio sintético que vai como mensagem de voz pro cliente no WhatsApp ou Instagram. Isso aumenta engajamento (cliente acha que tem alguém de verdade falando), reduz fricção em respostas longas (ouvir é mais natural que ler), e diferencia sua operação.

A síntese de voz é via ElevenLabs — fornecedor com vozes muito realistas em português brasileiro, inglês, espanhol e várias línguas. Você escolhe a voz desejada do catálogo deles.

Pré-requisitos

Agente IA criado.
Permissão de admin.
Conta ElevenLabs (configurada pelo time Syncro — você não precisa criar).
Plano com a feature de voz habilitada (pode estar restrita a planos avançados).

Habilitar voz no agente

Acesse /ia/agentes/{id}/editar.
Localize a seção Voz ou Resposta por Voz.
Marque o toggle Ativar resposta por voz (enable_voice_reply).
Aparece dropdown Voz com lista de vozes disponíveis.
Selecione a voz desejada.
(Opcional) Use Ouvir preview pra escutar antes de aplicar.
Salve.

📸 PRINT necessário: seção "Voz" com toggle ativo, dropdown de voz selecionada e botão preview

Escolher a voz certa

A lista mostra vozes do catálogo ElevenLabs com:

Nome (ex: Bella, Rachel, Antoni)
Idioma (Português, Inglês, Espanhol, etc)
Gênero (masculino / feminino)
Estilo (calmo, animado, profissional, jovem)

Algumas considerações:

Português Brasileiro: ElevenLabs tem vozes específicas pra pt-BR. Use elas pra clientes brasileiros (sotaque correto).
Tom condizente com persona: agente "Camila" (vendas, casual) com voz jovem e amigável funciona melhor que voz formal robotizada.
Gênero coerente: agente "Pedro" → voz masculina; "Ana" → feminina.

💡 Dica: peça pra alguém da sua equipe escutar o preview antes de ativar pra clientes. Voz é decisão sensível — uma errada parece estranha.

Como funciona quando o agente responde

Agente IA gera resposta em texto (LLM).
Sistema verifica enable_voice_reply == true.
Sistema chama API ElevenLabs:

Input: texto da resposta + voice_id.
Output: arquivo de áudio (MP3 ou WAV).

Sistema envia o áudio como mensagem de voz pelo canal:

WhatsApp: aparece com player nativo.
Instagram: aparece como áudio na DM.

Mensagem de texto original também é enviada (cliente vê texto + ouve áudio).

⚠️ Atenção: alguns canais entregam apenas o áudio (sem texto), dependendo da configuração. Verifique no chat de teste antes de ativar pra todos.

Limites de caracteres

ElevenLabs tem limite de ~5.000 caracteres por chamada. Se a resposta do agente é maior:

O sistema trunca ou quebra em múltiplos áudios.
Pra evitar isso, configure Máximo de caracteres por mensagem do agente em valor compatível (ex: 1.000 chars), forçando respostas mais curtas.

Custos da voz

ElevenLabs cobra por caractere sintetizado (em USD, fora do Syncro):

Plano deles: ~$5/mês = 30k chars/mês básico.
Volume médio: 100 chars por resposta = 300 respostas/mês no plano básico.
Pra volume alto, custos escalam (planos $22, $99, $330/mês).

Esse custo é separado do Syncro:

Pode estar incluso no seu plano Syncro (verifique).
Ou pode ser cobrado à parte dependendo da configuração.

Confirme com seu suporte / atendimento.

Quando NÃO usar voz

Mensagens muito curtas (uma palavra, sim/não): voz fica desnecessária. Texto é mais rápido.
Conteúdo com listas / tabelas / dados estruturados: cliente precisa ler, não ouvir números.
Links / URLs: ouvido fica horrível ("h-t-t-p-s-dois-pontos..."). Texto é melhor.
Cliente em ambiente silencioso (escritório, biblioteca): voz pode ser invasiva, prefere texto.

💡 Dica: alguns agentes têm voz só pra mensagens longas ou momentos específicos. Ative em todas e analise os resultados — se cliente reclamar, desative.

Voz em diferentes idiomas

Configure a voz no idioma do agente:

Agente em pt-BR → voz pt-BR (ex: Camila — feminino brasileiro).
Agente em en → voz inglês (ex: Rachel — American English).
Agente em es → voz espanhol (ex: Sofía — Mexican Spanish).

Vozes em idioma errado soam estranhas (sotaque deslocado).

Gravação personalizada (clone de voz)

ElevenLabs também permite clone de voz (Voice Cloning) — você grava 1-2 minutos de áudio, eles geram voz idêntica.

Isso não está exposto na UI do Syncro atualmente. Pra usar voz clonada:

Crie a voz clonada na conta ElevenLabs.
Pegue o voice_id.
Cole no campo elevenlabs_voice_id do agente.
Salve.

Útil pra agentes "personalizados" (ex: voz do CEO da empresa, voz do influencer).

⚠️ Atenção: voz clonada precisa de consentimento expresso da pessoa cuja voz é clonada (questão legal/ética).

Limitações conhecidas

Áudio é MP3/WAV — alguns clientes podem não conseguir reproduzir em redes lentas.
Sem efeitos sonoros (música, fade in/out, etc).
Voz é monotônica sem capacidade de "atuar" emoções (ElevenLabs tenta, mas é limitado).
Tradução não é automática — texto em português → voz inglês não traduz, soa estranho.
Sem voz pra notas internas (notas são só pra equipe interna).

Voz e tools

Quando o agente executa tools (set_stage, add_tags, etc), a voz só sintetiza o reply textual — tools são silenciosas (executadas em background).

Voz na thread do chat

Mensagens de voz aparecem na thread como áudio play:

Você (atendente humano) consegue escutar o que o agente IA falou.
Útil pra revisão e auditoria.

Auditoria

Cada áudio gerado fica registrado em WhatsappMessage (ou InstagramMessage):

type='audio'
media_url aponta pro arquivo no storage Syncro.
Audio fica acessível mesmo após cliente ouvir.

Cancelar voz após ativada

Pra desativar a voz:

Edite o agente.
Desmarque o toggle Ativar resposta por voz.
Salve.

A partir de agora, agente volta a só texto.

Erros comuns

"Áudio não chegou pro cliente"

Causas:

Token ElevenLabs expirou (problema de configuração).
Cliente bloqueou áudios em config WhatsApp dele (raro).
Janela 24h fechou no Cloud API (mensagem livre rejeitada).

Logs ajudam a debugar — contate suporte com timing.

"Voz soa estranha / robotizada"

Verifique se voz selecionada é do idioma certo.
Teste outras vozes (catálogo tem dezenas — algumas naturais, outras menos).
Considere ajustar persona pra que mensagens fiquem em tom natural.

"Áudio é muito longo / pesado"

Reduza Máximo de caracteres por mensagem no agente.
Considere só usar voz em mensagens importantes (não toda interação).

Próximos passos

Pra entender quota e custo geral da IA, veja Quota mensal de tokens.
Pra acompanhar uso, veja relatórios de IA.