Recentemente trabalhei em um projeto pessoal construindo Agente de voz de IA que pode interagir com os usuários em tempo real.
O objetivo principal é implementar chamadas de entrada e saída. Não importa o que acontecesse, eu não queria que o agente comprometesse o contexto de suas respostas e o prazo de entrega.
Ao longo do processo, me deparei com um desafio comum testado em mais de 7 produtos de IA que experimentei: latência. Um dos meus MVPs levou mais de 8 segundos para entregar uma resposta e o outro levou 3 segundos.
O oitavo produto que experimentei foi MirrorFly AI-RAG. Isso não me decepcionou. A solução me ajudou a construir um agente de IA de marca branca com latência ultrabaixa e recursos personalizados.
Neste guia, orientarei você nas etapas para construir um agente de voz de IA usando a solução MirrorFly AI-RAG.
📝 O que você aprenderá:
- como configurar os modelos e conjunto de dados LLM
- crie um agente de voz com IA e ajuste suas configurações de voz
- configurar ações ou APIs personalizadas.
👉 Vamos começar
6 etapas para construir um agente de voz AI com MirrorFly AI-RAG?
Etapa 1: configurar a infraestrutura e o modelo central do agente
Antes de criar a lógica de conversação, normalmente começarei com a infraestrutura principal. Isso me ajuda a decidir quão rápida e econômica será minha plataforma de IA de voz logo no início do meu projeto.
Configuração do modelo global
A primeira coisa que fiz foi definir as configurações globais do LLM.
Na guia Configurações do modelo, cliquei no menu suspenso Configurações do modelo AI. Isso lista vários modelos de LLM. Para a maioria dos meus projetos, uso o gpt-4o-mini como modelo padrão. Eu vi isso equilibrar velocidade e custo muito bem.
Se o fluxo for complexo, como chamadas de qualificação de saída, prefiro gpt-4o.
Configuração do provedor de fala
Para permitir que meu agente fale ou ouça, configurei as configurações STT e TTS na guia Configurações de fala
Precisaremos de um Fala para Texto (STT) provedor para transcrever as palavras faladas e um provedor Text-to-Speech (TTS) para gerar a voz do agente.
Aqui, usei OpenAI Whisper para STT. Você também pode experimentar provedores como Google Speech-to-Text, Azure Speech Services ou Deepgram.
Para TTS, optei pelo OpenAI Neural TTS. Também existem opções como Amazon Polly, Google Wavenet e Azure Neural TTS.
Em cada provedor, adicionei sua chave de API correspondente, habilitei a sensibilidade à interrupção e configurei-a para 0,70. Você pode aumentar ou diminuir o valor da sensibilidade de acordo com suas preferências.
Etapa 2: Ingestão da base de conhecimento personalizada usando RAG
A principal diferença entre um agente genérico e um agente baseado em RAG é a sua capacidade de responder às perguntas dos usuários usando informações de bases de conhecimento verificadas.
Como o MirrorFly é uma solução baseada em RAG, podemos usar um conjunto de dados para treinar o agente com as informações da nossa marca.
Criação de conjunto de dados
Para criar meu conjunto de dados, cliquei na guia Conjunto de dados e carreguei os seguintes documentos:
- Documentação do produto da nossa empresa (PDF)
- Chame scripts em formato TXT
- Arquivos de políticas e perguntas frequentes
- Alguns CSVs para dados estruturados
Em alguns ambientes de negócios, os serviços de agente de voz de IA podem diferir com conteúdo que muda frequentemente. Considerando esses casos, utilizei o Web Sync para que o conjunto de dados pudesse utilizar os dados do nosso site, sem exigir que nossa equipe carregasse os dados manualmente.
Internamente, o MirrorFly AI-RAG converte todas as informações que carrego em embeddings e as armazena em um VectorDB.
Como ajustei e validei meu RAG?
Antes de iniciar meu processo de desenvolvimento de assistente de voz de IA, ajustei como a recuperação de dados acontece em torno dele.
- Eu queria que as respostas dos agentes fossem concisas e fáceis de falar. Portanto, ajustei o número do token do pedaço.
- Para documentos críticos, como preços e regras de escalonamento, aumentei as classificações das páginas.
- Para melhorar a recuperação de consultas faladas, habilitei a geração automática de palavras-chave e perguntas.
Então usei extensivamente a interface RAGFlow Test:
Testei algumas perguntas naturais que meus clientes podem fazer:
“O que acontece se eu perder um pagamento?”
“Você pode explicar mais sobre o plano premium?”
Após verificar se o agente respondeu às perguntas com os trechos corretos para todas as perguntas que fiz, confirmei que a recuperação está acontecendo da maneira correta e segui para o próximo passo.
Etapa 3: Definindo a personalidade do agente e a proteção
Eu pessoalmente adoro criar programas baseados em RAG Assistentes de voz com tecnologia de IA à medida que decido quem é o agente, o que deve fazer e o que nunca deve fazer.
Tom e Formalidade
O primeiro passo para conseguir isso é configurar o tom e a formalidade do agente na guia Configurações do modelo.
Na maior parte das minhas ligações recebidas, mantenho-as neutras a empáticas. E para chamadas externas, eu as torno profissionais e concisas.
Essas configurações são simples, mas fazem uma grande diferença na forma como os usuários se sentem ao interagir com seus agentes.
Configurações de prompt
Uma vez definido o tom e a formalidade do agente, configuro quais mensagens ele deve responder para receber os usuários e quando há mensagem vazia.
A seguir, elaboro um prompt detalhado do sistema que instrui o agente a seguir estritamente o conjunto de dados. Este espaço decide o que exatamente meu agente deve fazer em cada fase da conversa de voz de IA com o usuário.
Guarda-corpos
Nesse cenário, eu instruo o agente sobre o que não ou nunca fazer. Eu defino as limitações do agente aqui. Algumas das regras incluem:
- Responda apenas em inglês
- Não se comprometa com preços ou prazos
- Responda apenas a consultas relacionadas ao conjunto de dados aprovado
Dessa forma, posso garantir que o agente não saia do caminho para ter alucinações ou responder incorretamente ao usuário.
Passo 4: Configurando Ações Funcionais e Chamada de Ferramentas
Nesta fase, meu agente poderia falar. Agora eu me certifiquei de que ele poderia agir exatamente como eu queria.
Ações de chamada integradas
Em algum momento, os agentes podem não conseguir responder a um cliente. Pode ser uma pergunta fora do escopo ou um cliente frustrado que precisa desesperadamente do suporte de um agente humano.
Durante essas situações, meu agente não deve rodeios ou manter o cliente em longas conversas. Deve pensar rapidamente e transferir a chamada para um número ou agente humano imediatamente.
Para configurar isso, preciso configurar algumas regras: Para chamadas recebidas, meu agente deve analisar o sentimento e a intenção do usuário e acionar a transferência. Nas chamadas outbound, as transferências acontecem somente após a qualificação.
Configurei essas transferências baseadas em SIP com números substitutos para que os agentes permaneçam confiáveis para interagir.
Ferramentas de webhook personalizadas
Para ações comerciais reais, adicionei ferramentas de webhook.
Um exemplo foi Agendar Consulta:
- Uma solicitação POST foi criada
- Parâmetros estruturados como nome, data e número de telefone foram passados
- Dados de confirmação recebidos de volta na conversa.
Durante todo o fluxo, o agente invocou esta ferramenta dinamicamente usando o mecanismo de chamada de ferramenta do MirrorFly.
Etapa 5: Configurando o agente com o Visual Workflow Builder
Os prompts lineares nunca são suficientes para configurar fluxos de chamadas de saída. Precisaremos de um construtor que nos permita visualizar todo o fluxo e o MirrorFly o ofereça.
Construtor de fluxo de trabalho
O construtor de fluxo de trabalho do MirrorFly é apoiado por LangGraph. Ele cria todos os fluxos de conversação usando:
- Nó inicial
- Nós de resposta de IA
- Nós de entrada de formulário
- Nós de chamada de API
- Ramos condicionais
Isso permite que o agente siga um script rígido enquanto ainda usa o raciocínio LLM dentro de cada etapa. Assim que o fluxo de trabalho foi publicado, anexei-os diretamente ao agente de voz.
Etapa 6: teste, marca e auditoria
Antes de colocar meu agente ao vivo, testei a plataforma de agente de voz de IA falando diretamente com ele.
Teste
Eu verifiquei:
- se as transcrições ao vivo estavam funcionando corretamente durante a demonstração de voz conversacional.
- se as respostas foram geradas pela recuperação de informações dos pedaços do conjunto de dados
Depois de confirmar esses itens em minha lista de testes, comecei a personalizar meu agente.
Marca
- Adicionei uma imagem de perfil para meu agente.
- Defina um tema sombrio que corresponda à nossa agência de agente de voz de IA.
- Aplicamos as cores e elementos da nossa marca.
Histórico de chamadas e monitoramento
Após a implantação, confiei muito no histórico de chamadas:
Consegui rastrear:
- Uso de token por chamada, para ver quantos usuários interagem ativamente com o agente e convertem
- Transcrições completas de conversas: usei essas conversas em tempo real para treinar e melhorar ainda melhor as respostas de meus agentes.
- Logs de invocação de ferramentas, IDs de dispositivos e sessões para entender a dinâmica do cliente.
Minha experiência usando MirrorFly AI-RAG para construir meu agente de voz AI personalizado
No geral, eu chamaria o MirrorFly de uma solução completa para construir centenas de assistentes de voz de IA para empresas que podem lidar com chamadas recebidas e efetuadas, manter os dados de negócios e seguir fluxos de trabalho personalizados.
Você pode usar RAG, configurações de voz, chamada de ferramentas e construtor de fluxo de trabalho, tudo em uma plataforma, sem ter que escrever códigos pesados sozinho.
Esta é praticamente a maneira mais inteligente de construir software de voz de IA neste mercado competitivo. Você pode criar facilmente seu próprio agente de voz com IA para assistência médica, recepcionista de voz com IA para agendamento de consultas, agentes de voz com IA para atendimento ao cliente ou qualquer assistente que você precisar. Mais de 500 recursos personalizados de agente de IA.
Interessado em explorar você mesmo? Entre em contato com a equipe de vendas da MirrorFly para saber como a solução pode ajudá-lo a implantar seus agentes de voz em 24 horas!
Crie sua própria marca branca Assistente de voz com IA Com MirrorFly para o seu negócio.
Conecte-se com nossos especialistas e obtenha seu plano personalizado de construção + implantação. Comece com nossa solução de IA nos próximos minutos!
Propriedade completa
Segurança personalizada
Hospedagem local