Définition complète
Le TTS (Text-to-Speech) ou synthèse vocale est la technologie qui convertit du texte écrit en parole audio. Les systèmes TTS modernes utilisent le deep learning pour produire une voix naturelle, avec intonation et émotion. C'est la dernière étape des callbots : après que le LLM a généré la réponse textuelle, le TTS la vocalise pour l'appelant. Les leaders incluent ElevenLabs, Amazon Polly, Google Cloud TTS, et Azure Speech. La qualité des voix neurales approche celle de la voix humaine.
Questions fréquentes
Comment le TTS est-il utilisé dans les callbots ?
Le TTS est l'étape finale du pipeline callbot : il convertit la réponse textuelle générée par le LLM en audio que l'appelant entend. La voix, le débit, et l'intonation peuvent être personnalisés. Le streaming TTS (génération au fil de l'eau) réduit la latence. Les callbots avancés ajustent le style (plus empathique si le client est frustré) et gèrent la prononciation des termes métier.
Comment choisir une voix TTS pour son entreprise ?
Le choix de voix TTS dépend de : l'image de marque (dynamique, rassurante, professionnelle), le public cible (âge, contexte), la langue et l'accent souhaités (français neutre, régional), et la disponibilité multilingue si nécessaire. Testez plusieurs voix sur des scripts réels et faites valider par des utilisateurs. La prononciation du vocabulaire métier est un critère important souvent négligé.
Peut-on cloner une voix avec le TTS ?
Oui, les technologies de voice cloning (ElevenLabs, Play.ht) permettent de créer une voix synthétique à partir d'échantillons audio d'une personne réelle. Cela permet d'utiliser la voix d'un porte-parole de l'entreprise ou de maintenir une cohérence vocale. Attention aux aspects légaux : le consentement de la personne clonée et les règles anti-fraude sont essentiels. Certaines juridictions régulent spécifiquement les deepfakes vocaux.