Définition complète
Le Speech-to-Text (STT), aussi appelé ASR (Automatic Speech Recognition), est la technologie qui convertit la parole humaine en texte écrit. Les systèmes STT modernes utilisent le deep learning pour atteindre des taux de précision dépassant 95% en conditions optimales. Le STT est la première brique des callbots et assistants vocaux : il transcrit ce que dit l'appelant pour que le NLP puisse analyser le contenu. Les leaders incluent Whisper (OpenAI), Google Speech-to-Text, et AWS Transcribe.
Questions fréquentes
Comment le STT est-il utilisé dans les callbots ?
Dans un callbot, le STT est la première étape du pipeline : il convertit la voix de l'appelant en texte. Ce texte est ensuite analysé par le NLP pour détecter l'intention, le LLM génère une réponse textuelle, et le TTS la vocalise. La qualité du STT impacte directement la compréhension : une transcription erronée mène à une mauvaise réponse. Le STT peut aussi être utilisé pour la transcription d'appels à des fins d'analyse.
Quelle précision attendre du STT en français ?
Les meilleurs systèmes STT atteignent 95-98% de précision en français standard, audio propre. Les défis : accents régionaux, vocabulaire technique/métier, bruit de fond, qualité audio téléphonique. Whisper (OpenAI) est particulièrement performant en français. Pour les termes métier spécifiques, nous pouvons fournir un vocabulaire personnalisé pour améliorer la reconnaissance.
Comment réduire les erreurs de transcription ?
Pour réduire les erreurs STT : améliorer la qualité audio (bonne connexion, pas de bruit), utiliser un modèle adapté au cas d'usage (téléphonie vs podcast), fournir un vocabulaire métier personnalisé, implémenter une confirmation des informations critiques ("Vous avez dit 15 mars, c'est bien cela ?"), et combiner avec le contexte conversationnel pour corriger les ambiguïtés.