Définition complète
L'ASR (Automatic Speech Recognition), aussi appelée reconnaissance vocale ou speech-to-text (STT), est la technologie permettant à un ordinateur de transcrire la parole humaine en texte. Les systèmes ASR modernes utilisent le deep learning pour atteindre des taux de précision supérieurs à 95% en conditions optimales. L'ASR est la première étape des callbots et voicebots, permettant de comprendre ce que dit l'appelant avant de traiter sa demande.
Questions fréquentes
Comment fonctionne la reconnaissance vocale ASR ?
L'ASR moderne fonctionne en 3 étapes : le signal audio est d'abord transformé en représentation numérique (spectrogramme), puis un modèle de deep learning (souvent un Transformer) analyse ces représentations pour prédire la séquence de mots, et enfin un modèle de langage affine la transcription en tenant compte du contexte. Les meilleurs systèmes s'adaptent aussi à l'accent et au vocabulaire métier.
Quelle précision attendre de l'ASR en entreprise ?
En conditions optimales (audio de qualité, langue standard), les ASR atteignent 95 à 98% de précision. En conditions réelles (bruit de fond, accents, vocabulaire technique), la précision descend à 85-92%. Pour les callbots, on compense par la confirmation explicite des informations critiques et l'utilisation de vocabulaires métiers personnalisés.
Quelle est la différence entre ASR et STT ?
ASR (Automatic Speech Recognition) et STT (Speech-to-Text) désignent la même technologie : convertir la parole en texte. ASR est le terme académique et technique, STT est plus utilisé dans les documentations produit et APIs. Les deux termes sont interchangeables dans le contexte des solutions d'IA vocale.