Définition complète
L'OCR (Optical Character Recognition) ou reconnaissance optique de caractères est la technologie permettant de convertir des images contenant du texte (documents scannés, photos, PDF image) en texte numérique éditable et searchable. L'OCR moderne utilise le deep learning pour atteindre des précisions élevées même sur des documents de qualité moyenne. C'est une brique essentielle pour la digitalisation de documents, l'extraction de données de factures, et le traitement automatique de formulaires papier.
Questions fréquentes
Comment l'OCR est-il utilisé dans les chatbots et mailbots ?
L'OCR permet aux chatbots et mailbots de traiter les documents envoyés par les utilisateurs : extraire les données d'une facture jointe, lire un justificatif de domicile, analyser une pièce d'identité pour la vérification KYC, ou traiter une ordonnance médicale. L'OCR transforme l'image en texte, puis le NLP extrait les informations structurées (montants, dates, noms).
Quelle précision attendre de l'OCR moderne ?
Les OCR modernes atteignent 99%+ de précision sur des documents imprimés de bonne qualité. La précision descend à 95-98% sur des documents de qualité moyenne, et 80-90% sur des manuscrits ou documents dégradés. Les erreurs courantes : confusion 0/O, 1/l/I, et caractères spéciaux. Pour les applications critiques (montants financiers), une validation humaine ou règles métier est recommandée.
Quels sont les meilleurs outils OCR pour l'entreprise ?
Les solutions OCR leaders sont : Google Document AI (très performant, cloud), AWS Textract (bien intégré AWS), Azure Document Intelligence (ex Form Recognizer), et Tesseract (open source). Pour des besoins avancés, les solutions spécialisées par type de document (factures : Rossum, ID : Onfido) offrent de meilleurs résultats. Le choix dépend du volume, du type de document, et des contraintes d'hébergement.