Définition complète
La vision par ordinateur (Computer Vision) est le domaine de l'IA qui permet aux machines d'interpréter et d'analyser le contenu visuel : images et vidéos. Les applications incluent la reconnaissance faciale, la détection d'objets, l'OCR (lecture de texte), l'analyse de documents, et le contrôle qualité industriel. Les modèles modernes utilisent des réseaux de neurones convolutifs (CNN) ou des Vision Transformers. La vision par ordinateur s'intègre aux chatbots pour analyser les images envoyées par les utilisateurs.
Questions fréquentes
Comment la vision par ordinateur est-elle utilisée avec les chatbots ?
La vision par ordinateur enrichit les chatbots pour : analyser les photos envoyées (déclaration de sinistre avec photo du dommage), lire des documents joints (factures, pièces d'identité), vérifier l'identité (KYC avec photo + selfie), et fournir du support visuel ("Quelle est cette plante ?"). Les LLM multimodaux intègrent nativement cette capacité.
Quelle précision pour la reconnaissance d'images aujourd'hui ?
Les modèles de vision atteignent des performances souvent supérieures à l'humain sur des tâches spécifiques. Pour la classification d'images générales, les erreurs sont sous 3% sur ImageNet. La détection d'objets atteint 80-90%+ de mAP sur les benchmarks standards. Pour l'OCR de bonne qualité, >99% de précision. Les performances dépendent fortement du domaine : un modèle général peut être moins bon qu'un modèle spécialisé sur des cas métier.
Quels sont les enjeux éthiques de la vision par ordinateur ?
La vision par ordinateur soulève des enjeux éthiques : biais dans la reconnaissance faciale (moins précise sur certaines ethnies), surveillance de masse et vie privée, deepfakes et manipulation d'images, et discrimination potentielle basée sur l'apparence. Les entreprises doivent évaluer ces risques, assurer la transparence, et respecter les réglementations (RGPD pour les données biométriques, interdictions de reconnaissance faciale dans certains contextes).