Multimodal inbound mailbot : OCR/VLM + audio (STT) à l’échelle
Le multimodal, pour un mailbot, ce n’est pas “faire de la vision parce que c’est cool”. C’est survivre au réel : PDF scannés, photos floues, captures d’écran, formulaires, notes vocales. En 2026, vous avez des options commerciales (OpenAI audio/vision, Gemini
5 mars 20269 min