Présentation de l'OCR
Cette page décrit comment utiliser la route /v1/chat/completions afin de réaliser de l’OCR (reconnaissance de texte), de la description d’image, ou plus largement de l’analyse visuelle à partir d’images (PNG, JPG, etc.).
Cette approche repose sur des modèles Vision / OCR, incluant des capacités avancées dites de DeepSearch OCR.
Les cas d’usage typiques incluent :
OCR de documents (factures, contrats, scans)Lecture de texte imprimé ou manuscritConversion de documents en MarkdownRecherche et localisation d’éléments dans une imageAnalyse de documents visuels pour un pipeline IA / RAGPrincipe général
-
L’image est envoyée :
- soit via une URL publique
- soit encodée en base64 (Data URL)
-
Le message utilisateur combine :
- une instruction texte
- une ou plusieurs images
-
Selon le prompt utilisé, le modèle peut fonctionner en :
- OCR simple
- OCR document structuré (Markdown)
- OCR avec localisation (DeepSearch / grounding)
- Vision descriptive
Modes OCR avancés (DeepSearch OCR)
Le gateway Clovis supporte des prompts OCR avancés, appelés ici DeepSearch OCR, permettant d’activer des capacités supplémentaires du modèle.
Ces modes reposent sur l’utilisation de tokens spéciaux directement dans le prompt.
Tokens spéciaux supportés
<|grounding|>
Active le mode grounding (ancrage visuel). Lorsqu’il est présent :
- le modèle cherche à lier sa réponse à la structure visuelle du document
- il favorise des sorties plus fidèles à la mise en page
- il est utilisé pour :
- OCR structuré
- conversion en Markdown
- localisation d’éléments
<|ref|> ... <|/ref|>
Permet de désigner explicitement un texte à rechercher dans l’image.
Utilisé principalement avec <|grounding|> pour des cas de localisation ciblée.
Modes OCR prédéfinis
Markdown – OCR document structuré
<image>\n<|grounding|>Convert the document to markdown.
- Extraction du texte
- Reconstruction de la structure (titres, listes, tableaux)
- Idéal pour documents scannés
Free OCR – OCR libre
<image>\nFree OCR.
- Extraction brute du texte
- Sans structuration
- Sans localisation
Locate – Recherche localisée
<image>\n<|grounding|>Locate <|ref|>text<|/ref|> in the image.
- Recherche ciblée d’un mot ou d’une expression
- Utile pour :
- surlignage UI
- validation de présence
- interaction document
Describe – Vision descriptive
<image>\nDescribe this image in detail.
- Description globale de l’image
- Pas orienté OCR strict
Custom – Prompt libre
<image>\n[Prompt personnalisé]
- Prompt entièrement personnalisable
- Possibilité d’utiliser ou non :
<|grounding|><|ref|>
Compatibilité
⚠️ Les tokens <|grounding|>et <|ref|> sont model-specific.
Résumé rapide
| Mode | Grounding | Usage |
|---|---|---|
| Markdown | ✔️ | OCR document structuré |
| Free OCR | ❌ | Texte brut |
| Locate | ✔️ | Localisation |
| Describe | ❌ | Vision |
| Custom | optionnel | Cas avancés |