Présentation de l'OCR

Cette page décrit comment utiliser la route /v1/chat/completions afin de réaliser de l’OCR (reconnaissance de texte), de la description d’image, ou plus largement de l’analyse visuelle à partir d’images (PNG, JPG, etc.).

Cette approche repose sur des modèles Vision / OCR, incluant des capacités avancées dites de DeepSearch OCR.

Les cas d’usage typiques incluent :

OCR de documents (factures, contrats, scans)

Lecture de texte imprimé ou manuscrit

Conversion de documents en Markdown

Recherche et localisation d’éléments dans une image

Analyse de documents visuels pour un pipeline IA / RAG

Principe général

L’image est envoyée :
- soit via une URL publique
- soit encodée en base64 (Data URL)
Le message utilisateur combine :
- une instruction texte
- une ou plusieurs images
Selon le prompt utilisé, le modèle peut fonctionner en :
- OCR simple
- OCR document structuré (Markdown)
- OCR avec localisation (DeepSearch / grounding)
- Vision descriptive

Modes OCR avancés (DeepSearch OCR)

Le gateway Clovis supporte des prompts OCR avancés, appelés ici DeepSearch OCR, permettant d’activer des capacités supplémentaires du modèle.

Ces modes reposent sur l’utilisation de tokens spéciaux directement dans le prompt.

Tokens spéciaux supportés

<|grounding|>

Active le mode grounding (ancrage visuel). Lorsqu’il est présent :

le modèle cherche à lier sa réponse à la structure visuelle du document
il favorise des sorties plus fidèles à la mise en page
il est utilisé pour :
- OCR structuré
- conversion en Markdown
- localisation d’éléments

<|ref|> ... <|/ref|>

Permet de désigner explicitement un texte à rechercher dans l’image. Utilisé principalement avec <|grounding|> pour des cas de localisation ciblée.

Modes OCR prédéfinis

Markdown – OCR document structuré

<image>\n<|grounding|>Convert the document to markdown.

Extraction du texte
Reconstruction de la structure (titres, listes, tableaux)
Idéal pour documents scannés

Free OCR – OCR libre

<image>\nFree OCR.

Extraction brute du texte
Sans structuration
Sans localisation

Locate – Recherche localisée

<image>\n<|grounding|>Locate <|ref|>text<|/ref|> in the image.

Recherche ciblée d’un mot ou d’une expression
Utile pour :
- surlignage UI
- validation de présence
- interaction document

Describe – Vision descriptive

<image>\nDescribe this image in detail.

Description globale de l’image
Pas orienté OCR strict

Custom – Prompt libre

<image>\n[Prompt personnalisé]

Prompt entièrement personnalisable
Possibilité d’utiliser ou non :
- <|grounding|>
- <|ref|>

Compatibilité

⚠️ Les tokens <|grounding|>et <|ref|> sont model-specific.

Résumé rapide

Mode	Grounding	Usage
Markdown	✔️	OCR document structuré
Free OCR	❌	Texte brut
Locate	✔️	Localisation
Describe	❌	Vision
Custom	optionnel	Cas avancés

Principe général​

Modes OCR avancés (DeepSearch OCR)​

Tokens spéciaux supportés​

Modes OCR prédéfinis​

Markdown – OCR document structuré​

Free OCR – OCR libre​

Locate – Recherche localisée​

Describe – Vision descriptive​

Custom – Prompt libre​

Compatibilité​

Résumé rapide​