Aller au contenu principal

Présentation de l'OCR

Cette page décrit comment utiliser la route /v1/chat/completions afin de réaliser de l’OCR (reconnaissance de texte), de la description d’image, ou plus largement de l’analyse visuelle à partir d’images (PNG, JPG, etc.).

Cette approche repose sur des modèles Vision / OCR, incluant des capacités avancées dites de DeepSearch OCR.

Les cas d’usage typiques incluent :

OCR de documents (factures, contrats, scans)
Lecture de texte imprimé ou manuscrit
Conversion de documents en Markdown
Recherche et localisation d’éléments dans une image
Analyse de documents visuels pour un pipeline IA / RAG

Principe général

  • L’image est envoyée :

    • soit via une URL publique
    • soit encodée en base64 (Data URL)
  • Le message utilisateur combine :

    • une instruction texte
    • une ou plusieurs images
  • Selon le prompt utilisé, le modèle peut fonctionner en :

    • OCR simple
    • OCR document structuré (Markdown)
    • OCR avec localisation (DeepSearch / grounding)
    • Vision descriptive

Modes OCR avancés (DeepSearch OCR)

Le gateway Clovis supporte des prompts OCR avancés, appelés ici DeepSearch OCR, permettant d’activer des capacités supplémentaires du modèle.

Ces modes reposent sur l’utilisation de tokens spéciaux directement dans le prompt.

Tokens spéciaux supportés

<|grounding|>

Active le mode grounding (ancrage visuel). Lorsqu’il est présent :

  • le modèle cherche à lier sa réponse à la structure visuelle du document
  • il favorise des sorties plus fidèles à la mise en page
  • il est utilisé pour :
    • OCR structuré
    • conversion en Markdown
    • localisation d’éléments

<|ref|> ... <|/ref|>

Permet de désigner explicitement un texte à rechercher dans l’image. Utilisé principalement avec <|grounding|> pour des cas de localisation ciblée.

Modes OCR prédéfinis

Markdown – OCR document structuré

<image>\n<|grounding|>Convert the document to markdown.
  • Extraction du texte
  • Reconstruction de la structure (titres, listes, tableaux)
  • Idéal pour documents scannés

Free OCR – OCR libre

<image>\nFree OCR.
  • Extraction brute du texte
  • Sans structuration
  • Sans localisation

Locate – Recherche localisée

<image>\n<|grounding|>Locate <|ref|>text<|/ref|> in the image.
  • Recherche ciblée d’un mot ou d’une expression
  • Utile pour :
    • surlignage UI
    • validation de présence
    • interaction document

Describe – Vision descriptive

<image>\nDescribe this image in detail.
  • Description globale de l’image
  • Pas orienté OCR strict

Custom – Prompt libre

<image>\n[Prompt personnalisé]
  • Prompt entièrement personnalisable
  • Possibilité d’utiliser ou non :
    • <|grounding|>
    • <|ref|>

Compatibilité

⚠️ Les tokens <|grounding|>et <|ref|> sont model-specific.

Résumé rapide

ModeGroundingUsage
Markdown✔️OCR document structuré
Free OCRTexte brut
Locate✔️Localisation
DescribeVision
CustomoptionnelCas avancés