OCR

Reconnaissance optique de caractères pour extraire le texte des documents et images

Introduction

L'API OCR d'AlphaEdge vous permet d'extraire du texte depuis des documents, images et PDFs. Cette fonctionnalité est optimisée pour offrir des performances élevées et une grande précision.

Cette page vous guide à travers l'utilisation de l'API OCR, depuis les bases jusqu'aux cas d'usage avancés.

Démarrage rapide

Voici un exemple minimal pour commencer avec l'API OCR :

Exemple basique

python
from alphaedge import AlphaEdge

client = AlphaEdge(api_key="votre_cle_api")

# Transcription d'un document
response = client.ocr.create(
    file=open("document.pdf", "rb"),
    model="alphaedge-ocr-3"
)
print(response.text)
bash
curl https://api.alphaedge-ai.com/v1/ocr \
  -H "Authorization: Bearer $ALPHAEDGE_API_KEY" \
  -F "file=@document.pdf" \
  -F "model=alphaedge-ocr-3"
javascript
const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

// Transcription d'un document
const response = await client.ocr.create({
  file: fs.createReadStream('document.pdf'),
  model: 'alphaedge-ocr-3'
});
console.log(response.text);

Paramètres de l'API

Voici les paramètres disponibles pour l'API OCR :

PARAMÈTRE TYPE REQUIS DÉFAUT DESCRIPTION
model string Oui - Le nom du modèle à utiliser (ex: alphaedge-ocr-3)
file File Oui - Le fichier à traiter (PDF, image, etc.)
language string Non auto Code de langue ISO 639-1 (ex: fr, en). Si non spécifié, détection automatique
output_format string Non text Format de sortie : text, json, structured
temperature float Non 0.7 Contrôle la créativité (0.0 = déterministe, 2.0 = très créatif)
max_tokens integer Non 2048 Nombre maximum de tokens à générer
stream boolean Non false Activer le streaming des réponses en temps réel

Formats de fichiers supportés

L'API OCR d'AlphaEdge prend en charge une large gamme de formats de documents pour l'extraction de texte. Voici la liste complète des formats supportés :

Documents PDF

  • PDF standard (.pdf) - Documents texte, formulaires, rapports
  • PDF scanné - Images de documents converties en PDF
  • PDF avec images - Documents contenant du texte et des images
  • PDF protégé - Documents avec mot de passe (nécessite le mot de passe en paramètre)
  • PDF/A - Format d'archivage PDF

Limitations PDF : Maximum 100 pages par document, taille maximale 25 MB

Images

  • JPEG/JPG (.jpg, .jpeg) - Photos de documents, captures d'écran
  • PNG (.png) - Images avec transparence, captures haute qualité
  • TIFF/TIF (.tiff, .tif) - Documents scannés haute résolution
  • BMP (.bmp) - Images bitmap
  • WEBP (.webp) - Format moderne compressé
  • GIF (.gif) - Images animées (première frame extraite)

Limitations images : Résolution maximale 4096x4096 pixels, taille maximale 25 MB par fichier

Documents Microsoft Office

  • Word (.doc, .docx) - Documents texte Microsoft Word
  • Excel (.xls, .xlsx) - Tableurs (extraction des cellules avec texte)
  • PowerPoint (.ppt, .pptx) - Présentations (extraction du texte des diapositives)

Documents OpenDocument

  • ODT (.odt) - Documents texte OpenDocument
  • ODS (.ods) - Tableurs OpenDocument
  • ODP (.odp) - Présentations OpenDocument

Autres formats

  • RTF (.rtf) - Rich Text Format
  • TXT (.txt) - Fichiers texte simples
  • HTML (.html, .htm) - Pages web (extraction du texte visible)
  • EPUB (.epub) - Livres électroniques

Recommandations

  • Pour les documents scannés : Utilisez des images TIFF ou PNG haute résolution (minimum 300 DPI)
  • Pour les documents texte : PDF ou DOCX offrent les meilleurs résultats
  • Pour les formulaires : PDF avec champs de formulaire ou images haute résolution
  • Évitez les images de très faible résolution (< 150 DPI) pour de meilleurs résultats

Format de réponse

L'API OCR retourne une réponse au format JSON. Voici un exemple de structure de réponse :

json
{
  "id": "req_abc123",
  "object": "ocr.response",
  "created": 1677652288,
  "model": "alphaedge-ocr-3",
  "text": "Le texte extrait depuis le document...",
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 50,
    "total_tokens": 60
  }
}

Exemples avancés

Extraction avec format structuré

Extrayez des données structurées depuis un formulaire :

python
response = client.ocr.create(
    file=open("formulaire.pdf", "rb"),
    model="alphaedge-ocr-3",
    output_format="structured",
    structure_type="form"
)
print(response.structured_data)

Gestion des erreurs

Voici comment gérer les erreurs de manière appropriée :

python
from alphaedge import AlphaEdge, APIError

client = AlphaEdge(api_key="votre_cle_api")

try:
    response = client.ocr.create(
        file=open("file.pdf", "rb"),
        model="alphaedge-ocr-3"
    )
    print(response)
except APIError as e:
    print(f"Erreur API: {e.message}")
    print(f"Code: {e.code}")
except FileNotFoundError:
    print("Fichier non trouvé")
except Exception as e:
    print(f"Erreur inattendue: {e}")
javascript
const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

try {
  const response = await client.ocr.create({
    file: fs.createReadStream('file.pdf'),
    model: 'alphaedge-ocr-3'
  });
  console.log(response);
} catch (error) {
  if (error instanceof AlphaEdge.APIError) {
    console.error(`Erreur API: ${error.message}`);
    console.error(`Code: ${error.code}`);
  } else if (error.code === 'ENOENT') {
    console.error('Fichier non trouvé');
  } else {
    console.error(`Erreur inattendue: ${error.message}`);
  }
}

Cas d'usage

Voici quelques cas d'usage courants pour l'API OCR :

1. Digitalisation de documents

Convertissez des documents papier en texte numérique pour archivage et recherche.

2. Extraction de données de formulaires

Extrayez automatiquement les informations de formulaires scannés (factures, contrats, etc.).

3. Reconnaissance de texte dans les images

Extrayez du texte depuis des images, captures d'écran ou photos de documents.

Limitations et bonnes pratiques

Limitations

  • Taille de fichier : Les fichiers ne doivent pas dépasser 25 MB
  • Formats supportés : PDF, PNG, JPG, JPEG, TIFF, BMP, WEBP, GIF, DOC, DOCX, XLS, XLSX, PPT, PPTX, ODT, ODS, ODP, RTF, TXT, HTML, EPUB
  • Rate limiting : 60 requêtes par minute par défaut (peut être augmenté selon votre plan)
  • Tokens : Limite de 4096 tokens pour les prompts et réponses combinés
  • Pages PDF : Maximum 100 pages par document

Bonnes pratiques

  • Utilisez des images haute résolution (minimum 300 DPI) pour de meilleurs résultats
  • Pour les documents scannés, assurez-vous que le contraste est suffisant
  • Gérez les erreurs de manière appropriée avec des try/except
  • Implémentez un système de retry pour gérer les erreurs temporaires
  • Cachez les résultats lorsque c'est possible pour réduire les coûts
  • Surveillez votre utilisation pour éviter de dépasser vos limites

Modèles disponibles

Pour voir tous les modèles OCR disponibles avec leurs spécifications détaillées, consultez la page Nos modèles et filtrez par type.