OCR - Docs & API - AlphaEdge

Introduction

L'API OCR d'AlphaEdge vous permet d'extraire du texte depuis des documents, images et PDFs. Cette fonctionnalité est optimisée pour offrir des performances élevées et une grande précision.

Cette page vous guide à travers l'utilisation de l'API OCR, depuis les bases jusqu'aux cas d'usage avancés.

Démarrage rapide

Voici un exemple minimal pour commencer avec l'API OCR :

Exemple basique

python

from alphaedge import AlphaEdge

client = AlphaEdge(api_key="votre_cle_api")

# Transcription d'un document
response = client.ocr.create(
    file=open("document.pdf", "rb"),
    model="alphaedge-ocr-3"
)
print(response.text)

bash

curl https://api.alphaedge-ai.com/v1/ocr \
  -H "Authorization: Bearer $ALPHAEDGE_API_KEY" \
  -F "file=@document.pdf" \
  -F "model=alphaedge-ocr-3"

javascript

const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

// Transcription d'un document
const response = await client.ocr.create({
  file: fs.createReadStream('document.pdf'),
  model: 'alphaedge-ocr-3'
});
console.log(response.text);

Paramètres de l'API

Voici les paramètres disponibles pour l'API OCR :

PARAMÈTRE	TYPE	REQUIS	DÉFAUT	DESCRIPTION
`model`	string	Oui	-	Le nom du modèle à utiliser (ex: alphaedge-ocr-3)
`file`	File	Oui	-	Le fichier à traiter (PDF, image, etc.)
`language`	string	Non	auto	Code de langue ISO 639-1 (ex: fr, en). Si non spécifié, détection automatique
`output_format`	string	Non	text	Format de sortie : text, json, structured
`temperature`	float	Non	0.7	Contrôle la créativité (0.0 = déterministe, 2.0 = très créatif)
`max_tokens`	integer	Non	2048	Nombre maximum de tokens à générer
`stream`	boolean	Non	false	Activer le streaming des réponses en temps réel

Formats de fichiers supportés

L'API OCR d'AlphaEdge prend en charge une large gamme de formats de documents pour l'extraction de texte. Voici la liste complète des formats supportés :

Documents PDF

PDF standard (.pdf) - Documents texte, formulaires, rapports
PDF scanné - Images de documents converties en PDF
PDF avec images - Documents contenant du texte et des images
PDF protégé - Documents avec mot de passe (nécessite le mot de passe en paramètre)
PDF/A - Format d'archivage PDF

Limitations PDF : Maximum 100 pages par document, taille maximale 25 MB

Images

JPEG/JPG (.jpg, .jpeg) - Photos de documents, captures d'écran
PNG (.png) - Images avec transparence, captures haute qualité
TIFF/TIF (.tiff, .tif) - Documents scannés haute résolution
BMP (.bmp) - Images bitmap
WEBP (.webp) - Format moderne compressé
GIF (.gif) - Images animées (première frame extraite)

Limitations images : Résolution maximale 4096x4096 pixels, taille maximale 25 MB par fichier

Documents Microsoft Office

Word (.doc, .docx) - Documents texte Microsoft Word
Excel (.xls, .xlsx) - Tableurs (extraction des cellules avec texte)
PowerPoint (.ppt, .pptx) - Présentations (extraction du texte des diapositives)

Documents OpenDocument

ODT (.odt) - Documents texte OpenDocument
ODS (.ods) - Tableurs OpenDocument
ODP (.odp) - Présentations OpenDocument

Autres formats

RTF (.rtf) - Rich Text Format
TXT (.txt) - Fichiers texte simples
HTML (.html, .htm) - Pages web (extraction du texte visible)
EPUB (.epub) - Livres électroniques

Recommandations

Pour les documents scannés : Utilisez des images TIFF ou PNG haute résolution (minimum 300 DPI)
Pour les documents texte : PDF ou DOCX offrent les meilleurs résultats
Pour les formulaires : PDF avec champs de formulaire ou images haute résolution
Évitez les images de très faible résolution (< 150 DPI) pour de meilleurs résultats

Format de réponse

L'API OCR retourne une réponse au format JSON. Voici un exemple de structure de réponse :

json

{
  "id": "req_abc123",
  "object": "ocr.response",
  "created": 1677652288,
  "model": "alphaedge-ocr-3",
  "text": "Le texte extrait depuis le document...",
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 50,
    "total_tokens": 60
  }
}

Exemples avancés

Extraction avec format structuré

Extrayez des données structurées depuis un formulaire :

python

response = client.ocr.create(
    file=open("formulaire.pdf", "rb"),
    model="alphaedge-ocr-3",
    output_format="structured",
    structure_type="form"
)
print(response.structured_data)

Gestion des erreurs

Voici comment gérer les erreurs de manière appropriée :

python

from alphaedge import AlphaEdge, APIError

client = AlphaEdge(api_key="votre_cle_api")

try:
    response = client.ocr.create(
        file=open("file.pdf", "rb"),
        model="alphaedge-ocr-3"
    )
    print(response)
except APIError as e:
    print(f"Erreur API: {e.message}")
    print(f"Code: {e.code}")
except FileNotFoundError:
    print("Fichier non trouvé")
except Exception as e:
    print(f"Erreur inattendue: {e}")

javascript

const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

try {
  const response = await client.ocr.create({
    file: fs.createReadStream('file.pdf'),
    model: 'alphaedge-ocr-3'
  });
  console.log(response);
} catch (error) {
  if (error instanceof AlphaEdge.APIError) {
    console.error(`Erreur API: ${error.message}`);
    console.error(`Code: ${error.code}`);
  } else if (error.code === 'ENOENT') {
    console.error('Fichier non trouvé');
  } else {
    console.error(`Erreur inattendue: ${error.message}`);
  }
}

Cas d'usage

Voici quelques cas d'usage courants pour l'API OCR :

1. Digitalisation de documents

Convertissez des documents papier en texte numérique pour archivage et recherche.

2. Extraction de données de formulaires

Extrayez automatiquement les informations de formulaires scannés (factures, contrats, etc.).

3. Reconnaissance de texte dans les images

Extrayez du texte depuis des images, captures d'écran ou photos de documents.

Limitations et bonnes pratiques

Limitations

Taille de fichier : Les fichiers ne doivent pas dépasser 25 MB
Formats supportés : PDF, PNG, JPG, JPEG, TIFF, BMP, WEBP, GIF, DOC, DOCX, XLS, XLSX, PPT, PPTX, ODT, ODS, ODP, RTF, TXT, HTML, EPUB
Rate limiting : 60 requêtes par minute par défaut (peut être augmenté selon votre plan)
Tokens : Limite de 4096 tokens pour les prompts et réponses combinés
Pages PDF : Maximum 100 pages par document

Bonnes pratiques

Utilisez des images haute résolution (minimum 300 DPI) pour de meilleurs résultats
Pour les documents scannés, assurez-vous que le contraste est suffisant
Gérez les erreurs de manière appropriée avec des try/except
Implémentez un système de retry pour gérer les erreurs temporaires
Cachez les résultats lorsque c'est possible pour réduire les coûts
Surveillez votre utilisation pour éviter de dépasser vos limites

Modèles disponibles

Pour voir tous les modèles OCR disponibles avec leurs spécifications détaillées, consultez la page Nos modèles et filtrez par type.