OCR

Optical character recognition to extract text from documents and images

Document source

                

Introduction

L'API OCR d'AlphaEdge vous permet d'extraire du texte depuis des documents, images et PDFs. Cette fonctionnalité est optimisée pour offrir des performances élevées et une grande précision.

Cette page vous guide à travers l'utilisation de l'API OCR, depuis les bases jusqu'aux cas d'usage avancés.

Quick start

Voici un exemple minimal pour commencer avec l'API OCR :

Basic example

python
import requests

url = "https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr"
headers = {"X-API-Key": "TA_CLE"}

with open("/chemin/image.png", "rb") as f:
    files = {"image": ("image.png", f, "image/png")}
    r = requests.post(url, headers=headers, files=files, timeout=300)

print(r.status_code)
print(r.json())
bash
curl https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr \
  -H "X-API-Key: TA_CLE" \
  -F "file=@document.pdf" \
  -F "model=alphaedge-ocr-3"
javascript
import fs from "node:fs";

const form = new FormData();
form.append("image", new Blob([fs.readFileSync("/chemin/image.png")]), "image.png");

const res = await fetch("https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr", {
  method: "POST",
  headers: { "X-API-Key": "TA_CLE" },
  body: form
});

console.log(res.status, await res.json());

API parameters

Voici les paramètres disponibles pour l'API OCR :

PARAMETER TYPE REQUIRED DEFAULT DESCRIPTION
model string Yes - Le nom du modèle à utiliser (ex: alphaedge-ocr-3)
file File Yes - Le fichier à traiter (PDF, image, etc.)

Supported file formats

L'API OCR d'AlphaEdge prend en charge une large gamme de formats de documents pour l'extraction de texte. Voici la liste complète des formats supportés :

Documents PDF

  • PDF standard (.pdf) - Documents texte, formulaires, rapports
  • PDF scanné - Images de documents converties en PDF
  • PDF avec images - Documents contenant du texte et des images
  • PDF protégé - Documents avec mot de passe (nécessite le mot de passe en paramètre)
  • PDF/A - Format d'archivage PDF

Limitations PDF : Maximum 100 pages par document, taille maximale 25 MB

Images

  • JPEG/JPG (.jpg, .jpeg) - Photos de documents, captures d'écran
  • PNG (.png) - Images avec transparence, captures haute qualité
  • TIFF/TIF (.tiff, .tif) - Documents scannés haute résolution
  • BMP (.bmp) - Images bitmap
  • WEBP (.webp) - Format moderne compressé
  • GIF (.gif) - Images animées (première frame extraite)

Limitations images : Résolution maximale 4096x4096 pixels, taille maximale 25 MB par fichier

Documents Microsoft Office

  • Word (.doc, .docx) - Documents texte Microsoft Word
  • Excel (.xls, .xlsx) - Tableurs (extraction des cellules avec texte)
  • PowerPoint (.ppt, .pptx) - Présentations (extraction du texte des diapositives)

OpenDocument documents

  • ODT (.odt) - Documents texte OpenDocument
  • ODS (.ods) - Tableurs OpenDocument
  • ODP (.odp) - Présentations OpenDocument

Autres formats

  • RTF (.rtf) - Rich Text Format
  • TXT (.txt) - Plain text files
  • HTML (.html, .htm) - Pages web (extraction du texte visible)
  • EPUB (.epub) - Livres électroniques

Recommendations

  • Pour les documents scannés : Utilisez des images TIFF ou PNG haute résolution (minimum 300 DPI)
  • Pour les documents texte : PDF ou DOCX offrent les meilleurs résultats
  • Pour les formulaires : PDF avec champs de formulaire ou images haute résolution
  • Évitez les images de très faible résolution (< 150 DPI) pour de meilleurs résultats

Response format

L'API OCR retourne une réponse au format JSON. Voici un exemple de structure de réponse :

json
{
  "id": "req_abc123",
  "object": "ocr.response",
  "created": 1677652288,
  "model": "alphaedge-ocr-3",
  "text": "Le texte extrait depuis le document...",
  "usage": {
    "total_tokens": 60
  }
}

Advanced examples

Extraction with structured format

Extract structured data from a form:

python
import requests

url = "https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr"
headers = {"X-API-Key": "TA_CLE"}

with open("/chemin/image.png", "rb") as f:
    files = {"image": ("image.png", f, "image/png")}
    r = requests.post(url, headers=headers, files=files, timeout=300)

print(r.status_code)
print(r.json())

Error handling

Here is how to handle errors properly:

python
import requests

url = "https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr"
headers = {"X-API-Key": "TA_CLE"}

with open("/chemin/image.png", "rb") as f:
    files = {"image": ("image.png", f, "image/png")}
    r = requests.post(url, headers=headers, files=files, timeout=300)

print(r.status_code)
print(r.json())
javascript
import fs from "node:fs";

const form = new FormData();
form.append("image", new Blob([fs.readFileSync("/chemin/image.png")]), "image.png");

const res = await fetch("https://api-endpoints.alphaedge-ai.com/models/alpha-digit-max/ocr", {
  method: "POST",
  headers: { "X-API-Key": "TA_CLE" },
  body: form
});

console.log(res.status, await res.json());

Use cases

Here are some common use cases for the OCR API:

1. Document digitization

Convert paper documents to digital text for archiving and search.

2. Form data extraction

Automatically extract information from scanned forms (invoices, contracts, etc.).

3. Text recognition in images

Extract text from images, screenshots or document photos.

Limitations and best practices

Limitations

  • File size : Files must not exceed 25 MB
  • Supported formats : PDF, PNG, JPG, JPEG, TIFF, BMP, WEBP, GIF, DOC, DOCX, XLS, XLSX, PPT, PPTX, ODT, ODS, ODP, RTF, TXT, HTML, EPUB
  • Rate limiting : 60 requêtes par minute par défaut (peut être augmenté selon votre plan)
  • Tokens : 4096 token limit for combined prompts and responses
  • PDF pages : Maximum 100 pages per document

Best practices

  • Utilisez des images haute résolution (minimum 300 DPI) pour de meilleurs résultats
  • Pour les documents scannés, assurez-vous que le contraste est suffisant
  • Handle errors properly with try/except blocks
  • Implement a retry mechanism to handle temporary errors
  • Cache results when possible to reduce costs
  • Monitor your usage to avoid exceeding your limits

Available models

To view all available OCR models with their detailed specifications, visit the Our models and filter by type.