Audio & Transcription - Docs & API

Introduction

L'API Audio & Transcription d'AlphaEdge vous permet de transcrire des fichiers audio en texte. Cette fonctionnalité est optimisée pour offrir des performances élevées et une grande précision.

Cette page vous guide à travers l'utilisation de l'API Audio & Transcription, depuis les bases jusqu'aux cas d'usage avancés.

Démarrage rapide

Voici un exemple minimal pour commencer avec l'API Audio & Transcription :

Exemple basique

python

from alphaedge import AlphaEdge

client = AlphaEdge(api_key="votre_cle_api")

# Transcription d'un fichier audio
response = client.audio.transcribe(
    file=open("audio.mp3", "rb"),
    model="alphaedge-audio-3"
)
print(response.text)

bash

curl https://api.alphaedge-ai.com/v1/audio \
  -H "Authorization: Bearer $ALPHAEDGE_API_KEY" \
  -F "file=@audio.mp3" \
  -F "model=alphaedge-audio-3"

javascript

const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

// Transcription d'un fichier audio
const response = await client.audio.transcribe({
  file: fs.createReadStream('audio.mp3'),
  model: 'alphaedge-audio-3'
});
console.log(response.text);

Paramètres de l'API

Voici les paramètres disponibles pour l'API Audio & Transcription :

PARAMÈTRE	TYPE	REQUIS	DÉFAUT	DESCRIPTION
`model`	string	Oui	-	Le nom du modèle à utiliser (ex: alphaedge-audio-3)
`file`	File	Oui	-	Le fichier audio à transcrire
`language`	string	Non	auto	Code de langue ISO 639-1 pour la transcription
`response_format`	string	Non	json	Format de réponse : "json", "text", "verbose_json"
`temperature`	float	Non	0.7	Contrôle la créativité (0.0 = déterministe, 2.0 = très créatif)
`max_tokens`	integer	Non	2048	Nombre maximum de tokens à générer
`stream`	boolean	Non	false	Activer le streaming des réponses en temps réel

Formats de fichiers supportés

L'API Audio & Transcription d'AlphaEdge prend en charge une large variété de formats audio pour la transcription. Voici la liste complète des formats supportés :

Formats audio compressés

MP3 (.mp3) - Format le plus courant, compression avec perte
AAC (.aac, .m4a) - Format Apple, bonne qualité à faible bitrate
OGG Vorbis (.ogg) - Format open source, compression efficace
OPUS (.opus) - Format optimisé pour la voix, excellent pour les appels
WMA (.wma) - Windows Media Audio

Formats audio non compressés

WAV (.wav) - Format PCM non compressé, qualité maximale
FLAC (.flac) - Compression sans perte, haute qualité
AIFF (.aiff, .aif) - Format Apple non compressé

Formats audio streaming

WebM Audio (.webm) - Format web moderne
M4A (.m4a) - Format conteneur Apple

Spécifications techniques

Fréquence d'échantillonnage : 8 kHz à 48 kHz (recommandé : 16 kHz ou 44.1 kHz)
Profondeur de bits : 16 bits ou 24 bits
Canaux : Mono, stéréo, ou multi-canaux (conversion automatique en mono)
Durée maximale : 25 minutes par fichier
Taille maximale : 25 MB par fichier

Formats vidéo (extraction audio)

L'API peut également extraire et transcrire l'audio depuis des fichiers vidéo :

MP4 (.mp4) - Vidéo avec piste audio
AVI (.avi) - Format vidéo conteneur
MOV (.mov) - Format QuickTime
MKV (.mkv) - Format conteneur open source
WebM (.webm) - Format web vidéo

Recommandations

Pour la voix : MP3 à 128 kbps ou WAV 16 kHz mono offrent un bon compromis qualité/taille
Pour la musique avec paroles : WAV ou FLAC pour préserver la qualité
Pour les appels téléphoniques : OPUS ou MP3 à 64 kbps mono
Évitez les fichiers audio de très faible qualité (< 16 kHz) pour de meilleurs résultats
Pour les fichiers longs (> 25 min), divisez-les en segments

Format de réponse

L'API Audio & Transcription retourne une réponse au format JSON. Voici un exemple de structure de réponse :

json

{
  "id": "req_abc123",
  "object": "audio.response",
  "created": 1677652288,
  "model": "alphaedge-audio-3",
  "text": "Le texte transcrit depuis l'audio...",
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 50,
    "total_tokens": 60
  }
}

Exemples avancés

Transcription avec timestamps

Obtenez une transcription avec des timestamps pour chaque segment :

python

response = client.audio.transcribe(
    file=open("audio.mp3", "rb"),
    model="alphaedge-audio-3",
    response_format="verbose_json",
    timestamp_granularity="word"
)
for segment in response.segments:
    print(f"[{segment.start}s - {segment.end}s] {segment.text}")

Gestion des erreurs

Voici comment gérer les erreurs de manière appropriée :

python

from alphaedge import AlphaEdge, APIError

client = AlphaEdge(api_key="votre_cle_api")

try:
    response = client.audio.transcribe(
        file=open("audio.mp3", "rb"),
        model="alphaedge-audio-3"
    )
    print(response)
except APIError as e:
    print(f"Erreur API: {e.message}")
    print(f"Code: {e.code}")
except FileNotFoundError:
    print("Fichier non trouvé")
except Exception as e:
    print(f"Erreur inattendue: {e}")

javascript

const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

try {
  const response = await client.audio.transcribe({
    file: fs.createReadStream('audio.mp3'),
    model: 'alphaedge-audio-3'
  });
  console.log(response);
} catch (error) {
  if (error instanceof AlphaEdge.APIError) {
    console.error(`Erreur API: ${error.message}`);
    console.error(`Code: ${error.code}`);
  } else if (error.code === 'ENOENT') {
    console.error('Fichier non trouvé');
  } else {
    console.error(`Erreur inattendue: ${error.message}`);
  }
}

Cas d'usage

Voici quelques cas d'usage courants pour l'API Audio & Transcription :

1. Transcription de réunions

Transcrivez automatiquement les réunions pour archivage et recherche.

2. Sous-titrage de vidéos

Générez des sous-titres automatiques pour vos contenus vidéo.

3. Transcription de podcasts

Créez des transcriptions pour améliorer l'accessibilité et le référencement.

Limitations et bonnes pratiques

Limitations

Taille de fichier : Les fichiers ne doivent pas dépasser 25 MB
Formats supportés : MP3, WAV, M4A, FLAC, AAC, OGG, OPUS, WMA, AIFF, WebM, et formats vidéo (MP4, AVI, MOV, MKV, WebM)
Durée maximale : 25 minutes par fichier
Rate limiting : 60 requêtes par minute par défaut (peut être augmenté selon votre plan)
Tokens : Limite de 4096 tokens pour les prompts et réponses combinés

Bonnes pratiques

Utilisez des fichiers audio de bonne qualité (minimum 16 kHz) pour de meilleurs résultats
Pour les fichiers longs, divisez-les en segments de 25 minutes maximum
Gérez les erreurs de manière appropriée avec des try/except
Implémentez un système de retry pour gérer les erreurs temporaires
Cachez les résultats lorsque c'est possible pour réduire les coûts
Surveillez votre utilisation pour éviter de dépasser vos limites

Modèles disponibles

Pour voir tous les modèles audio & transcription disponibles avec leurs spécifications détaillées, consultez la page Nos modèles et filtrez par type.