Audio & Transcription

Transcription audio en temps réel et analyse de fichiers audio

Introduction

L'API Audio & Transcription d'AlphaEdge vous permet de transcrire des fichiers audio en texte. Cette fonctionnalité est optimisée pour offrir des performances élevées et une grande précision.

Cette page vous guide à travers l'utilisation de l'API Audio & Transcription, depuis les bases jusqu'aux cas d'usage avancés.

Démarrage rapide

Voici un exemple minimal pour commencer avec l'API Audio & Transcription :

Exemple basique

python
from alphaedge import AlphaEdge

client = AlphaEdge(api_key="votre_cle_api")

# Transcription d'un fichier audio
response = client.audio.transcribe(
    file=open("audio.mp3", "rb"),
    model="alphaedge-audio-3"
)
print(response.text)
bash
curl https://api.alphaedge-ai.com/v1/audio \
  -H "Authorization: Bearer $ALPHAEDGE_API_KEY" \
  -F "file=@audio.mp3" \
  -F "model=alphaedge-audio-3"
javascript
const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

// Transcription d'un fichier audio
const response = await client.audio.transcribe({
  file: fs.createReadStream('audio.mp3'),
  model: 'alphaedge-audio-3'
});
console.log(response.text);

Paramètres de l'API

Voici les paramètres disponibles pour l'API Audio & Transcription :

PARAMÈTRE TYPE REQUIS DÉFAUT DESCRIPTION
model string Oui - Le nom du modèle à utiliser (ex: alphaedge-audio-3)
file File Oui - Le fichier audio à transcrire
language string Non auto Code de langue ISO 639-1 pour la transcription
response_format string Non json Format de réponse : "json", "text", "verbose_json"
temperature float Non 0.7 Contrôle la créativité (0.0 = déterministe, 2.0 = très créatif)
max_tokens integer Non 2048 Nombre maximum de tokens à générer
stream boolean Non false Activer le streaming des réponses en temps réel

Formats de fichiers supportés

L'API Audio & Transcription d'AlphaEdge prend en charge une large variété de formats audio pour la transcription. Voici la liste complète des formats supportés :

Formats audio compressés

  • MP3 (.mp3) - Format le plus courant, compression avec perte
  • AAC (.aac, .m4a) - Format Apple, bonne qualité à faible bitrate
  • OGG Vorbis (.ogg) - Format open source, compression efficace
  • OPUS (.opus) - Format optimisé pour la voix, excellent pour les appels
  • WMA (.wma) - Windows Media Audio

Formats audio non compressés

  • WAV (.wav) - Format PCM non compressé, qualité maximale
  • FLAC (.flac) - Compression sans perte, haute qualité
  • AIFF (.aiff, .aif) - Format Apple non compressé

Formats audio streaming

  • WebM Audio (.webm) - Format web moderne
  • M4A (.m4a) - Format conteneur Apple

Spécifications techniques

  • Fréquence d'échantillonnage : 8 kHz à 48 kHz (recommandé : 16 kHz ou 44.1 kHz)
  • Profondeur de bits : 16 bits ou 24 bits
  • Canaux : Mono, stéréo, ou multi-canaux (conversion automatique en mono)
  • Durée maximale : 25 minutes par fichier
  • Taille maximale : 25 MB par fichier

Formats vidéo (extraction audio)

L'API peut également extraire et transcrire l'audio depuis des fichiers vidéo :

  • MP4 (.mp4) - Vidéo avec piste audio
  • AVI (.avi) - Format vidéo conteneur
  • MOV (.mov) - Format QuickTime
  • MKV (.mkv) - Format conteneur open source
  • WebM (.webm) - Format web vidéo

Recommandations

  • Pour la voix : MP3 à 128 kbps ou WAV 16 kHz mono offrent un bon compromis qualité/taille
  • Pour la musique avec paroles : WAV ou FLAC pour préserver la qualité
  • Pour les appels téléphoniques : OPUS ou MP3 à 64 kbps mono
  • Évitez les fichiers audio de très faible qualité (< 16 kHz) pour de meilleurs résultats
  • Pour les fichiers longs (> 25 min), divisez-les en segments

Format de réponse

L'API Audio & Transcription retourne une réponse au format JSON. Voici un exemple de structure de réponse :

json
{
  "id": "req_abc123",
  "object": "audio.response",
  "created": 1677652288,
  "model": "alphaedge-audio-3",
  "text": "Le texte transcrit depuis l'audio...",
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 50,
    "total_tokens": 60
  }
}

Exemples avancés

Transcription avec timestamps

Obtenez une transcription avec des timestamps pour chaque segment :

python
response = client.audio.transcribe(
    file=open("audio.mp3", "rb"),
    model="alphaedge-audio-3",
    response_format="verbose_json",
    timestamp_granularity="word"
)
for segment in response.segments:
    print(f"[{segment.start}s - {segment.end}s] {segment.text}")

Gestion des erreurs

Voici comment gérer les erreurs de manière appropriée :

python
from alphaedge import AlphaEdge, APIError

client = AlphaEdge(api_key="votre_cle_api")

try:
    response = client.audio.transcribe(
        file=open("audio.mp3", "rb"),
        model="alphaedge-audio-3"
    )
    print(response)
except APIError as e:
    print(f"Erreur API: {e.message}")
    print(f"Code: {e.code}")
except FileNotFoundError:
    print("Fichier non trouvé")
except Exception as e:
    print(f"Erreur inattendue: {e}")
javascript
const AlphaEdge = require('@alphaedge/ai-sdk');

const client = new AlphaEdge({
  apiKey: process.env.ALPHAEDGE_API_KEY
});

try {
  const response = await client.audio.transcribe({
    file: fs.createReadStream('audio.mp3'),
    model: 'alphaedge-audio-3'
  });
  console.log(response);
} catch (error) {
  if (error instanceof AlphaEdge.APIError) {
    console.error(`Erreur API: ${error.message}`);
    console.error(`Code: ${error.code}`);
  } else if (error.code === 'ENOENT') {
    console.error('Fichier non trouvé');
  } else {
    console.error(`Erreur inattendue: ${error.message}`);
  }
}

Cas d'usage

Voici quelques cas d'usage courants pour l'API Audio & Transcription :

1. Transcription de réunions

Transcrivez automatiquement les réunions pour archivage et recherche.

2. Sous-titrage de vidéos

Générez des sous-titres automatiques pour vos contenus vidéo.

3. Transcription de podcasts

Créez des transcriptions pour améliorer l'accessibilité et le référencement.

Limitations et bonnes pratiques

Limitations

  • Taille de fichier : Les fichiers ne doivent pas dépasser 25 MB
  • Formats supportés : MP3, WAV, M4A, FLAC, AAC, OGG, OPUS, WMA, AIFF, WebM, et formats vidéo (MP4, AVI, MOV, MKV, WebM)
  • Durée maximale : 25 minutes par fichier
  • Rate limiting : 60 requêtes par minute par défaut (peut être augmenté selon votre plan)
  • Tokens : Limite de 4096 tokens pour les prompts et réponses combinés

Bonnes pratiques

  • Utilisez des fichiers audio de bonne qualité (minimum 16 kHz) pour de meilleurs résultats
  • Pour les fichiers longs, divisez-les en segments de 25 minutes maximum
  • Gérez les erreurs de manière appropriée avec des try/except
  • Implémentez un système de retry pour gérer les erreurs temporaires
  • Cachez les résultats lorsque c'est possible pour réduire les coûts
  • Surveillez votre utilisation pour éviter de dépasser vos limites

Modèles disponibles

Pour voir tous les modèles audio & transcription disponibles avec leurs spécifications détaillées, consultez la page Nos modèles et filtrez par type.