Flux de génération audio

Vue d’ensemble du pipeline IA

Lexora est une plateforme de synthèse vocale IA pensée pour des workflows de publication modernes. Elle prend en charge deux modèles de génération : Classic Mode et Auto Mode.

Les deux s’appuient sur le même moteur de synthèse neuronale, mais diffèrent sur le moment et la façon dont l’audio est généré. Vous pouvez ainsi choisir entre une production contrôlée à l’avance et une génération à la demande.

Classic Mode vs Auto Mode

Classic Mode

En Classic Mode, la génération est lancée manuellement depuis le configurateur. Lexora traite le texte, génère le speech et stocke un fichier audio final réutilisable.

Auto Mode

En Auto Mode, la génération se fait à la demande quand un utilisateur visite la page. Lexora lit le contenu ciblé, génère des chunks progressivement et démarre la lecture dès que le premier segment est prêt.

Classic Mode : génération pas à pas

  1. Validation du texte : contrôle de la qualité, de la longueur et du format.
  2. Estimation des crédits : affichage du coût attendu avant lancement.
  3. Rendu neuronal : conversion du texte en voix naturelle.
  4. Création de l’asset : stockage du MP3 final comme ressource réutilisable.
  5. Attribution de l’Audio ID : réutilisation possible dans le player et via l’API.

Ce mode convient bien quand vous voulez une production prévisible et un fichier final prêt à être diffusé.

Auto Mode : génération et diffusion en temps réel

  1. Validation du projet et du domaine pour autoriser la requête.
  2. Récupération du texte via un sélecteur ou un script direct.
  3. Rendu par chunks pour accélérer le début d’écoute.
  4. Lecture progressive pendant que les segments suivants sont générés.
  5. Réutilisation lorsqu’une génération identique existe déjà.

Auto Mode est particulièrement adapté aux blogs, docs, pages éditoriales et contenus mis à jour souvent, là où pré-générer tous les fichiers n’est pas réaliste.

Logique des crédits

La consommation de crédits est liée à la génération, pas à la lecture. Cette règle vaut pour les deux modes.

En Auto Mode, la génération dépend de la paire (text + voice_id) :

  • si text + voice_id ne change pas, Lexora réutilise l’audio existant et ne consomme pas de crédits à nouveau ;
  • si le texte change, une nouvelle génération est nécessaire et des crédits sont utilisés ;
  • si la voix change, la génération est considérée comme nouvelle et consomme à nouveau des crédits.

Comme l’Auto Mode peut être déclenché par du trafic réel, les pages très fréquentées peuvent consommer des crédits plus vite qu’un flow Classic.

Ce qui améliore la qualité de la voix

Un bon rendu commence par un texte propre, bien structuré et une voix bien choisie.

  • Choisissez la bonne langue pour obtenir une prononciation correcte.
  • Sélectionnez une voix alignée avec le ton du contenu.
  • Utilisez la ponctuation et la mise en forme pour améliorer rythme et respiration.
  • Suivez les guidelines texte pour un meilleur résultat.

Pourquoi cette architecture compte

  • Une synthèse vocale scalable pour du contenu statique ou dynamique.
  • Une séparation claire entre génération et diffusion.
  • Des sorties réutilisables qui évitent des régénérations inutiles.
  • Une intégration flexible pour éditeurs, produits SaaS et sites riches en contenu.

Lexora n’est pas seulement un outil text-to-speech : c’est une couche d’infrastructure audio pour les équipes qui ont besoin de qualité, d’échelle et de contrôle.