Flujo de generación de audio

Visión general del pipeline de Text to Speech con IA

Lexora es una plataforma de Text to Speech con IA diseñada para flujos editoriales modernos. Admite dos modos de generación: Modo clásico y Modo automático.

Ambos modos utilizan el mismo motor neuronal de síntesis de voz, pero difieren en cómo y cuándo se genera el audio. Esto permite a los equipos elegir entre una generación controlada y pregenerada o una generación de voz con IA bajo demanda.

Modo clásico vs. modo automático

Modo clásico

En el modo clásico, la generación se inicia manualmente desde el configurador. Lexora procesa el texto, genera el audio con IA y almacena un recurso de audio final reutilizable.

Modo automático

En el modo automático, la generación de Text to Speech con IA se activa bajo demanda cuando los usuarios visitan una página. Lexora lee el contenido desde un contenedor objetivo (o desde un script directo), genera fragmentos progresivamente e inicia la reproducción en cuanto el primer segmento está disponible.

Modo clásico: generación de audio paso a paso

  1. Validación del texto: comprueba la calidad, la longitud y la viabilidad del contenido.
  2. Estimación de créditos: muestra el coste previsto antes de iniciar la generación.
  3. Renderizado neuronal: convierte el texto en audio natural generado por IA.
  4. Creación del recurso: guarda el MP3 final como un activo reutilizable.
  5. Asignación del ID de audio: permite la integración y reutilización programática.

Este flujo es ideal cuando necesitas una producción predecible y un archivo de audio final estable, listo para su distribución.

Modo automático: generación y reproducción en tiempo real

  1. Validación del proyecto y del dominio para autorizar las solicitudes de generación.
  2. Captura de entrada mediante selector de contenido o texto proporcionado directamente.
  3. Renderizado por fragmentos para reducir el tiempo de espera inicial.
  4. Reproducción progresiva mientras se generan los siguientes fragmentos.
  5. Lógica de reutilización cuando ya existe una generación equivalente.

El modo automático está pensado para sitios dinámicos, blogs, documentación y contenido actualizado con frecuencia, donde pregenerar cada archivo de audio no sería práctico.

Lógica de créditos

El consumo de créditos depende de la generación, no de la reproducción. Esta regla se aplica en ambos modos.

En modo automático, la generación depende de la combinación (text + voice_id):

  • Si text + voice_id no cambia, Lexora reutiliza el audio existente y no consume créditos de nuevo.
  • Si el texto cambia, se requiere una nueva generación y se consumen créditos.
  • Si cambia el voice ID, la generación se considera nueva y los créditos vuelven a consumirse.

Como el modo automático puede activarse por tráfico real, las páginas con mucho volumen pueden consumir créditos más rápido que en el modo clásico.

Qué mejora la calidad de la voz

Una síntesis de voz con IA de alta calidad empieza con un texto limpio, bien estructurado y una selección de voz adecuada.

  • Elige el idioma correcto para obtener una pronunciación precisa.
  • Selecciona una voz alineada con el tono de tu contenido.
  • Utiliza puntuación y formato para mejorar el ritmo y la naturalidad.
  • Sigue las guías de texto para obtener la mejor calidad posible.

Por qué esta arquitectura es importante en el Text to Speech moderno

  • Text to Speech con IA escalable tanto para contenido estático como dinámico.
  • Separación clara entre la generación del audio y la capa de reproducción.
  • Resultados reutilizables que reducen regeneraciones innecesarias.
  • Integración flexible para publishers, productos SaaS y sitios con gran volumen de contenido.

Lexora no es solo una herramienta de Text to Speech: es una infraestructura de audio con IA pensada para equipos que necesitan calidad, escalabilidad y control.