Gabriel Neuman
Gabriel Neuman
TTS · ON-DEVICE

Text-to-speech multilingüe que corre 100% en el dispositivo vía ONNX, sin pegarle a ninguna API.

Las APIs de voz están caras y mandar audio a la nube no aplica para muchos productos. Supertonic mete TTS local en iOS, Android, web y desktop usando ONNX runtime. Si haces un producto con voz, esto puede bajar tu factura mensual a cero.

Estrellas
9.5k★
Lenguaje
Swift
Idiomas
31
Revisado
22 may 2026
Lo que ofrece

De un vistazo, lo que vas a obtener si lo instalas.

  • ·
    100% on-device

    Sin nube, sin API calls, sin privacy concerns. Todo corre donde está el usuario.

  • ·
    31 idiomas

    Síntesis directa sin adapters separados por idioma. Modo agnóstico cuando no sabes el idioma del input.

  • ·
    Stack amplio

    Bindings oficiales para Swift, Kotlin, Python, Rust, JS, Java, C++, Flutter, Go.

  • ·
    99M parámetros

    Modelo compacto, fully open-weight. Cabe en móvil, corre rápido en CPU, vuela en GPU.

  • ·
    WebGPU listo

    Convierte una página web entera en audio en menos de un segundo desde el navegador.

Por qué importa

El contexto detrás del repo.

Synthesizar voz es de las APIs más caras que vas a usar. OpenAI, ElevenLabs, Google — todas cobran por carácter o por segundo, y si tu producto convierte texto a audio con frecuencia, esa línea de la factura crece rápido.

Supertonic es la apuesta contraria: un modelo de TTS de 99M parámetros, abierto, que corre on-device vía ONNX runtime. Funciona en iOS, Android, web (vía WebGPU), Windows, macOS, Linux. 31 idiomas soportados, incluyendo modo agnóstico de idioma para cuando no sabes qué idioma viene en el input. Y el rendimiento es serio: convierte una página web completa en audio en menos de un segundo.

El modelo es open-weight, no solo open-source. Eso significa que puedes inspeccionarlo, fine-tunearlo y desplegarlo sin pedir permiso. Para productos con requisitos de privacidad o cumplimiento (salud, finanzas, gobierno), es la diferencia entre "podemos usarlo" y "no, manda a tu legal a revisar el ToS".

Para qué te sirve

Cuándo lo recomiendo (y cuándo no).

Lo recomiendo para productos donde la voz es feature pero no diferencial. Asistentes internos, lectores de contenido, herramientas de accesibilidad, audiobooks generados, narración de tutoriales. Todo lo que necesita voz consistente y barata.

Si tu producto vive o muere de la calidad de la voz (audiolibros de marca, podcasts sintéticos premium), todavía vas a querer ElevenLabs o Cartesia. Supertonic es muy bueno, pero los modelos comerciales líderes tienen una expresividad emocional adicional.

Cómo arrancarlo

En 3 pasos, listo para probar.

  1. 01

    Instala el binding de tu plataforma

    # Python (vía PyPI)
    pip install supertonic
    
    # JavaScript / Node
    npm install supertonic
    
    # iOS / Swift Package Manager
    # Agrega en Xcode: https://github.com/supertone-inc/supertonic

    Hay bindings oficiales para Swift, Kotlin, Python, Rust, JS, Java, C++, Flutter y Go. El runtime ONNX es la única dependencia común.

  2. 02

    Descarga el modelo desde Hugging Face

    # Modelo open-weight oficial
    # https://huggingface.co/Supertone/supertonic-3

    El modelo de 99M parámetros se descarga una vez y vive local. No hay llamadas a la nube después de eso.

  3. 03

    Sintetiza tu primer audio

    from supertonic import Supertonic
    
    tts = Supertonic.from_pretrained("Supertone/supertonic-3")
    audio = tts.synthesize("Hola, esto corre en mi máquina.", lang="es")
    audio.save("salida.wav")

    La API es deliberadamente simple. Para uso avanzado (voice cloning, control de prosodia), revisa el Voice Builder en supertonic.supertone.ai.

Por qué TTS local importa ahora

Hasta hace dos años, hacer TTS bueno local era impráctico — los modelos eran enormes, lentos o sonaban metálicos. Eso cambió en los últimos 18 meses. Supertonic es uno de los proyectos que cerró la brecha: 99M parámetros, latencia baja, calidad razonable para producción.

Lo importante no es solo el costo. Es lo que se desbloquea cuando el TTS no requiere internet: aplicaciones offline, dispositivos sin conectividad, productos médicos donde la privacidad es regulatoria, herramientas de accesibilidad que tienen que funcionar siempre.

Comparado con ElevenLabs / OpenAI

Donde Supertonic gana: costo (cero por inferencia), privacidad (todo on-device), portabilidad (un modelo, todas las plataformas), control (puedes fine-tunear, modificar, desplegar como quieras).

Donde Supertonic pierde: expresividad emocional avanzada, voice cloning con 30 segundos de muestra al nivel de ElevenLabs, estilos vocales muy específicos. Los modelos comerciales líderes siguen teniendo una capa adicional de matiz.

Mi recomendación

Pruébalo este fin de semana si tu producto necesita voz. La instalación es de minutos, el modelo se descarga gratis desde Hugging Face, y vas a saber en una hora si la calidad alcanza para tu caso. Si alcanza, te ahorras una línea de la factura para siempre.

De Gabriel Neuman para tu equipo

¿Quieres meter voz a tu producto sin disparar la factura?

Te ayudo a evaluar si TTS on-device como Supertonic funciona para tu caso (chatbots, lectores, audiobooks) o si conviene una API comercial. Una llamada para revisar tu stack de voz.