supertonic: Text-to-speech multilingüe que corre 100% en el dispositivo vía ONNX, sin pegarle a ninguna API.

Text-to-speech multilingüe que corre 100% en el dispositivo vía ONNX, sin pegarle a ninguna API.

Las APIs de voz están caras y mandar audio a la nube no aplica para muchos productos. Supertonic mete TTS local en iOS, Android, web y desktop usando ONNX runtime. Si haces un producto con voz, esto puede bajar tu factura mensual a cero.

Estrellas

9.5k★

Lenguaje

Swift

Idiomas

Revisado

22 may 2026

De un vistazo, lo que vas a obtener si lo instalas.

100% on-device

Sin nube, sin API calls, sin privacy concerns. Todo corre donde está el usuario.

31 idiomas

Síntesis directa sin adapters separados por idioma. Modo agnóstico cuando no sabes el idioma del input.

Stack amplio

Bindings oficiales para Swift, Kotlin, Python, Rust, JS, Java, C++, Flutter, Go.

99M parámetros

Modelo compacto, fully open-weight. Cabe en móvil, corre rápido en CPU, vuela en GPU.

WebGPU listo

Convierte una página web entera en audio en menos de un segundo desde el navegador.

El contexto detrás del repo.

Synthesizar voz es de las APIs más caras que vas a usar. OpenAI, ElevenLabs, Google — todas cobran por carácter o por segundo, y si tu producto convierte texto a audio con frecuencia, esa línea de la factura crece rápido.

Supertonic es la apuesta contraria: un modelo de TTS de 99M parámetros, abierto, que corre on-device vía ONNX runtime. Funciona en iOS, Android, web (vía WebGPU), Windows, macOS, Linux. 31 idiomas soportados, incluyendo modo agnóstico de idioma para cuando no sabes qué idioma viene en el input. Y el rendimiento es serio: convierte una página web completa en audio en menos de un segundo.

El modelo es open-weight, no solo open-source. Eso significa que puedes inspeccionarlo, fine-tunearlo y desplegarlo sin pedir permiso. Para productos con requisitos de privacidad o cumplimiento (salud, finanzas, gobierno), es la diferencia entre "podemos usarlo" y "no, manda a tu legal a revisar el ToS".

Cuándo lo recomiendo (y cuándo no).

Lo recomiendo para productos donde la voz es feature pero no diferencial. Asistentes internos, lectores de contenido, herramientas de accesibilidad, audiobooks generados, narración de tutoriales. Todo lo que necesita voz consistente y barata.

Si tu producto vive o muere de la calidad de la voz (audiolibros de marca, podcasts sintéticos premium), todavía vas a querer ElevenLabs o Cartesia. Supertonic es muy bueno, pero los modelos comerciales líderes tienen una expresividad emocional adicional.

En 3 pasos, listo para probar.

Instala el binding de tu plataforma

# Python (vía PyPI)
pip install supertonic

# JavaScript / Node
npm install supertonic

# iOS / Swift Package Manager
# Agrega en Xcode: https://github.com/supertone-inc/supertonic

Hay bindings oficiales para Swift, Kotlin, Python, Rust, JS, Java, C++, Flutter y Go. El runtime ONNX es la única dependencia común.

Descarga el modelo desde Hugging Face

# Modelo open-weight oficial
# https://huggingface.co/Supertone/supertonic-3

El modelo de 99M parámetros se descarga una vez y vive local. No hay llamadas a la nube después de eso.

Sintetiza tu primer audio

from supertonic import Supertonic

tts = Supertonic.from_pretrained("Supertone/supertonic-3")
audio = tts.synthesize("Hola, esto corre en mi máquina.", lang="es")
audio.save("salida.wav")

La API es deliberadamente simple. Para uso avanzado (voice cloning, control de prosodia), revisa el Voice Builder en supertonic.supertone.ai.

Por qué TTS local importa ahora

Hasta hace dos años, hacer TTS bueno local era impráctico — los modelos eran enormes, lentos o sonaban metálicos. Eso cambió en los últimos 18 meses. Supertonic es uno de los proyectos que cerró la brecha: 99M parámetros, latencia baja, calidad razonable para producción.

Lo importante no es solo el costo. Es lo que se desbloquea cuando el TTS no requiere internet: aplicaciones offline, dispositivos sin conectividad, productos médicos donde la privacidad es regulatoria, herramientas de accesibilidad que tienen que funcionar siempre.

Comparado con ElevenLabs / OpenAI

Donde Supertonic gana: costo (cero por inferencia), privacidad (todo on-device), portabilidad (un modelo, todas las plataformas), control (puedes fine-tunear, modificar, desplegar como quieras).

Donde Supertonic pierde: expresividad emocional avanzada, voice cloning con 30 segundos de muestra al nivel de ElevenLabs, estilos vocales muy específicos. Los modelos comerciales líderes siguen teniendo una capa adicional de matiz.

Mi recomendación

Pruébalo este fin de semana si tu producto necesita voz. La instalación es de minutos, el modelo se descarga gratis desde Hugging Face, y vas a saber en una hora si la calidad alcanza para tu caso. Si alcanza, te ahorras una línea de la factura para siempre.