Zero-shot stemkloon
Kloon een stem op basis van circa drie seconden referentie-audio, zonder finetuning.
Spraakmodellen onder Apache 2.0 — van multi-speaker dialoog tot een 0.1B-model dat realtime op CPU draait
MOSS-TTS is een open-source familie van spraak- en geluidsgeneratiemodellen van MOSI.AI en het OpenMOSS-team, uitgebracht in februari 2026 onder Apache 2.0 — dus ook commercieel vrij te gebruiken. De familie dekt verschillende scenario's: het vlaggenschipmodel richt zich op stabiele lange-vorm spraak met zero-shot stemkloon op basis van zo'n drie seconden referentie-audio; MOSS-TTSD is gespecialiseerd in expressieve multi-speaker dialogen met long-context-modellering en flexibele sprekerscontrole (denk aan podcasts met meerdere stemmen); en MOSS-TTS-Nano is een model van slechts 0.1B parameters dat realtime spraak genereert op een gewone CPU, zonder GPU. Daarnaast ondersteunt de familie stem- en karakterontwerp, omgevingsgeluiden en streaming TTS met lage latency, in tien talen. Je draait de modellen zelf, lokaal of op eigen infrastructuur.
Feiten geverifieerd op 6 juni 2026 · hoe wij beoordelen
MOSS-TTS is een van de compleetste open spraakmodel-families van dit moment: waar de meeste open TTS-modellen één ding doen, dekt deze familie lange-vorm spraak, multi-speaker dialoog én realtime CPU-inference onder één permissieve licentie. Het blijft wel een modelfamilie, geen product — je hebt technische kennis nodig om het te deployen, en Nederlands zit niet prominent in de talenlijst.
Waarom op de site: Open spraakmodellen halen het commerciële niveau snel in, en MOSS-TTS valt op door de breedte van de familie — vooral de dialoogvariant MOSS-TTSD en het CPU-vriendelijke Nano-model vullen gaten die andere open modellen laten liggen.
Beste alternatief: voicebox
Developers die TTS, stemkloon of dialooggeneratie in eigen producten willen inbouwen zonder licentiekosten of vendor lock-in.
Kloon een stem op basis van circa drie seconden referentie-audio, zonder finetuning.
Genereert expressieve gesprekken tussen meerdere sprekers met long-context-modellering en sprekerscontrole.
Mini-model dat realtime spraak genereert op een gewone CPU — geschikt voor lokale demo's en lichte integraties.
Ontwerp stemmen en personages, inclusief omgevingsgeluiden en geluidseffecten.
Realtime spraakgeneratie met lage latency voor conversational toepassingen.
Meertalige generatie over de hele modelfamilie, met modellen ook beschikbaar op Hugging Face.
Gratis, open source onder Apache 2.0; je draait de modellen op eigen hardware — de Nano-variant zelfs op CPU
Prijzen indicatief — controleer altijd de actuele tarieven bij de aanbieder.
Typ een toolnaam, categorie of use case
Zoeken...
Geen tools gevonden
Wat de wereld er van zegt
In het nieuws
OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face
<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1toah65/openmossteammossttsv15_hugging_face/"> <img src="https://external-preview.redd.it/lxbOeMXoehhUC5B3lK_lRVH7m7oCS1QMILB11fT