2026년 STT, TTS 오픈소스 모델 모음

2026년 STT, TTS 오픈소스 모델 모음

2026 Automatic Speech Recognition

opensource model

Nvidia : Nemotron speech ASR

업데이트일: 2026년 1월
언어: English
라이선스: nvidia-open-model-license
특징: 0.6B 경량 스트리밍 특화, 100ms 미만의 초저지연 스트리밍 지원.
링크: https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b

Microsoft : VibeVoice ASR

업데이트일: 2026년 1월
언어: Korean, English 등 다국어
라이선스: MIT 라이센스
특징: 한국어 인식률 최적화, 화자 분리, 타임스탬프, 최대 60분 분량의 오디오를 한 번에 처리 가능.
링크: https://huggingface.co/microsoft/VibeVoice-ASR

Mistral : Voxtral-Mini-4B-Realtime-2602

업데이트일: 2026년 2월
언어: Korean, English 등 13개국어
라이선스: Apache-2.0 라이센스
특징: 4B 규모의 강력한 실시간 추론 성능, 500ms 미만의 지연 시간.
링크: https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602

ondevice

Moonshine

업데이트일: 2026년
언어: Korean, English 등
라이선스: 이중 라이선스(Dual License)
링크: https://github.com/moonshine-ai/moonshine

Moonshine - 엣지 디바이스용 고속·고정확도 음성 인식(ASR) 오픈소스 | GeekNews

사용 대상	적용 라이선스	주요 특징
소스 코드 (core/third-party 제외)	MIT 라이선스	상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움)
영어(English) 모델	MIT 라이선스	상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움)
그 외 언어 모델	Moonshine Community 라이선스	조건부 무료. 매출 100만 달러(약 13~14억 원) 미만만 무료

2026 Text TO Speech

opensource model

Supertone : supertonic v2

업데이트일: 2026년 1월
언어: Korean, english, French 등 5개 언어
라이선스: OpenRAIL 라이센스
특징: 빠르고 온디바이스용, ONNX지원, 0.6B모델. v2에 한국어 추가됨, 한국어 음성 합성의 자연스러움.
링크: https://huggingface.co/Supertone/supertonic-2

qwen3 TTS

업데이트일: 2026년 1월
언어: Korean, English 등 다국어
라이선스: Apache-2.0 라이센스
특징: 0.6b~1.7B ,3초 분량 샘플만으로 음성 복제 가능, 음성 디자인 가능, Base 모델 별도 공개, Tokenizer공개.
링크: https://huggingface.co/collections/Qwen/qwen3-tts

댓글