2026년 STT, TTS 오픈소스 모델 모음
2026 Automatic Speech Recognition
opensource model
Nvidia : Nemotron speech ASR
- 업데이트일: 2026년 1월
- 언어: English
- 라이선스: nvidia-open-model-license
- 특징: 0.6B 경량 스트리밍 특화, 100ms 미만의 초저지연 스트리밍 지원.
- 링크: https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b
Microsoft : VibeVoice ASR
- 업데이트일: 2026년 1월
- 언어: Korean, English 등 다국어
- 라이선스: MIT 라이센스
- 특징: 한국어 인식률 최적화, 화자 분리, 타임스탬프, 최대 60분 분량의 오디오를 한 번에 처리 가능.
- 링크: https://huggingface.co/microsoft/VibeVoice-ASR
Mistral : Voxtral-Mini-4B-Realtime-2602
- 업데이트일: 2026년 2월
- 언어: Korean, English 등 13개국어
- 라이선스: Apache-2.0 라이센스
- 특징: 4B 규모의 강력한 실시간 추론 성능, 500ms 미만의 지연 시간.
- 링크: https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
ondevice
Moonshine
- 업데이트일: 2026년
- 언어: Korean, English 등
- 라이선스: 이중 라이선스(Dual License)
- 링크: https://github.com/moonshine-ai/moonshine
| 사용 대상 | 적용 라이선스 | 주요 특징 |
| 소스 코드 (core/third-party 제외) | MIT 라이선스 | 상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움) |
| 영어(English) 모델 | MIT 라이선스 | 상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움) |
| 그 외 언어 모델 | Moonshine Community 라이선스 | 조건부 무료. 매출 100만 달러(약 13~14억 원) 미만만 무료 |
2026 Text TO Speech
opensource model
Supertone : supertonic v2
- 업데이트일: 2026년 1월
- 언어: Korean, english, French 등 5개 언어
- 라이선스: OpenRAIL 라이센스
- 특징: 빠르고 온디바이스용, ONNX지원, 0.6B모델. v2에 한국어 추가됨, 한국어 음성 합성의 자연스러움.
- 링크: https://huggingface.co/Supertone/supertonic-2
qwen3 TTS
- 업데이트일: 2026년 1월
- 언어: Korean, English 등 다국어
- 라이선스: Apache-2.0 라이센스
- 특징: 0.6b~1.7B ,3초 분량 샘플만으로 음성 복제 가능, 음성 디자인 가능, Base 모델 별도 공개, Tokenizer공개.
- 링크: https://huggingface.co/collections/Qwen/qwen3-tts
댓글
댓글 쓰기