2026년 STT, TTS 오픈소스 모델 모음

 

2026 Automatic Speech Recognition

opensource model

Nvidia : Nemotron speech ASR

Microsoft : VibeVoice ASR

  • 업데이트일: 2026년 1월
  • 언어: Korean, English 등 다국어
  • 라이선스: MIT 라이센스
  • 특징: 한국어 인식률 최적화, 화자 분리, 타임스탬프, 최대 60분 분량의 오디오를 한 번에 처리 가능.
  • 링크: https://huggingface.co/microsoft/VibeVoice-ASR

Mistral : Voxtral-Mini-4B-Realtime-2602


ondevice

Moonshine

사용 대상적용 라이선스주요 특징
소스 코드 (core/third-party 제외)MIT 라이선스상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움)
영어(English) 모델MIT 라이선스상업적 이용 포함 거의 모든 행위 허용 (매우 자유로움)
그 외 언어 모델Moonshine Community 라이선스조건부 무료. 매출 100만 달러(약 13~14억 원) 미만만 무료

    



2026 Text TO Speech

opensource model

Supertone : supertonic v2

  • 업데이트일: 2026년 1월
  • 언어: Korean, english, French 등 5개 언어
  • 라이선스: OpenRAIL 라이센스
  • 특징: 빠르고 온디바이스용, ONNX지원, 0.6B모델. v2에 한국어 추가됨, 한국어 음성 합성의 자연스러움.
  • 링크: https://huggingface.co/Supertone/supertonic-2

qwen3 TTS

  • 업데이트일: 2026년 1월
  • 언어: Korean, English 등 다국어
  • 라이선스: Apache-2.0 라이센스
  • 특징: 0.6b~1.7B ,3초 분량 샘플만으로 음성 복제 가능, 음성 디자인 가능, Base 모델 별도 공개, Tokenizer공개.
  • 링크: https://huggingface.co/collections/Qwen/qwen3-tts

댓글

이 블로그의 인기 게시물

Affinity Crash - 실행 시 1초만에 꺼지는 문제 (윈도우, 엔비디아 GPU)