[ASR] 한국어 Speech-To-Text, KO-Speech

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

OK ROCK

[ASR] 한국어 Speech-To-Text, KO-Speech 본문

대외활동/Deep daiv. project

[ASR] 한국어 Speech-To-Text, KO-Speech

서졍 2024. 3. 24. 12:07

ASR = Automatic Speech Recognition

음성 인식(Speech Recognition) 개요

음성 데이터를 컴퓨터가 해석해 내용을 텍스트 데이터로 전환하는 처리 과정.
즉, STT(Speech to Text)와 의미 상통
최근에는 Seq2Seq방식의 RNN으로 속도와 성능 면에서 좋은 결과를 가져오며, 음성인식에서도 End-to-End 학습 방식의 발전으로 오디오 특징을 입력으로 받아 글자 또는 단어(Text)를 출력으로 하는 단일 함수를 학습한다.

한국어 음성으로 구현된 STT 모델이 있는지 여부를 고려했는데, 대부분 오픈소스 STT 모델들은 그 성능이 영어에 한정해서 알려져 있었기 때문에, 한국어 음성에 대해서도 검증된 사례가 있는지 여부가 중요했다.
- 한국어로 pre-trained된 STT모델이 매우 적다는 뜻
그 중, Kospeech가 제공하는 다양한 어쿠스틱 모델 중에서도 성능이 가장 우수한 것으로 알려진 Deepspeech2를 베이스 모델로 선택