OK ROCK

[ASR] 한국어 Speech-To-Text, KO-Speech 본문

대외활동/Deep daiv. project

[ASR] 한국어 Speech-To-Text, KO-Speech

서졍 2024. 3. 24. 12:07

ASR = Automatic Speech Recognition
 

음성 인식(Speech Recognition) 개요

음성 데이터를 컴퓨터가 해석해 내용을 텍스트 데이터로 전환하는 처리 과정.
즉, STT(Speech to Text)와 의미 상통
최근에는 Seq2Seq방식의 RNN으로 속도와 성능 면에서 좋은 결과를 가져오며, 음성인식에서도 End-to-End 학습 방식의 발전으로 오디오 특징을 입력으로 받아 글자 또는 단어(Text)를 출력으로 하는 단일 함수를 학습한다.

  • 한국어 음성으로 구현된 STT 모델이 있는지 여부를 고려했는데, 대부분 오픈소스 STT 모델들은 그 성능이 영어에 한정해서 알려져 있었기 때문에, 한국어 음성에 대해서도 검증된 사례가 있는지 여부가 중요했다.
    •  한국어로 pre-trained된 STT모델이 매우 적다는 뜻
  •  그 중, Kospeech가 제공하는 다양한 어쿠스틱 모델 중에서도 성능이 가장 우수한 것으로 알려진 Deepspeech2를 베이스 모델로 선택

Ko-Speech

 

GitHub - sooftware/kospeech: Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra

Open-Source Toolkit for End-to-End Korean Automatic Speech Recognition leveraging PyTorch and Hydra. - sooftware/kospeech

github.com

  • Deep Speech2, Speech Transformer 등의 다양한 알고리즘 기반 모델 지원
  • evaluation에서 평가 지표로 CER(Character Error rate)를 사용

 

1. Model Architecture

4 개의 모델이 결합되어 있다.

 

(1) Deep Speech 2

  •  CTC(Connectionist Temporal Classification) loss에서 학습했을 때 음성인식 태스크에서 더 빠르고 정확한 성능을 보여준다.

(2) Listen Attend and Spell (LAS)

(3) Tranformer

(4) Joint CTC-Attention LAS

 

2. Environment Setup

  • 전처리를 위한 모듈 : requirements.txt로 제공됨
  • 각 모델(4개) buid를 위해서는 readme 파일 가이드대로 설치
  • 학습 진행 및 정리중