일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- deep daiv. 2주차 팀 활동 과제
- deep daiv. week4 팀활동과제
- deep daiv. WIL
- deep daiv. project_paper
- deep daiv. week3 팀활동과제
- Today
- Total
목록Study/Paper Review (8)
OK ROCK
NeRFGaussian SplattingSuGaR
Abstract TTS(Text-To-Speech)에는 여러 도메인의 지식이 필요한 복잡한 분야임 Text Analysis(텍스트 분석) Acoustic model Audio Synthesis module(음성 합성 모듈) Tacotron은 텍스트로부터 바로 발화를 합성하여 생성하는 end-to-end방식의 TTS생성 모델임 sequence-to-sequence를 수행하기 위한 몇가지 주요 기술을 제시함 Introduction 통합된 end-to-end TTS시스템의 장점들은 다음과 같다. 쌍의 데이터로만 학습하기 때문에 인간의 주석처리같은 노동적인 feature engineering작업을 최소화함 발화자와 단어의 더 높은 수준의 feature와 특성을 반영할 수 있음 단일 모델만으로 multi-stag..
0. Abstract 최근, Transformer와 CNN은 ASR(Automatic Speech Recognition)분야에서 좋은 성능을 보여주고 있다. Transformer는 content-gased global 상호작용 포착에 유능하며, CNN은 feaure extraction에 유능하다. 이 둘을 결합하여, 기존의 Sota 성능 모델보다 좋은 성능을 이끌었다. 이것을 Convolution-augmented Transformer(Conformer)라고 이름붙였다. test단계에서 추가적인 Language Model을 사용하지 않고서 LibriSpeech 데이터에서 WER 2.1%/4.3%를 달성할 수 있었다. 1. Introduction [1] RNN ASR 시스템에서 End-to-End에 기반한..
0. Abstract 음성 인식에 사용되는 간단한 데이터 증강 기법, SpecAugment를 소개 오디오에서 뽑은 feature vector를 input으로 Time warping, Frequency masking, Time masking 3가지 방법으로 증강을 적용 LAS(Listen, Attend and Spell) 네트워크 모델에 end-to-end 기법으로 음성인식 분야에 SpecAugment를 적용했더니, sota성능 달성 1. Introduction 딥러닝은 자동화 음성인식 분야(ASR, Automatic Speech Recognition)에 성공적으로 적용됨 지금까지의 음성 인식 연구는 대부분 모델 아키텍처 자체에 초점이 맞추어져 진행되어 왔으나, 이 모델들은 쉽게 오버피팅이 발생하고 많은 ..
0. Abstract WaveNet raw audio waveform을 생성하는 딥러닝기반의 음성 생성 모델 확률기반적(probabilistic)이고, 자기회귀적인(autoregressive)인 모델 TTS(Text to speech)분야에서 인간의 음성과 유사한 더 자연스러운 음성을 생성하여 s-o-t-a 달성 음소 인식(phoneme recognition)분야에서도 차별적이고 중요한 성능 달성 1. Introduction 2016년 [V. Oord et al., 2016] 에 발표된 이미지 또는 텍스트의 분포를 결합하여 조건부 확률분포적으로 해석한 모델이 생성분야에서 sota를 달성하였다. 이러한 자기 회귀적인 생성모델에 영감을 받아, WaveNet은 PixelCNN [V. Oord et al., 2..
[2205.14217] Diffusion-LM Improves Controllable Text Generation (arxiv.org) Diffusion-LM Improves Controllable Text Generation Controlling the behavior of language models (LMs) without re-training is a major open problem in natural language generation. While recent works have demonstrated successes on controlling simple sentence attributes (e.g., sentiment), there has been little arxiv.org Abstr..
[2005.00644] Syntactic Question Abstraction and Retrieval for Data-Scarce Semantic Parsing (arxiv.org) Syntactic Question Abstraction and Retrieval for Data-Scarce Semantic Parsing Deep learning approaches to semantic parsing require a large amount of labeled data, but annotating complex logical forms is costly. Here, we propose Syntactic Question Abstraction and Retrieval (SQAR), a method to bu..
A Free Format Legal Question Answering System - ACL Anthology A Free Format Legal Question Answering System Soha Khazaeli, Janardhana Punuru, Chad Morris, Sanjay Sharma, Bert Staub, Michael Cole, Sunny Chiu-Webster, Dhruv Sakalley. Proceedings of the Natural Legal Language Processing Workshop 2021. 2021. aclanthology.org Abstract Infomation Retrieval-based question answering system Input : prede..