일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- deep daiv. WIL
- deep daiv. week3 팀활동과제
- deep daiv. project_paper
- deep daiv. 2주차 팀 활동 과제
- deep daiv. week4 팀활동과제
- Today
- Total
목록Study/NLP (5)
OK ROCK
Week 4 Contents: (1) Decoding (2) Metric 1. Temperature 정의 : logit distribution을 변경하는데 사용되는 양(positive)의 부동소수 값. ▶ '1'보다 작은 값은 임의성을 감소시키고 , '0'은 모든 확률 질량을 가장 가능성이 높은 것으로 이동시키는 것과 같은 효과(argmax / max likelihood)가 있다. ▶ Loss(Cross Entropy Loss)를 미분하여 최적화하는 과정에서 P ∝exp(- βE) 라는 식을 얻을 수 있다. 여기서 exp(- β E)/Z(Z = normalization factor)분포는 Boltzman Distribution이라고 하며, 이때의 β = 1/T (T = Temperature), 여기서 T..
中 1. Keyword-based Retrieval 2. Evaluation Metrics 3. Vector-based Retrieval ☜ ~ week3의 마지막 내용입니다. 코드 중심 Theory vector간의 코사인 유사도를 계산하여 가까운 것끼리는 비슷한 의미를 나타나게끔 projection하는 방법을 이용합니다. Code 1. Embedding based Methods (model과 tokenzier는 모두 transformer의 Auto 버전으로 불러들였습니다. 생략) (1) 입력한 텍스트를 배치로 갖는 set에서 model input&output 확인 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 text = "그러나 사..
中 1. Keyword-based Retrieval ☜ 2. Evaluation Metrics 3. Vector-based Retrieval 1. Keyword-based Retrieval [ Theory ] Objective :Query(질의) -> Document(문서)를 찾고자 한다. (1) Term Frequency := ( tf(t, d) ) 단순히 문서(d)에 나타나는 해당 단어(t)의 총 빈도수를 사용하는 것. 즉, 특정 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 문서 d 내에서 단어 t의 총 빈도를 f(t,d)라 할 경우, 가장 간단한 방법은 tf(t, d) = f(t, d)로 구할..
- Week 3 Contents - 1. Keyword-based Retrieval 2. Evaluation Metrics ☜ 3. Vector-based Retrieval 전반적인 정보 검색(Information Retrieval) Domain에 대한 내용을 다루고 있습니다. 2번의 평가 지표관련 내용을 먼저 정리하고, 1& 3번은 코드와 함께 다음 포스팅에서 같이 정리하려고 합니다. 정보 검색 도메인에서 평가 지표로 어떤 것들이 쓰이는지 알아보도록 하겠습니다. 그 전에, 각 상황에 따라 사용 가능한 평가 지표는 다양하며, 정해진 완벽한 정답은 없습니다. [1] Precision 정밀도(Precision)은 검색된 ..
바이트 페어 인코딩(BPE)는 'Byte'라는 단어에서 유래한 것 처럼 본래 정보를 압축하는 알고리즘으로 쓰였으나, 최근에는 NLP모델에 널리 쓰이고 있는 토큰화 기법입니다. 예를 들어, GPT같은 NLP 모델에서 BPE 기법으로 토큰화를 수행하며, BERT에서도 BPE와 유사한 word-piece를 토크나이저로 사용하고 있습니다. 0. Subword Segmentation(단어 분리) - 하나의 토큰이 여러 개의 subword의 조합으로 이루어져 있다는 가정 하에, subword단위의 tokenization을 수행하여 단어를 이해하려는 목적을 갖는 전처리 기법 ▷Byte-Pair Encoding은 Subword Segmentation의 대표적인 알고리즘입니다. 1. BPE 알고리즘 기본적으로 문장이 모..