[4-3] 잠재 의미 분석(LSA), TF-IDF를 이용한 문서 임베딩

Suhd 2021. 11. 13. 12:20

우리는 단어 임베딩을 할 때, LSA를 써서 단어 임베딩의 품질을 높였다.

LSA를 사용하면 중심 단어와 문맥 단어(주위단어) 간의 내재적인 의미를 효과적으로 보존하고, 입력 데이터의 노이즈,희소성(sparsity : 행렬에 0많은 것 해결) 을 보완 가능하다.

하지만 우리는 LSA의 성질을 사용하여 문장임베딩도 가능하다.

1. 일단 형태소 분석기를 통해 문서들 내의 명사를 추출한다.

2. TF-IDF행렬을 만든다. (단어가 특정 문서에 어느정도의 영향을 끼치고 있는가를 수치적으로 표현 가능)

3. LSA를 하여(TruncatedSVD이용) 품질을 보존 한 채, 차원축소

4. 특정 문서를 가장 특징지을 수 있는 단어들(특정 문서의 정보성이 높은 단어들 = TF-IDF가 높은 단어)을

문서를 대표하는 단어로 여김

5. 이를 통해 문서들간의 차이점과 유사점들을 수치적으로 받아올 수 있음(문장 임베딩 완료)