Tensorflow 2 NLP(자연어처리)/형태소 분석기

[2-5] soynlp의 띄어쓰기 교정 모듈

Suhd 2021. 11. 12. 22:32

soynlp에서는 띄어쓰기 교정 모듈도 제공한다.

=> 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다.

학습하는 코드는 다음과 같다.

학습 이후 교정을 수행해 보았다.

띄어쓰기가 잘 된 것을 확인할 수 있다.

+ soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자!

+BPE 란?

: 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함.

=> 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다.

=> 새로운 단어가 들어와도 업데이트 된 voca에 있는 byte 조합을 통해 만들어 낼 수 있다면 존재하는 단어로 판단.