soynlp에서는 띄어쓰기 교정 모듈도 제공한다.
=> 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다.
학습하는 코드는 다음과 같다.
학습 이후 교정을 수행해 보았다.
띄어쓰기가 잘 된 것을 확인할 수 있다.
+ soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자!
+BPE 란?
: 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함.
=> 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다.
=> 새로운 단어가 들어와도 업데이트 된 voca에 있는 byte 조합을 통해 만들어 낼 수 있다면 존재하는 단어로 판단.
'Tensorflow 2 NLP(자연어처리) > 형태소 분석기' 카테고리의 다른 글
[2-4] soynlp 형태소 분석기 사용하기 (0) | 2021.11.12 |
---|---|
[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점 (0) | 2021.11.12 |
[2-2] Khaiii 사용법 (0) | 2021.11.12 |
[2-1] KoNLPy 사용법 (0) | 2021.11.12 |