soynlp에서는 띄어쓰기 교정 모듈도 제공한다. => 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다. 학습하는 코드는 다음과 같다. 학습 이후 교정을 수행해 보았다. 띄어쓰기가 잘 된 것을 확인할 수 있다. + soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자! +BPE 란? : 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함. => 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다. => 새로운 단어가..