형태소 분석기에서 주의해야 할 점이 있다.
만약 우리가 '가우스전자' 라는 기업의 데이터 분석 팀에 속해있다면 우리는 가우스전자라는 토큰은 섬세히 처리해야 한다.
그 이유를 보여주겠다.
>>> from konlpy.tag import Mecab
>>> tokenizer =Mecab()
>>> tokenizer.morphs("가우스전자 텔레비전 정말 좋네요")
['가우스', '전자', '텔레비전', '정말', '좋', '네요']
KoNLPy에서 은전한닢을 이용하여 형태소분석을 하였지만 가우스전자를 가우스,전자 로 나뉘어서 분석해버린다.
==> 단어 임베딩 품질이 떨어진다.
그래서 우리는 '가우스전자' 라는 단어를 사용자 사전에 추가해서 강제적으로 하나의 토큰으로 분석될 수 있도록 할 수 있다.
이것은 csv파일에 원하는 단어를
가우스전자,,,,NNP,*,F,rkdntmwjswk,*,*,*,*,*
다음과 같은 형태로 추가해 줄 수 있다.
=> 이제 결과가 바뀐다.
['가우스전자', '텔레비전', '정말', '좋', '네요']
'Tensorflow 2 NLP(자연어처리) > 형태소 분석기' 카테고리의 다른 글
[2-5] soynlp의 띄어쓰기 교정 모듈 (0) | 2021.11.12 |
---|---|
[2-4] soynlp 형태소 분석기 사용하기 (0) | 2021.11.12 |
[2-2] Khaiii 사용법 (0) | 2021.11.12 |
[2-1] KoNLPy 사용법 (0) | 2021.11.12 |