Tensorflow 2 NLP(자연어처리)/형태소 분석기
[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점
Suhd
2021. 11. 12. 22:24
형태소 분석기에서 주의해야 할 점이 있다.
만약 우리가 '가우스전자' 라는 기업의 데이터 분석 팀에 속해있다면 우리는 가우스전자라는 토큰은 섬세히 처리해야 한다.
그 이유를 보여주겠다.
>>> from konlpy.tag import Mecab
>>> tokenizer =Mecab()
>>> tokenizer.morphs("가우스전자 텔레비전 정말 좋네요")
['가우스', '전자', '텔레비전', '정말', '좋', '네요']
KoNLPy에서 은전한닢을 이용하여 형태소분석을 하였지만 가우스전자를 가우스,전자 로 나뉘어서 분석해버린다.
==> 단어 임베딩 품질이 떨어진다.
그래서 우리는 '가우스전자' 라는 단어를 사용자 사전에 추가해서 강제적으로 하나의 토큰으로 분석될 수 있도록 할 수 있다.
이것은 csv파일에 원하는 단어를
가우스전자,,,,NNP,*,F,rkdntmwjswk,*,*,*,*,*
다음과 같은 형태로 추가해 줄 수 있다.
=> 이제 결과가 바뀐다.
['가우스전자', '텔레비전', '정말', '좋', '네요']