[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점

Tensorflow 2 NLP(자연어처리)/형태소 분석기

[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점

Suhd 2021. 11. 12. 22:24

형태소 분석기에서 주의해야 할 점이 있다.

만약 우리가 '가우스전자' 라는 기업의 데이터 분석 팀에 속해있다면 우리는 가우스전자라는 토큰은 섬세히 처리해야 한다.

그 이유를 보여주겠다.

>>> from konlpy.tag import Mecab

>>> tokenizer =Mecab()

>>> tokenizer.morphs("가우스전자 텔레비전 정말 좋네요")

['가우스', '전자', '텔레비전', '정말', '좋', '네요']

KoNLPy에서 은전한닢을 이용하여 형태소분석을 하였지만 가우스전자를 가우스,전자 로 나뉘어서 분석해버린다.

==> 단어 임베딩 품질이 떨어진다.

그래서 우리는 '가우스전자' 라는 단어를 사용자 사전에 추가해서 강제적으로 하나의 토큰으로 분석될 수 있도록 할 수 있다.

이것은 csv파일에 원하는 단어를

가우스전자,,,,NNP,*,F,rkdntmwjswk,*,*,*,*,*

다음과 같은 형태로 추가해 줄 수 있다.

=> 이제 결과가 바뀐다.

['가우스전자', '텔레비전', '정말', '좋', '네요']

'Tensorflow 2 NLP(자연어처리) > 형태소 분석기' 카테고리의 다른 글

[2-5] soynlp의 띄어쓰기 교정 모듈 (0)	2021.11.12
[2-4] soynlp 형태소 분석기 사용하기 (0)	2021.11.12
[2-2] Khaiii 사용법 (0)	2021.11.12
[2-1] KoNLPy 사용법 (0)	2021.11.12

현재글[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점

NLP 시작부터 전문가까지

Generative, 인공지능, GaN, 자동미분, WordPiece, GenerativeModel, GPT, cycle consistency, transformer, HuggingFace, CGAN, phenaki, autodif, layer.dot, entropy, BPE, SentencePiece, 자연어처리, DALL-E, NLP,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

NLP 시작부터 전문가까지