!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python
다음을 통해 kahiii를 다운받는다
이후
from khaiii import KhaiiiApi
tokenizer = KhaiiiApi()
다음 코드를 통해 형태소구분을 할 준비를 한다.
from khaiii import KhaiiiApi
tokenizer = KhaiiiApi()
data = tokenizer.analyze("아버지가방에들어가신다")
tokens = []
for word in data:
tokens.extend([str(m).split("/")[0] for m in word.morphs])
print(tokens)
이후 "아버지가방에들어가신다"를 형태소 분석을 한다면
가 출력됨을 볼 수 있다.
여기서 품사를 구별해보자면
from khaiii import KhaiiiApi
tokenizer = KhaiiiApi()
data = tokenizer.analyze("아버지가방에들어가신다")
tokens = []
for word in data:
tokens.extend([str(m) for m in word.morphs])
print(tokens)
다음을 통해 얻어낼 수 있고 그 결과는
다음과 같다.
'Tensorflow 2 NLP(자연어처리) > 형태소 분석기' 카테고리의 다른 글
[2-5] soynlp의 띄어쓰기 교정 모듈 (0) | 2021.11.12 |
---|---|
[2-4] soynlp 형태소 분석기 사용하기 (0) | 2021.11.12 |
[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점 (0) | 2021.11.12 |
[2-1] KoNLPy 사용법 (0) | 2021.11.12 |