Tensorflow 2 NLP(자연어처리)/형태소 분석기

[2-2] Khaiii 사용법

Suhd 2021. 11. 12. 22:23

참고자료 - https://fish-tank.tistory.com/103

colab 에서 작업해보았다.

!git clone https://github.com/kakao/khaiii.git

!pip install cmake

!mkdir build

!cd build && cmake /content/khaiii

!cd /content/build/ && make all

!cd /content/build/ && make resource

!cd /content/build && make install

!cd /content/build && make package_python

!pip install /content/build/package_python

다음을 통해 kahiii를 다운받는다

이후

from khaiii import KhaiiiApi

tokenizer = KhaiiiApi()

다음 코드를 통해 형태소구분을 할 준비를 한다.

from khaiii import KhaiiiApi

tokenizer = KhaiiiApi()

data = tokenizer.analyze("아버지가방에들어가신다")

tokens = []

for word in data:

tokens.extend([str(m).split("/")[0] for m in word.morphs])

print(tokens)

이후 "아버지가방에들어가신다"를 형태소 분석을 한다면

가 출력됨을 볼 수 있다.

여기서 품사를 구별해보자면

from khaiii import KhaiiiApi

tokenizer = KhaiiiApi()

data = tokenizer.analyze("아버지가방에들어가신다")

tokens = []

for word in data:

tokens.extend([str(m) for m in word.morphs])

print(tokens)

다음을 통해 얻어낼 수 있고 그 결과는

다음과 같다.