Tensorflow 2 NLP(자연어처리)/형태소 분석기

[2-1] KoNLPy 사용법

Suhd 2021. 11. 12. 22:23

KoNLPy (코에넬파이) : 은전한닢,꼬꼬마,한나눔,Okt,코모란과 같은 오픈소스 형태소분석기를 파이썬 환경에서 사용가능하게 인터페이스를 통일하여 만든 한국어 자연어 처리 패키지이다.

1. '한국어 임베딩' 저자의 Docker image를 다운받아 컨테이너를 실행한후 파이썬 환경에 접근한다.

(colab에서도 가능하고 그에 대한 설명은 다음 사이트에 나와있다. https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggvcjBF_e6?usp=sharing#scrollTo=uKkTCajXih1u)

https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggvcjBF_e6?usp=sharing#scrollTo=uKkTCajXih1u 

 

한국어 임베딩 - 실습

Colaboratory notebook

colab.research.google.com

 

 

 

 

2.

python 환경에 접근한 이후.

1. >>> from konlpy.tag import Mecab

2. >>> tokenizer =Mecab()

3. >>> tokenizer.morphs("아버지가방에들어가신다")

다음 코드를 작성한다.

위의 뜻은

1. from 파일명(라이브러리) improt 함수이름

2. konlpy에서 은전한닢 사용

3. 함수 내 morphs(=형태소 추출) 실행

3. 다음 결과는

로 나뉜다.

+ 추가적으로 품사 정보까지 확인 할 수 있는 코드는

>>>tokenizer.pos("아버지가방에들어가신다")

 

에서 확인 가능하다.