Tensorflow 2 NLP(자연어처리)/형태소 분석기 5

[2-5] soynlp의 띄어쓰기 교정 모듈

soynlp에서는 띄어쓰기 교정 모듈도 제공한다. ​ => 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다. ​ ​ 학습하는 코드는 다음과 같다. 학습 이후 교정을 수행해 보았다. 띄어쓰기가 잘 된 것을 확인할 수 있다. ​ ​ ​ + soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자! ​ ​ +BPE 란? : 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함. => 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다. => 새로운 단어가..

[2-4] soynlp 형태소 분석기 사용하기

soynlp 형태소 분석기는 비지도학습 형태소 분석기이다. 즉, 다른 형태소 분석기(은전한닢,꼬꼬마 등)와는 달리 데이터의 패턴을 모델 스스로 학습을 한다. ​ 오픈소스 패키지는 다음에서 사용하였다. https://github.com/lovit/soynlp GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. github.com soynlp를 사용하기에 앞서 전처리 된 데이터가 필요하다. 이 데이터는 네이버 영화 리뷰 말뭉치를 이용하..

[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점

형태소 분석기에서 주의해야 할 점이 있다. ​ 만약 우리가 '가우스전자' 라는 기업의 데이터 분석 팀에 속해있다면 우리는 가우스전자라는 토큰은 섬세히 처리해야 한다. ​ 그 이유를 보여주겠다. >>> from konlpy.tag import Mecab >>> tokenizer =Mecab() >>> tokenizer.morphs("가우스전자 텔레비전 정말 좋네요") ['가우스', '전자', '텔레비전', '정말', '좋', '네요'] KoNLPy에서 은전한닢을 이용하여 형태소분석을 하였지만 가우스전자를 가우스,전자 로 나뉘어서 분석해버린다. ==> 단어 임베딩 품질이 떨어진다. ​ 그래서 우리는 '가우스전자' 라는 단어를 사용자 사전에 추가해서 강제적으로 하나의 토큰으로 분석될 수 있도록 할 수 있다. ..

[2-2] Khaiii 사용법

참고자료 - https://fish-tank.tistory.com/103 ​ colab 에서 작업해보았다. ​ !git clone https://github.com/kakao/khaiii.git !pip install cmake ​ !mkdir build !cd build && cmake /content/khaiii !cd /content/build/ && make all !cd /content/build/ && make resource !cd /content/build && make install !cd /content/build && make package_python !pip install /content/build/package_python 다음을 통해 kahiii를 다운받는다 ​ ​ 이후 fro..

[2-1] KoNLPy 사용법

KoNLPy (코에넬파이) : 은전한닢,꼬꼬마,한나눔,Okt,코모란과 같은 오픈소스 형태소분석기를 파이썬 환경에서 사용가능하게 인터페이스를 통일하여 만든 한국어 자연어 처리 패키지이다. ​ ​ 1. '한국어 임베딩' 저자의 Docker image를 다운받아 컨테이너를 실행한후 파이썬 환경에 접근한다. ​ (colab에서도 가능하고 그에 대한 설명은 다음 사이트에 나와있다. https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggvcjBF_e6?usp=sharing#scrollTo=uKkTCajXih1u) 한국어 임베딩 - 실습 https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggv..