'Tensorflow 2 NLP(자연어처리)/형태소 분석기' 카테고리의 글 목록

Tensorflow 2 NLP(자연어처리)/형태소 분석기 5

soynlp에서는 띄어쓰기 교정 모듈도 제공한다. => 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다. 학습하는 코드는 다음과 같다. 학습 이후 교정을 수행해 보았다. 띄어쓰기가 잘 된 것을 확인할 수 있다. + soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자! +BPE 란? : 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함. => 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다. => 새로운 단어가..

Tensorflow 2 NLP(자연어처리)/형태소 분석기 2021.11.12

[2-4] soynlp 형태소 분석기 사용하기

soynlp 형태소 분석기는 비지도학습 형태소 분석기이다. 즉, 다른 형태소 분석기(은전한닢,꼬꼬마 등)와는 달리 데이터의 패턴을 모델 스스로 학습을 한다. 오픈소스 패키지는 다음에서 사용하였다. https://github.com/lovit/soynlp GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. github.com soynlp를 사용하기에 앞서 전처리 된 데이터가 필요하다. 이 데이터는 네이버 영화 리뷰 말뭉치를 이용하..

Tensorflow 2 NLP(자연어처리)/형태소 분석기 2021.11.12

[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점

형태소 분석기에서 주의해야 할 점이 있다. 만약 우리가 '가우스전자' 라는 기업의 데이터 분석 팀에 속해있다면 우리는 가우스전자라는 토큰은 섬세히 처리해야 한다. 그 이유를 보여주겠다. >>> from konlpy.tag import Mecab >>> tokenizer =Mecab() >>> tokenizer.morphs("가우스전자 텔레비전 정말 좋네요") ['가우스', '전자', '텔레비전', '정말', '좋', '네요'] KoNLPy에서 은전한닢을 이용하여 형태소분석을 하였지만 가우스전자를 가우스,전자 로 나뉘어서 분석해버린다. ==> 단어 임베딩 품질이 떨어진다. 그래서 우리는 '가우스전자' 라는 단어를 사용자 사전에 추가해서 강제적으로 하나의 토큰으로 분석될 수 있도록 할 수 있다. ..

Tensorflow 2 NLP(자연어처리)/형태소 분석기 2021.11.12

[2-2] Khaiii 사용법

참고자료 - https://fish-tank.tistory.com/103 colab 에서 작업해보았다. !git clone https://github.com/kakao/khaiii.git !pip install cmake !mkdir build !cd build && cmake /content/khaiii !cd /content/build/ && make all !cd /content/build/ && make resource !cd /content/build && make install !cd /content/build && make package_python !pip install /content/build/package_python 다음을 통해 kahiii를 다운받는다 이후 fro..

Tensorflow 2 NLP(자연어처리)/형태소 분석기 2021.11.12

[2-1] KoNLPy 사용법

KoNLPy (코에넬파이) : 은전한닢,꼬꼬마,한나눔,Okt,코모란과 같은 오픈소스 형태소분석기를 파이썬 환경에서 사용가능하게 인터페이스를 통일하여 만든 한국어 자연어 처리 패키지이다. 1. '한국어 임베딩' 저자의 Docker image를 다운받아 컨테이너를 실행한후 파이썬 환경에 접근한다. (colab에서도 가능하고 그에 대한 설명은 다음 사이트에 나와있다. https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggvcjBF_e6?usp=sharing#scrollTo=uKkTCajXih1u) 한국어 임베딩 - 실습 https://colab.research.google.com/drive/1MWlm6-2sW_zfQMxr1Bt9A5ggv..

Tensorflow 2 NLP(자연어처리)/형태소 분석기 2021.11.12

NLP 시작부터 전문가까지

SentencePiece, WordPiece, transformer, cycle consistency, autodif, DALL-E, CGAN, 인공지능, phenaki, GenerativeModel, BPE, HuggingFace, GaN, layer.dot, NLP, GPT, Generative, entropy, 자연어처리, 자동미분,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tensorflow 2 NLP(자연어처리)/형태소 분석기 5

티스토리툴바