[2-5] soynlp의 띄어쓰기 교정 모듈

Tensorflow 2 NLP(자연어처리)/형태소 분석기

[2-5] soynlp의 띄어쓰기 교정 모듈

Suhd 2021. 11. 12. 22:32

soynlp에서는 띄어쓰기 교정 모듈도 제공한다.

=> 학습 데이터에서 특정 문자열 앞뒤로 공백이 다수 발견되면 이를 학습하여 교정하는 방식이다.

학습하는 코드는 다음과 같다.

학습 이후 교정을 수행해 보았다.

띄어쓰기가 잘 된 것을 확인할 수 있다.

+ soynlp 형태소 분석이나 BPE(Byte Pair Encoding) 방식의 토크나이즈 기법은 띄어쓰기에 따라 분석결과가 크게 달라짐. => 모델 학습 전 띄어쓰기 교정을 먼저 적용하자!

+BPE 란?

: 연속적으로 가장 많이 등장한 글자의 쌍을 하나의 글자(Byte)로 병합하고 이를 최대한으로 수행함.

=> 이걸 연속적으로 해가면서 voca에 있는 알파벳과 알파벳 쌍(pair)을 업데이트 하여 늘린다.

=> 새로운 단어가 들어와도 업데이트 된 voca에 있는 byte 조합을 통해 만들어 낼 수 있다면 존재하는 단어로 판단.

'Tensorflow 2 NLP(자연어처리) > 형태소 분석기' 카테고리의 다른 글

[2-4] soynlp 형태소 분석기 사용하기 (0)	2021.11.12
[2-3] 형태소 분석기(ex 은전한닢)에서 주의해야 할 점 (0)	2021.11.12
[2-2] Khaiii 사용법 (0)	2021.11.12
[2-1] KoNLPy 사용법 (0)	2021.11.12

현재글[2-5] soynlp의 띄어쓰기 교정 모듈

NLP 시작부터 전문가까지

GenerativeModel, SentencePiece, 자동미분, HuggingFace, transformer, Generative, GaN, DALL-E, GPT, CGAN, autodif, BPE, entropy, layer.dot, cycle consistency, 인공지능, 자연어처리, WordPiece, phenaki, NLP,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

NLP 시작부터 전문가까지