[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

 - Subword Tokens & Segmentation


[ Subword Tokens or Units ]


  • OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음
  • BPE(Byte Pair Encoding)
  • Wordpiece Model
  • Unigram Language Model Tokenizer


1. BPE(Byte Pair Encoding)


[ Byte Pair Encoding ]


- BPE의 글자 압축(병합) 방식


[ BPE for Predicting Changes in Protein Stability upon Single Point Mutation ]


2. 자연어 처리에서의 BPE(Byte Pair Encoding)



3. 코드 실습하기




nlp_1401_byte_pair_encoding_바이트_페어_인코딩.ipynb

0.01MB



출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

댓글

이 블로그의 인기 게시물

[이수안컴퓨터연구소] 파이썬 레이싱 자동차 게임 만들기 Creating a Python Racing Car Game with pygame (한글자막)

[빵형의 개발도상국] 얼굴 인식 알고리즘 성능 비교 - Python, Deep Learning