[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

 - Subword Tokens & Segmentation


[ Subword Tokens or Units ]


  • OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음
  • BPE(Byte Pair Encoding)
  • Wordpiece Model
  • Unigram Language Model Tokenizer


1. BPE(Byte Pair Encoding)


[ Byte Pair Encoding ]


- BPE의 글자 압축(병합) 방식


[ BPE for Predicting Changes in Protein Stability upon Single Point Mutation ]


2. 자연어 처리에서의 BPE(Byte Pair Encoding)



3. 코드 실습하기




nlp_1401_byte_pair_encoding_바이트_페어_인코딩.ipynb

0.01MB



출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

댓글

이 블로그의 인기 게시물

[Programming with Mosh] Python Tutorial for Beginners | Full Python Programming Course [2019]