Jacob Cho's Data Science

글

5월, 2021의 게시물 표시

[딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder)

1. IMDB 리뷰 토큰화하기 2. 네이버 영화 리뷰 토큰화하기 nlp_1403_subwordtextencoder_서브워드텍스트인코더 .ipynb 0.01MB - 출처 : [딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder)

계속 읽기

[딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece)

오전 11:01:00

1. Sentencepiece - 논문 : https://arxiv.org/pdf/1808.06226.pdf - 센텐스피스 깃허브 : https://github.com/google/sentencepiece 2. IMDB 리뷰 토큰화하기 3. 네이버 영화 리뷰 토큰화하기 nlp_1402_sentencepiece_센텐스피스 .ipynb 0.03MB - 출처 : [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece)

계속 읽기

[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

오전 10:10:00

- Subword Tokens & Segmentation [ Subword Tokens or Units ] OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음 BPE(Byte Pair Encoding) Wordpiece Model Unigram Language Model Tokenizer 1. BPE(Byte Pair Encoding) [ Byte Pair Encoding ] - BPE의 글자 압축(병합) 방식 [ BPE for Predicting Changes in Protein Stability upon Single Point Mutation ] 2. 자연어 처리에서의 BPE(Byte Pair Encoding) 3. 코드 실습하기 nlp_1401_byte_pair_encoding_바이트_페어_인코딩 .ipynb 0.01MB - 출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

계속 읽기

[딥러닝을이용한 자연어 처리 입문] 1305 양방향 LSTM을 이용한 개체명 인식(Named Entity Recognition using Bi-LSTM)

오후 3:04:00

1. 환경 설정 필요 2. 개체명 인식 데이터에 대한 이해와 전처리 - 데이터 다운로드 : https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus 3. F1-Score - 정밀도와 재현률로부터 조화 평균(harmonic mean)을 구한 것 4. F1-score를 측정하는 콜백 클래스 5. BiLSTM을 이용한 개체명 인식기 nlp_1305_named_entity_recognition_using_bilstm .ipynb 0.02MB - 출처 : [딥러닝을이용한 자연어 처리 입문] 1305 양방향 LSTM을 이용한 개체명 인식(Named Entity Recognition using Bi-LSTM)

계속 읽기