Byte Pair Encoding: BPE란 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법이다.
토큰화절차:
- Pretokenize: 말뭉치의 모든 문장을 공백으로 나눠준다.
- 어휘집합구축: 자주 등장하는 문자열을 병합하고 이를 어휘 집합에 구축한다.
(어휘집합 ==> vocab.json 파일로 저장된다,
바이그램쌍 병합이력 ==> merge.txt로 만들어준다.)
- 토큰화: 어휘집합 (vocab.json)과 병합 우선순위(merge.txt)가 있으면 토큰화 수행가능, 어휘집합에 있는 서브워드가 포함되었을 때, 해당 서브워드를 어절에서 분리한다.
- GPT 토크나이저 구축(BPE tokenizer)
- BERT 토크나이저 구축(work piece tokenizer) likelihood 기반
말뭉치에서 자주 등장한 문자열을 토큰으로 인식, BPE처럼 빈도 기준 병합이 아니라, 병합했을 때 우도를 높이는 글자쌍을 병합한다.
'Pytorch Study > NLP' 카테고리의 다른 글
정리 (0) | 2023.05.26 |
---|