'GPT' 태그의 글 목록

[TIL] Transformers Architecture

트랜스포머 아키텍처 원본 트랜스포머 아키텍처는 Encoder-Decoder 구조를 기반으로 한다. Encoder 입력 토큰의 시퀀스를 은닉 상태(hidden state) or 문맥(context) 이라 부르는 임베딩 벡터의 시퀀스로 변환한다. Decoder 인코더의 은닉 상태를 사용하여 출력 토큰의 시퀀스를 한 번에 하나씩 반복적으로 생성한다. 원본 트랜스포머 아키텍처는 기계 번역과 같은 Seq2Seq 작업을 위해 고안되었지만, 시간이 지나며 인코더와 디코더는 독립적인 모델로 발전되었다. 인코더 유형 텍스트 시퀀스 입력을 풍부한 수치 표현으로 변환한다. 한 토큰에 대해 계산된 표현은 왼쪽(이전 토큰)과 오른쪽(이후 토큰) 문맥에 따라 달라지는 Bidirectional Attention의 특징을 가진다. ..

Programming/TIL 2024.01.03

Steadily

GPT 1

티스토리툴바