Bert 2

[Paper Review] Ignore Me But Don't Replace Me

이번에 리뷰할 논문은 NAACL 2024 findings에 등재된 논문입니다.1저자이신 장우진님을 비롯한 대부분의 사람들이 빅데이터 AI 기업인 S2W Inc 소속이시고, 카이스트 NSS 연구실과 Indiana University Bloomingtom과 함께 진행했네요.논문 보러가기 (Website)요약 슬라이드 보러가기 (PDF) 결론결론부터 찍고 내용을 살펴봅시다.이 논문은 NLE (Non-Linguistic Elements) 요소를 pretraining함에 있어, 일반적인 도메인에서처럼 NLE들을 special token으로 대체하지 않고, NLE의 타입에 따라 선별적으로 마스킹하는 기법을 적용하여 더 높은 성능을 보였다는 게 핵심입니다.Cybersecurity에서의 NLP사이버 보안 관련 분야에서..

Programming/NLP,LLM 2025.02.17

Transformers Architecture

트랜스포머 아키텍처원본 트랜스포머 아키텍처는 Encoder-Decoder 구조를 기반으로 한다.Encoder입력 토큰의 시퀀스를 은닉 상태(hidden state) or 문맥(context) 이라 부르는 임베딩 벡터의 시퀀스로 변환한다.Decoder인코더의 은닉 상태를 사용하여 출력 토큰의 시퀀스를 한 번에 하나씩 반복적으로 생성한다.원본 트랜스포머 아키텍처는 기계 번역과 같은 Seq2Seq 작업을 위해 고안되었지만, 시간이 지나며 인코더와 디코더는 독립적인 모델로 발전되었다.인코더 유형텍스트 시퀀스 입력을 풍부한 수치 표현으로 변환한다.한 토큰에 대해 계산된 표현은 왼쪽(이전 토큰)과 오른쪽(이후 토큰) 문맥에 따라 달라지는 Bidirectional Attention의 특징을 가진다.텍스트 분류, 개체..

Programming/NLP,LLM 2024.01.03