AI 2

[Paper Review] Attention in LLMs Yields Efficient Zero-shot Re-rankers

이번 논문은 ICLR 2025에 등재된 논문으로, LLM을 이용한 Zero-shot Re-ranker를 효율적으로 사용하기 위해 Attention Weight을 이용하는 방법을 제시한 논문입니다. 결론결론부터 살펴보고 가면, 이 논문에서는 In-Context Re-ranking (ICR) 방법을 제시하고, 기존 방식보다 높은 점수를 받았음을 보여줍니다. 기존 Generative 방식과 비교했을 때, O(N)의 forward passes로 인한 latency를 O(1)으로 획기적으로 감소시켰다는 점이 인상적입니다. LLM-based re-rankingLLM의 등장은 Information Retrieval (IR) 생태계에 지대한 영향을 주었습니다. 특히 LLM을 이용한 zero-shot re-ranking..

Programming/NLP,LLM 2025.06.11

LoRA: Low-Rank Adaptation

LoRA?LoRA (Low-Rank Adaptation)은 PEFT (Parameter Efficient Fine-Tuning) 방법의 하나로써,모델을 학습시킬 때 전체 가중치를 업데이트하는 것이 아닌, 일부 파라미터만 효율적으로 학습시킴으로써 GPU 메모리 사용량을 획기적으로 줄일 수 있는 방법이다. 특히나 요즘같이 LLM과 같은 기반 모델의 크기가 매우 커지면서 FFT (Full Fine-Tuning)을 한정된 GPU 메모리 속에서 진행하기 힘든 시기에 PEFT 기법이 많이 주목받았는데, LoRA는 그중에서도 FFT에 비해 상대적으로 준하는 성능을 보이기에 더욱 사랑받는 기법이다. 기존 방법의 문제앞서 설명했듯이, 기존에는 전체 가중치를 업데이트하면서 학습시켰는데 (FFT), 이를 위한 메모리 사용량..

카테고리 없음 2025.02.06