'LLM' 태그의 글 목록

LLM 6

[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - Computing Machinery and Intelligence

이 글은 "한 권으로 끝내는 실전 LLM 파인튜닝" 도서를 읽고 정리한 글입니다. Intro.어떤 학문을 공부하든, 역사를 아는 것은 학습에 있어서도, 또 누군가에게 설명할 때에 있어서도 중요하다고 생각합니다.자연어 처리도 마찬가지로, 현대적인 트랜스포머 아키텍처가 왜 나왔는지에 대해 알기 위한 초석으로, 자연어 처리가 그동안 어떻게 발전되어 왔는지 한 번 정리할 필요가 있는데, 마침 이 책에서도 1장에 친절하게 설명하길래 정리해 봅니다. 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - 1편1. Alan Turing - "Computing Machinery and Intelligence"현대 인공지능 연구의 시작점이 되는 논문이라고 생각합니다.영화 "Imitation Game"의 주인공이기도 한, 앨..

Programming/NLP,LLM 2025.10.04

[Paper Review] Attention in LLMs Yields Efficient Zero-shot Re-rankers

이번 논문은 ICLR 2025에 등재된 논문으로, LLM을 이용한 Zero-shot Re-ranker를 효율적으로 사용하기 위해 Attention Weight을 이용하는 방법을 제시한 논문입니다. 결론결론부터 살펴보고 가면, 이 논문에서는 In-Context Re-ranking (ICR) 방법을 제시하고, 기존 방식보다 높은 점수를 받았음을 보여줍니다. 기존 Generative 방식과 비교했을 때, O(N)의 forward passes로 인한 latency를 O(1)으로 획기적으로 감소시켰다는 점이 인상적입니다. LLM-based re-rankingLLM의 등장은 Information Retrieval (IR) 생태계에 지대한 영향을 주었습니다. 특히 LLM을 이용한 zero-shot re-ranking..

Programming/NLP,LLM 2025.06.11

[Paper Review] Ignore Me But Don't Replace Me

이번에 리뷰할 논문은 NAACL 2024 findings에 등재된 논문입니다.1저자이신 장우진님을 비롯한 대부분의 사람들이 빅데이터 AI 기업인 S2W Inc 소속이시고, 카이스트 NSS 연구실과 Indiana University Bloomingtom과 함께 진행했네요.논문 보러가기 (Website)요약 슬라이드 보러가기 (PDF) 결론결론부터 찍고 내용을 살펴봅시다.이 논문은 NLE (Non-Linguistic Elements) 요소를 pretraining함에 있어, 일반적인 도메인에서처럼 NLE들을 special token으로 대체하지 않고, NLE의 타입에 따라 선별적으로 마스킹하는 기법을 적용하여 더 높은 성능을 보였다는 게 핵심입니다.Cybersecurity에서의 NLP사이버 보안 관련 분야에서..

Programming/NLP,LLM 2025.02.17

LoRA: Low-Rank Adaptation

LoRA?LoRA (Low-Rank Adaptation)은 PEFT (Parameter Efficient Fine-Tuning) 방법의 하나로써,모델을 학습시킬 때 전체 가중치를 업데이트하는 것이 아닌, 일부 파라미터만 효율적으로 학습시킴으로써 GPU 메모리 사용량을 획기적으로 줄일 수 있는 방법이다. 특히나 요즘같이 LLM과 같은 기반 모델의 크기가 매우 커지면서 FFT (Full Fine-Tuning)을 한정된 GPU 메모리 속에서 진행하기 힘든 시기에 PEFT 기법이 많이 주목받았는데, LoRA는 그중에서도 FFT에 비해 상대적으로 준하는 성능을 보이기에 더욱 사랑받는 기법이다. 기존 방법의 문제앞서 설명했듯이, 기존에는 전체 가중치를 업데이트하면서 학습시켰는데 (FFT), 이를 위한 메모리 사용량..

카테고리 없음 2025.02.06

Multi-Head Attention

이해가 되지 않았다.기본적인 Attention에 비해, Multi-Head Attention이 갖는 이점에 대해 물었을 때,가장 먼저 들은 건 "병렬성", 그리고 "다양한 관점에서의 문장 해석"이였다. 병렬성이라는 특징은 수긍이 되었다. Query, Key, Value 각각에 h개의 헤드를 동시에 수행함으로써 이루어지는 특징이기에 빠르게 이해가 되었다.문제는 "다양한 관점에서의 문장 해석"이였다.물론 직관적으로는 이해가 되었다."Query, Key, Value 각각에 여러 헤드가 들어가있으니 한 개만 들어간 것보다는 다각적으로 볼 수 있겠지" 라는 직관이 들었다. 허나 원리적으로 이해가 되지 않았다. Self-Attention을 예로 들 때,"I have a pencil" 이라는 입력이 있다고 하면, 임..

Programming/NLP,LLM 2025.01.22

[리뷰] GPT-4 for Defense specific Named Entity Extraction

GPT-4의 특정 도메인 내 NER 성능 평가와 관련된 블로그를 읽고 요약과 더불어 리뷰를 덧붙여본다. 원문 블로그 링크: https://medium.com/@anthony.mensier/gpt-4-for-defense-specific-named-entity-extraction-47895b7fed6dSummaryTitle : GPT-4에서 보안 도메인에 특화된 Named Entity 추출GPT-4가 최근에 등장했음에도 불구하고, LLM은 이미 다양한 산업 분야에서 혁신을 가져오고 있음.하지만 범용적 분야가 아닌 특화된 분야에서의 보안적 취약점은 아직 괄목한 만한 성과가 없음.이유: 특화된 분야는 전문적인 지식이 필요하지만, GPT-4의 훈련 데이터는 상대적으로 범용적이기 때문👉🏻 실험 목표최근 US..

Programming/NLP,LLM 2024.01.04

LLM과 클라우드를 좋아합니다. 오늘 배운 개발지식을 하나씩 알려드려요. Email : songseungho9258@gmail.com

Today :
Yesterday :

re-ranking, ML, s2w, 개발, GPT-4, Github PR, LLM, slack webhook, Bert, cybertuned, AI, aws re:invent, rankgpt, PEFT, ICR, AWS GameDay, AWS, 자연어처리, Slack-Ops, NLP,

Steadily

LLM 6

티스토리툴바