Steadily

[2편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - The Perceptron / Backpropagation

R.i.c.K.y — Sat, 4 Oct 2025 18:35:20 +0900

이 글은 "한 권으로 끝내는 실전 LLM 파인튜닝" 도서를 읽고 정리한 글입니다.

Intro

1편 - Turing Machine에 이은 후속 글입니다.

https://ricky-dev.tistory.com/13

[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - Computing Machinery and Intelligence

이 글은 "한 권으로 끝내는 실전 LLM 파인튜닝" 도서를 읽고 정리한 글입니다. Intro.어떤 학문을 공부하든, 역사를 아는 것은 학습에 있어서도, 또 누군가에게 설명할 때에 있어서도 중요하다고 생

ricky-dev.tistory.com

이번엔 나머지 2개의 논문을 한번에 정리해보려 합니다.

인공지능을 "어떻게" 학습시킬 것인가에 대해 나온 수많은 방법들 중 가장 영향을 끼친 개념인 'Perceptron'에 대해 소개하고, 이 이론 뒤로 왜 겨울이 찾아왔는지, 그리고 겨울을 극복해낸 "Backpropagation"은 어떤 개념인지를 보며 패러다임을 정리해봅시다.

우선, 퍼셉트론이라는 개념이 등장하기 전까지 연구되었던 연구들을 살펴봅시다.

퍼셉트론 개념이 나오기 전까지의 중요한 연구들

1. Warren McCulloch, Walter Pitts - 신경망 모델

여러 입력 신호의 합이 정해진 기준값(임계값, threshold)을 넘으면 뉴런이 활성화되고, 그렇지 않으면 비활성화되는 모델입니다.

인간의 신경망을 본떠 정보이론과 함께

퍼셉트론: 여러 입력 신호의 합들이 임계치를 넘으면 활성화되는 개념

개념화했다는 점에서 획기적이였으며, 이를 본떠서 만든 인공 신경망 모델이 퍼셉트론입니다.

2. Donald Hebb - Hebbian Learning

또한, Hebb는 신경 가소성 원리를 제시하는데, 이는 뇌의 뉴런들이 동시에 활성화될 때, 그들 사이의 연결이 강해진다는 원리입니다.

뉴런들의 시너지에 대해 집중하며, 뉴런들이 상호작용하면서 스스로 학습한다는 점을 시사하는 점에서 의의를 가집니다.

Perceptron

이전 연구들을 기반으로, Rosenblatt와 연구진들은 "The Perceptron: A Probablistic Model for Information Storage and Organization in the Brain" 이라는 논문을 발표했습니다. 이 논문에서 퍼셉트론을 처음 소개하게 됩니다.

퍼셉트론은, 인간의 뇌세포인 뉴런을 모방하여 만든 간단한 인공 신경망 모델입니다.

저는 특히, 책에서 퍼셉트론을 연결주의 접근법이라는 관점에서 설명해준 것이 인상적이였습니다.

퍼셉트론은 연결주의 접근법을 따릅니다. 이 접근법에 따르면, 정보는 고정된 형태로 저장되어 필요할 때마다 동일한 방식으로 인출되는 코드화된 기억 방식이 아니라, 활성화된 뉴런들 사이의 새로운 연결 또는 경로를 통해 저장되며, 이는 뉴런 간의 연결 강도로 표현됩니다.
연결주의 접근법의 특징은 특정 자극과 반응 사이의 확률적 관계를 학습한다는 것입니다. 또한, 신경망의 연결이 정적이지 않고 경험에 따라 변한다는 점도 중요한 특징입니다.

선형적 분리

퍼셉트론 시스템은 ‘통계적 패턴’을 인식하기에, 두 가지의 서로 다른 유형의 입력을 무작위로 줘도, 이를 스스로 구분해낸다. 이처럼 퍼셉트론이 두 종류의 입력을 구분할 수 있는 능력을 ‘선형적 분리’라고 한다.

다시 말해, 두 자극을 구분할 수 있는 선을 하나 찌이익 그을 능력이 있다! 이 말이다.

로젝블랫이 말한 퍼셉트론의 한계

인공지능의 발전을 위해선 완전히 새로운 접근 방식이 필요하다. 기존 원칙의 단순한 개선으로는 충분치 않으며, 근본적으로 다른 원칙이 필요하다.
⇒ 아직까지도 해결해야 할 문제로 남아있습니다. GPT, BERT 등의 트랜스포머 기반 모델들 역시, 아직 “근본적으로 다른 원칙”은 아니다.
퍼셉트론 모델은 시간적 요소를 고려하지 않았다. 인간의 인지 과정에서 시간적 패턴 인식이 중요한 역할을 하는데, 이를 고려하지 않은 퍼셉트론은 한계가 있을 수 밖에 없다.
⇒ RNN, LSTM의 등장이 시간적 패턴 인식에서 많은 진전을 보였지만, 인간의 복잡한 시간 인식과 처리 능력을 완전히 모방한 건 아니기에 오늘날에도 여전히 한계점으로 남아있습니다.
퍼셉트론이 상대적 판단과 관계의 추상화에서 한계를 보인다. 단순 패턴 인식,분류는 할 수 있어도, 두 자극 간의 관계를 인식하는 데 어려워한다.
⇒ 최근에는 ResNet, YOLO 등이 이미지 속 객체를 빠르고 정확하게 인지하고, GPT-4, Claude 등의 LLM의 등장은 멀티모달 추론 능력을 보여준다.
퍼셉트론이 선형적으로만 분리 가능한 문제들만 해결할 수 있다.
⇒ 인공지능의 1차 겨울을 도래시킨 원인인데, 뒤에서 나오는 MLP와 Back-Propagation이 이를 해결한다.
퍼셉트론 이론은 아직 초기 단계다. 인간의 복잡한 학습 메커니즘을 완전히 설명하거나 모방하기에는 아직 부족하다.

여기서 가장 중대한 영향을 끼친 한계는 4번이라고 생각합니다.

'퍼셉트론' 개념이 소개된 이유, 수많은 연구원들이 인공지능 업계에 뛰어들며 많은 발전을 해왔지만, 선형적 분리라는 제한 내에서 할 수 있는 영역은 한계가 있었기에, 이를 타파할 기법이 보이지 않는 한 발전할 수 없었기 때문이죠.

조금 더 자세히 살펴볼까요?

퍼셉트론의 한계 4 - 선형적으로만 분리 가능한 문제들만 해결한다.

두 개의 자극을 분류해낼 수 있다! 가 퍼셉트론이 뜬 이유인데, 분류해내지 못하는 유형이 있었습니다.

AND, NAND, OR gate는 줄 하나로 하얀색과 검은색을 구분할 수 있지만…XOR는 두 개가 필요하다는 점입니다.

XOR gate는 선 하나로 표현할 수가 없다는 사실..

이를 보고, 퍼셉트론은 비선형적인 문제에는 적용할 수 없다는 사실을 깨달았죠.

사람들은 이걸 보고, 이게 맞나..? 라는 생각을 합니다. 사람의 지능은 분명 여러 가지 자극들을 처리하며 판단하는데, 고작 2가지 자극에서도 이런 한계가 있는게 인공지능이라는 점에서 실망을 하고, 이는 곧 인공지능의 1차 겨울이 도래하는 계기가 됩니다.

근데 선형과 비선형은 무슨 차이일까?

처음으로 선형과 비선형에 대해 생각나는 건 아마, “직선”과 “곡선”이다.

틀린 말은 아니지만, 단순히 이렇게만 구분하기에는 잘 안 와 닿습니다. 조금 더 이해하기 쉽게 보면 아래와 같습니다.

선형 함수 (Linear Function) : 출력이 입력의 상수배만큼 변하는 함수.
- 즉, 직선 1개로 그릴 수 있는 함수!
비선형 함수 (Nonlinear Function) : 입출력 관계가 단순한 비례 관계를 벗어나는 함수.
- 직선 1개로 그릴 수 없는 함수!
- 작은 입력 변화가 큰 출력 변화를 일으키거나, 그 반대의 경우도 있을 수 있습니다.

이 때, 선형 함수는 여러가지 한계를 갖게 됩니다.

1. 아무리 많이 쌓아도 단순 선형 변환으로 축소됩니다.

이게 무슨 의미냐면, 다층 퍼셉트론(MLP) 구조라 한들 선형 함수를 아무리 많이 쌓아봤자, 결국엔 선형 함수가 된다는 의미입니다.

2. 미분 2번만에 0이 됩니다.

가중치를 업데이트하기 위해 역전파 과정을 취하려면 Gradient를 구해야 하는데, 이를 위해 선형 함수를 연속적으로 미분해야 하지만, 금방 미분값이 0이 되어버리는 불상사가 발생하죠..

즉, 업데이트가 안됩니다!

Backpropagation

그래서, 힌튼 교수님은 더더욱 비선형 함수에 집중하게 됩니다. 사실 안 쓸 이유가 없게 되죠.

입출력이 비례하지 않으니까, 다양한 변화량을 관측할 수 있게 됩니다.
역방향 학습에서 미분을 해도 0이 되지 않습니다.

이러한 특징 덕분에, 비선형 함수와 함께 진짜 역전파 업데이트를 써먹을 수 있게 되었습니다.

그래서 Learning representations by back-propagating errors 라는 논문을 발표하게 되죠.

순전파와 역전파의 반복을 통해 모델이 학습되는 과정은 아래와 같습니다.

신경망은 입력을 받아 예측한다. (순전파)
예측값과 실제 정답 사이의 오차 (loss)를 계산한다.
오차를 출력층에서 시작해 입력층 방향으로 거꾸로 전파하면서, 각 층의 가중치를 업데이트한다. (역전파)
업데이트된 가중치로 다시 신경망은 입력을 받아 예측한다. (Update 된 순전파)

여기서도 볼 수 있듯이, 기울기를 통해 업데이트값을 정할 수 있기에, 더더욱 미분에 대한 중요도가 높아지죠.

역전파 개념을 통해 현대 머신러닝의 발전이 획기적으로 일어날 수 있게 되었습니다.

이번에는 패러다임의 흐름을 따라가는 정도로만 알아보는 게 목적이기에, 역전파에 대한 자세한 개념은 다음 포스트에서 다뤄보도록 하겠습니다.

[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - Computing Machinery and Intelligence

R.i.c.K.y — Sat, 4 Oct 2025 03:03:42 +0900

이 글은 "한 권으로 끝내는 실전 LLM 파인튜닝" 도서를 읽고 정리한 글입니다.

Intro.

어떤 학문을 공부하든, 역사를 아는 것은 학습에 있어서도, 또 누군가에게 설명할 때에 있어서도 중요하다고 생각합니다.

자연어 처리도 마찬가지로, 현대적인 트랜스포머 아키텍처가 왜 나왔는지에 대해 알기 위한 초석으로, 자연어 처리가 그동안 어떻게 발전되어 왔는지 한 번 정리할 필요가 있는데, 마침 이 책에서도 1장에 친절하게 설명하길래 정리해 봅니다.

인공지능 발전에 큰 획을 그은 전설의 3대 논문 - 1편

1. Alan Turing - "Computing Machinery and Intelligence"

현대 인공지능 연구의 시작점이 되는 논문이라고 생각합니다.

영화 "Imitation Game"의 주인공이기도 한, 앨런 튜링은 디지털 컴퓨터 없이도 기계가 언어를 처리할 수 있다는 가능성을 항상 제기해 왔습니다. 디지털 컴퓨터가 없다는 것은 곧, 하드웨어 장치에 어떠한 커맨드도 들어가지 않는다는 것이죠.

다시 말해, 기계가 스스로 언어를 처리할 수 있다는 것을 뜻합니다.

기계는 생각할 수 있는가?

일단, 튜링이 생각하는 기계라는 것의 정의부터 짚고 가봅시다.

튜링은 기계를 “사람을 제외한 것들 중 저장, 실행, 제어 기능을 갖춘 것. 입력을 받아 결과를 출력하는 시스템을 갖춘 것”으로 정의합니다.

그러면, 이것이 기계인 지 아닌지는 어떻게 구별할 수 있을까요? 직접 물어보는 방법은 어떠신가요?

기계한테 "너 기계야?"를 물어본다. -> 안타깝게도, 기계는 말을 하지 못합니다.
사람한테 "쟤 기계야?"를 물어본다. -> 얼핏 보면 웃기지만 ,생각을 비틀어보면..?

Turing Test (a.k.a Imitation Game)

사람한테 "쟤 기계야?" 를 물어본다면, 당연히 응답자의 신뢰성을 보장할 수 없겠죠. 그래서, 어떤 질문에 대한 답변을 보고, 해당 답변을 사람이 쓴 것 같은지, 기계가 쓴 것 같은지를 응답자한테 물어보기로 하는데, 이것을 튜링 테스트라고 부릅니다.

즉, 질문자는 똑같은 질문을 두 응답자에게 질문하고, 답변이 사람인지, 기계인지 판별하는 테스트죠.

만약, 질문자가 기계의 답변을 인간 답변으로 착각할 정도라면?

그럼 튜링 테스트를 통과하게 됩니다. 기계가 생각할 수 있는 개체라는 것을 간접적으로 보여준다는 논리죠.

지금 시대에 와서 생각해 보면 억지스러운 부분도 당연히 있지만, 그 당시에는 상당히 혁신적인 테스트였습니다.

위에서 말했듯, 튜링 테스트의 한계점도 적어보자면,

기계가 인간처럼 응답할 수 있는 것이 곧, 실제로 이해하고 생각한다는 것은 아니라는 점입니다.
단순히 규칙을 따르는 것만이 아닌, 실제로 이해하고 학습할 수 있는지에 대한 근본적인 문제가 존재합니다.

근데, 이 테스트가 최근에 다시 핫했었는데.. 이 논문 때문이라고 생각합니다.

arXiv 2503.23674, Large Language Models Pass the Turing Test

여태껏 나왔던 수많은 모델들 (과거의 ML/DL 모델부터)은 모두 이 테스트를 통과하지 못해 겨울이 찾아왔었는데, 최근엔 Turing Test를 통과한 모델들이 나왔다는 내용의 논문입니다.

Win Rate는 튜링 테스트를 진행했을 때 승리한 확률, 즉, 기계가 쓴 답을 응답자가 인간이 쓴 답이라고 착각한 확률을 뜻합니다.

LLAMA-PERSONA와 GPT-4.5-PERSONA가 Threshold였던 50%를 넘겼다는 것을 시사합니다.

Large Language Models Pass the Turing Test

We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of

arxiv.org

하지만, 많은 모델들이 튜링 테스트를 통과했다고 해도, 아직도 “기계가 실제로 이해하고 학습할 수 있는지”에 대한 고민은 남아 있습니다. 다만, 과거와는 달리 현대에는 해당 고민 포인트를 “해결”할 수 있을 것 같다는 강한 믿음이 AI 업계에선 돌고 있죠 (ex. Google, OpenAI, …). 실제로도 한 인터뷰에서, OpenAI의 창립자인 샘 알트만은 5년 안에 AGI를 넘어설 것이며, 과학, 경제 분야에서 엄청난 속도로 성장이 가속화될 것이라고 말한 것도 이를 뒷받침해 주죠.

자, 패러다임의 흐름에 생각을 맡겨봅시다. 이 시점에서 우리가 헤쳐나가야 할 과제는?

저는 개인적으로, "인공지능이 어떻게(How?) 학습되는가?"가 저절로 중요해졌을 것이라고 생각합니다. 저 원리와 과정을 연구해야 성능이 좋아지고, 그래야 튜링 테스트를 통과할 모델이 나올 것이라는, 이러한 패러다임 흐름 속에서 인공지능이 발전된 것이라 생각하기 때문이죠.

위에서도 언급했듯, 튜링 테스트의 한계점 중 하나는 “기계가 실제로 이해하고 학습할 수 있는지”에 대한 근본적인 해답을 못한 것이었죠.

자연스럽게, 기계가 어떤 방식으로 학습되는지에 대한 연구가 필요해지는 시점입니다.

그래서, 다음 편에서는 기계학습의 핵심인 퍼셉트론에 대해 다뤄보겠습니다.

[Paper Review] Attention in LLMs Yields Efficient Zero-shot Re-rankers

R.i.c.K.y — Wed, 11 Jun 2025 06:31:39 +0900

이번 논문은 ICLR 2025에 등재된 논문으로, LLM을 이용한 Zero-shot Re-ranker를 효율적으로 사용하기 위해 Attention Weight을 이용하는 방법을 제시한 논문입니다.

결론

결론부터 살펴보고 가면, 이 논문에서는 In-Context Re-ranking (ICR) 방법을 제시하고, 기존 방식보다 높은 점수를 받았음을 보여줍니다. 기존 Generative 방식과 비교했을 때, O(N)의 forward passes로 인한 latency를 O(1)으로 획기적으로 감소시켰다는 점이 인상적입니다.

LLM-based re-ranking

LLM의 등장은 Information Retrieval (IR) 생태계에 지대한 영향을 주었습니다. 특히 LLM을 이용한 zero-shot re-ranking의 retrieval 능력이 매우 좋은 성능을 주기에 그 영향은 더욱 커져갑니다.

하지만, 기존 LLM 기반 re-ranking 방식들은 거의 LLM의 생성 능력에 많이 의존하는 편입니다.

현존하는 re-ranking 방식은 크게 3가지로 분류됩니다.

(좌-a) Pointwise 방식 (relevance generation) (좌-b) Listwise 방식 (우) Pairwise 방식

Listwise re-ranking : LLM이 ranking list를 생성하도록 지시하는 방식입니다.
- 가장 직접적인 접근 방식이지만, 답변 누락 / hallucination / unstructured output 등의 이슈가 있습니다.
Pairwise re-ranking : 우선 LLM이 쌍으로 이루어진 document들을 각각 비교한 후, 종합 랭킹에 통합하는 방식입니다.
Pointwise re-ranking : LLM이 query에 대한 모든 document들의 관련성을 각각 비교하면서 점수를 부여하는 방식입니다.
- Pointwise 방식은 주로 relevance generation이나 query generation을 통해 진행됩니다. (Liang et al., 2023)
- Pairwise / Pointwise 방식은 LLM이 black-box 성질을 갖고 있기 때문에 점수를 보정하는 게 어렵다는 단점이 있습니다.

Pointwise re-ranking의 대표적인 2가지 방식

위에서 제시한 3가지 방식은 공통적으로 가지고 있는 단점이 있습니다.

pointwise, pairwise, listwise와 ICR에 대한 시간복잡도

N개의 documents를 re-ranking 하기 위해서 O(N)~O(N^2) API 호출이 요구됩니다.
LLM에 의해 생성된 관련도 점수를 해석하기 어렵기 때문에, re-ranking 과정의 신뢰도를 떨어뜨립니다.
LLM이 항상 올바른 구조의 출력을 생성한다는 보장이 없습니다. (특히 relevance scores, ranking list 생성 시)

또한, LLM-based zero-shot re-ranking을 가능케 하기 위해, re-ranking 합성 데이터를 이용하여 Foundation Model을 re-ranking에 특화시키는 시도 또한 진행했습니다 (ex. FIRST).

하지만 이 방식들 또한 추가적인 fine-tuning을 해야 한다는 점, 그리고 학습에 사용된 데이터들의 도메인이 아니면 답변 정확도가 떨어진다는 문제를 갖고 있습니다.

Research Question & Hypothesize

위에서 볼 수 있듯이, LLM의 생성 능력에만 의존한 generative approach에는 한계가 있습니다.

이에 연구진들은 다음과 같은 질문을 던집니다.

Is auto-regressive generation necessary and optimal for LLMs to perform re-ranking?
LLM을 이용한 re-ranking을 위해선 auto-regressive 방식의 생성이 필수적인가? 이것이 최적인가?

그리고 위 질문에 대한 가설을 제시합니다.

re-ranking과 관련된 의미 있는 신호들은 LLM의 Context Encoding 단계에서 많이 등장할 것이다.
generative approach 대신 이 신호들을 직접 활용한다면 re-ranking 성능을 향상할 수 있을 것이다.

In-Context Re-ranking

연구진들은 이 신호를 attention weight에서 발견하였고, 이를 기반으로 in-context re-ranking (ICR) 방식을 제안합니다.

기존 방식과 비교했을 때, ICR은 N개의 document를 re-ranking할 때 오직 2개의 forward pass만 필요하기 때문에,

API 호출 시간복잡도가 O(1)이라는 점에서 강력한 특징을 가집니다.

또한, LLM의 attention weight로부터 re-ranking과 관련된 의미 있는 신호들을 파악할 수 있었다고 합니다.

예를 들면, query와 passages 간의 contextualization signals, 모순 관계를 처리할 때의 reasoning signals, bridge entities 간의 information integration signals 등이 있죠.

이를 통해, LLM 기반의 re-ranking을 위해선 generative 방식이 절대적 방법이 아니라는 것을 보여주며 가설을 뒷받침하고,

open-weight 모델들을 더 잘 활용할 수 있는 방법을 제시한다는 점에서 많은 의의가 있는 논문입니다.

Method

In-Context Re-ranking architecture

In-Context Re-ranking (ICR)은 크게 3단계로 진행됩니다.

1단계 : LLM Prompting

attention weights을 얻기 위해, LLM에 document와 search query를 주며 query에 맞는 답을 출력하라는 프롬프트를 작성합니다.

논문에서는 LLM에서 흔히 볼 수 있는 Question Answering (QA) 작업과 Information Extraction 작업에 대해 진행했습니다.

LLM의 position bias 현상을 타파하고자 query 내용을 프롬프트 마지막에 작성한 점이 인상적입니다.

< QA 지시 프롬프트>

<prefix>Here are some paragraphs. Please answer the question based on the relevant information in the paragraphs.

[1] Document 1 Christopher Allen Sale (born March 30, 1989), nicknamed The Condor, is an American professional baseball pitcher ~~~
...
[20] Document 20 Klay Thompson Klay Alexander Thompson (born February 8, 1990) is an American professional basketball player ~~~

Query: What relationship does Fred Gehrke have to the 23rd overall pick in the 2010 Major League Baseball Draft?<suffix>

<IE 지시 프롬프트>

<prefix>Here are some paragraphs.Please find information that are relevant to the query.

[1] Ukraine and the United Nations
The Ukraine ~~
...
[20] Council of People's Ministers
The Council ~~~

Query:Ukrainian Soviet Socialist Republic was a founding participant of theUN.<suffix>

2단계 : Attention Aggregation

"LLM은 쿼리를 처리할 때 관련 있는 documents들의 토큰에 평균적으로 더 강한 가중치를 줄 것이다"의 가설처럼,

연구진들은 documents 내 각 토큰이 쿼리로부터 받는 어텐션 가중치를 계산하기 위해 가중치를 전부 합해버리는 방식을 설계했습니다.

이에 따라, LLM의 L번째 층, H번째 attention 헤드에서 i번째 document를 이루는 토큰들 중 j번째 토큰에 대한 ranking score는

다음과 같습니다.

ranking score

공식에서 사용하는 I_q는 쿼리 Q에 대한 토큰 인덱스 집합을 뜻합니다. 공식을 다시 보면, 모든 층, 모든 어텐션 헤드에서 쿼리 Q에 대해 i번째 document와의 어텐션 가중치 합이라는 것이라 이해할 수 있습니다. (저는 이해하는데 1시간이나 걸렸네요;;)

그리고, 각 쿼리 토큰의 어텐션 가중치 합은 항상 1이라는 특징 때문에, 이 Attention Aggregarion 전략은 length bias 이슈(더 긴 document가 더 높은 점수를 받는 편향)를 피한다는 것 또한 언급하고 넘어가네요.

코드로 살펴봅시다.

score_documents 메서드에서, 각 레이어마다 반복하며 어텐션 가중치를 구하고 있다.

attention weights를 구하는 메서드. 557번째에서 보듯, query와 key 간의 내적 행렬을 attn_weights로 사용하고 있다.

_get_attn_weights를 통해 query_states와 key_states 간의 내적을 이용한 어텐션 가중치 (attn_weights) 행렬을 리턴함을 확인할 수 있습니다.

이를 score_documents 메서드에서 layer 만큼 반복하면서 최종 리스트에 누적시킴을 볼 수 있습니다.

3단계 : Ranking Score Calibration

이 단계는 LLM의 다양한 편향을 보정하기 위한 단계입니다.

이상적인 re-ranker는 아무 내용도 없는 쿼리에 대해 모든 documents에 동일한 점수를 부여해야 한다는 점에서 착안하여 가중치 값을 보정하는 단계입니다.

먼저, "N/A"라는 아무 내용도 없다는 쿼리 (Q_cal)을 사용해서 어텐션 가중치를 계산한 후 ranking score를 얻습니다.

그 후, 2단계에서 구했던 실제 쿼리로부터의 ranking score 점수에서 "N/A" 쿼리에 대한 ranking score를 빼서 보정된 점수를 얻습니다.

2단계에서 3단계를 뺀 값이 최종 스코어!

마지막으로, i번째 Document에 대한 attention weights들 중, 비정상적으로 낮은 calibration 점수를 보이는 것들은 가중치 합에서 제외함으로써 최종 점수를 얻습니다. 이는 추후 discussion에서 다시 한번 언급하지만, calibration 점수가 base LLM의 intrinsic bias를 잘 보여주기에 제외할 수 있다고 언급합니다.

비정상적으로 낮은 점수들은 제외한 값들로 최종 합을 구한다.

Experiments

논문에서는 ICR 방법을 평가하기 위해 open-weight LLM을 사용한 single-hop과 multi-hop re-ranking 작업을 각각 관찰했습니다. 이뿐만 아니라, 효율성과 성능에 대한 scaling 트랜드를 평가하고, ICR에서의 attention aggregation과 calibration 과정의 효율성도 보여주고자 합니다.

또한, zero-shot baseline 모델로는 RankGPT로 선정했는데, 이는 추가적인 학습비용이나 추론비용이 들지 않는 모델 중 가장 대표적인 모델이기 때문이라고 합니다.

Base LLMs : open-weight LLM들 중 Mistral 7B와 Llama-3.1 8B로 선정했습니다.
Datasets
- Single-hop : TREC, BEIR (9개의 public datasets)
- Multi-hop : MuSiQue (answerable), 2WikiMultiHopQA, HotpotQA
Metrics
- Single-hop : BM25 (for re-rank the top 100 documents), nDCG@10 (measure)
- Multi-hop : ColBERT v2 (for re-rank the top 20 retrieval results), recall@2 / recall@5 (measure)

Single-Hop Re-ranking

GPT-3.5 Turbo나 GPT-4o mini 같은 주류 모델에 비해, RankGPT와 같은 open-weight LLM은 지시 수행률에 있어 상대적으로 낮은 성능을 보입니다. 하지만 ICR은 open-weight LLM을 이용하더라도 견줄만한 성능을 보이기에 더욱 많은 의미를 가집니다.

표에서 볼 수 있듯이,

Mistral 7B, Llama-3.1 8B에서의 RankGPT와 비교했을 때 ICR이 대체적으로 더 좋은 점수를 가지는 것을 알 수 있습니다.

특히, 우측의 Micro-Avg는 두 모델에서 각각 13.3p / 8.4p, Macro-Avg는 6.5p / 0.5p 높은 점수를 보이며 ICR의 성능을 여실히 보여주고 있습니다. 표 하단의 RankGPT (GPT-3.5 turbo / GPT-4o mini) 와도 비교했을 때 비슷하거나 더 좋은 점수를 보인다는 점에서 open-weight LLM으로부터의 re-ranking 신호를 활용할 수 있다는 잠재력도 확인할 수 있습니다.

재밌는 점은, Mistral 7B는 Llama-3.1 8B와의 RankGPT 성능이나 Success Rate를 비교하면 현저하게 낮은 성능을 보인다는 것을 알 수 있는데, ICR은 오히려 성능이 더 낮은 Mistral에서 더 큰 성능 폭을 보이고 있습니다. 위에서 말한 것처럼, ICR은 text generation과 무관한 방법이기에, 낮은 text generation을 보이는 모델에서도 re-ranking 신호들을 효율적으로 활용하고 있음을 확인할 수 있는 셈입니다.

한편, ICR은 FiQA, SciFact, 그리고 FEVER에서 특히 더 좋은 점수를 받았는데,

FiQA는 검색된 패시지의 정확한 의미나 관련성은 원래 질문인 쿼리와 함께 읽어야만 완전히 이해될 수 있기에, 높은 점수는 ICR이 복잡한 re-ranking 작업에서도 더 효율적인 성능을 보인다는 것을 나타내고,

SciFact와 FEVER은 패시지가 특정 사실을 지지하거나, 아니면 모순되기 때문에, 여기서의 높은 점수는 좋은 추론 능력을 가지고 있음을 나타냅니다.

반면에, ICR이 다소 낮은 점수를 보이는 벤치마크도 있습니다. 바로 DBPedia-Entity인데, 이는 ICR의 단점 중 하나인 '어휘적 편향 (lexical bias)'에 기인한 결과라고 추정합니다. 주로 쿼리와 높은 어휘 중복을 보이는 방해 문서가 존재할 때 ICR의 성능을 저하하는 현상인데, DBPedia-Entity에서 흔히 발생하는 현상이라고 합니다.

Multi-Hop Re-ranking

Multi-Hop Re-ranking에서도 Single-Hop과 비슷한 경향을 보여줍니다.

3개의 벤치마크 데이터에 대하여, ColBERT v2로부터의 retrieval 결과들을 re-ranking 진행했을 때 RankGPT와 ICR 모두 대체적으로 향상된 점수를 얻었습니다. Single-Hop과 비슷하게, ICR이 RankGPT보다 모든 항목에서 더 높은 점수를 받았다는 점이 인상적입니다.

(R@2에서는 5~6%, R@5에서는 2~4% 더 좋은 점수를 받았네요.)

또한, RankGPT (GPT-3.5 Turbo / GPT-4o mini)와 비교했을 때도 거의 동일한 점수를 보여준다는 점에서도 ICR의 강점을 뒷받침해줍니다.

Multi-hop Re-ranking에서의 성능을 더욱 잘 이해하기 위해, 연구진들은 All-Recall@5 값도 함께 비교했습니다. 일반적인 Recall@K가 상위 K개 결과 내에 관련 문서가 하나라도 포함되면 성공으로 보는 반면, All-Recall@K는 모든 관련 문서가 상위 K개 내에 포함되어야 성공으로 간주하는 더 엄격한 지표입니다.

이 때에도 ICR이 대체적으로 RankGPT보다 좋은 점수를 받음으로써 documents간의 관계를 더욱 잘 이해하고 있다는 것을 보여줍니다.

Scaling Trend of Speed and Performance

이전에 언급했듯이, O(N) 개의 forward pass를 가지는 RankGPT에 비해, ICR은 오직 2개의 O(1) forward pass만 필요로 합니다.

이는 당연히 latency 성능에도 직결되기에, K개의 documents를 re-ranking할 때의 RankGPT와 ICR의 속도 차이를 비교해봤습니다.

그래프에서 볼 수 있듯이, ICR이 RankGPT보다 최소 2배 이상 빠른 Latency를 보입니다. 그러면서도 RankGPT는 K=40 이상부터는 성능이 향상되지 않는 반면, ICR은 꾸준히 향상되고 있음을 보여줍니다.

Attention Aggregation과 Calibration 과정의 효율성

마지막으로, ICR의 Attention Aggregation과 Calibration 각각의 과정이 re-ranking 성능에 어느 정도 영향을 주는 지 확인하고자 각 과정을 제거한 버전과 포함한 버전 간의 점수 비교를 진행했습니다. (Ablation Study)

표에서 볼 수 있듯이, Aggregation, Calibration을 각각 제거한 버전과 포함한 버전 간 많은 차이가 벌어짐을 볼 수 있습니다. 이것이 각 과정이 ICR의 좋은 성능을 위한 필수적인 요소임을 뒷받침합니다.

Discussion

1. Calibration이 ICR 성능을 높일 수 있는 이유

앞서 Method에서도 설명했듯이, "N/A" 쿼리를 이용한 Calibration 방법은 이상적인 re-ranker는 아무 내용도 없는 쿼리에 대해 모든 documents에 동일한 점수를 부여해야 한다는 점에서 착안했습니다. 그러므로, calibration 점수에서 특정 점수가 균일한 분포를 벗어났다는 것은 곧 base LLM의 내적 편향을 반영하고 있습니다.

(좌) 20개의 Document 입력에 대한 평균 calibration score (우) passage token 별 calibration score 표시

평가에 사용된 20개의 Document에 대한 calibration ranking score를 확인해보니, 좌측 그래프처럼 초반부나 후반부에 입력된 document들의 점수가 평균으로부터 멀리 있음을 알 수 있습니다. 이를 통해 lost-in-the-middle 이슈와 같은 position bias가 기존 LLM에서 나타나고 있음을 유추할 수 있습니다.

ICR의 Calibration score는 이러한 bias들을 보정해줌으로써 RankGPT에 비해 더 나은 성능을 보일 수 있습니다.

또한, ICR은 모든 토큰들로부터의 ranking score를 합하여 관련도를 결정하기에, 이 점수들은 ICR의 내부 연산 과정을 직접적으로 나타내기도 합니다.

이러한 특징 덕분에, 우측 예시 문단에서 볼 수 있듯이, 기존 LLM 모델의 intrinsic bias들을 calibration ranking score로부터 잡아낼 수 있습니다. 예시 문단처럼, Llama3.1 8B는 문단의 Title, Entity, Punctuation 에 더 많은 가중치를 주는 편향성을 가짐을 알 수 있습니다.

2. ICR은 어떤 Re-ranking 시그널들을 활용할까?

실험 결과를 비춰볼 때, ICR은 RankGPT보다 대부분의 single-hop 데이터셋 (FiQA, FEVER, SciFact)과 모든 multi-hop 데이터셋에서 높은 성능을 보였습니다.

Query-Passage Contextualization (쿼리와 패시지 간 문맥화)

BEIR 벤치마크 중 FiQA는 다른 데이터셋과는 달리 쿼리에 대한 답변을 인간이 작성했기에, 패시지만 보고 독립적으로 적정한 정보를 찾기 어렵고, 쿼리와 패시지 간의 문맥을 이해해야 올바른 정보를 추출할 수 있습니다. 때문에 보편적인 QA 데이터셋보다 더욱 복잡함을 요합니다.

ICR은 이런 FiQA에서 매우 강점을 보였습니다.

위의 그림은 "How to read bond yield quotes? What do the time, coupon, price, yield, and time mean?" 이라는 쿼리에 대해, BM25(B), RankGPT(R), ICR (I)가 매긴 랭킹을 보여줍니다. 쿼리 자체가 bond yield quotes를 읽는 법, time, coupon 등의 단어가 의미하는 정의를 질문하고 있다는 것을 알 수 있습니다.

첫 번째 패시지를 보면, RankGPT는 10등으로 매긴 반면, ICR은 1등으로 점수를 부여했습니다. 이는 단순히 쿼리에 들어있는 단어 토큰이 해당 패시지에 많이 들어있어서 나온 결과가 아니라, "Coupon is", "Price is", "Yield is" 와 같이 "is" 라는 토큰 또한 이해함으로써, 해당 내용에서는 Coupon / Price / Yield 에 대한 정의를 알려주는 패시지라는 것을 이해하고 있음을 알려줍니다. 실제로 해당 패시지는 쿼리에서 묻는 정보들을 대부분 담고 있죠.

이에 비해, 두 번째 패시지는 RankGPT는 1등, ICR은 2등으로 부여했습니다. 패시지 내에선 쿼리에서 나온 The, coupon, quoted 등의 단어가 많이 나오긴 하지만, 쿼리가 묻는 정보와는 적합하지 않음을 알 수 있죠.

ICR이 이러한 덜 관련 있는 패시지에 대해서는 더 약하고 분산된 어텐션 패턴을 보였다고 설명합니다

Contradiction-Based Reasoning (모순 기반 추론 능력)

연구진들은 ICR이 특히 검색된 구절과 모순되는 주장에 대해 잘 작동한다고 설명합니다. FEVER 벤치마크 데이터셋에 대해, ICR은 Contradiction 예시들에 대해선 RankGPT보다 26% 더 나은 성능을 보이는 반면, 지지 (Support) 예시들에 대해선 9% 더 나은 성능을 보입니다.

이러한 이유에 대해, 쿼리와 모순되는 주장을 가지는 패시지들은 어휘 중복성이 더 낮기 때문에 추론 과정이 어렵지만, ICR은 RankGPT 보다 모순되는 패시지들을 효율적으로 추론한다는 것을 알 수 있습니다.

예시를 보면, 특정 영화의 감독이 Krzysztof Kieslowski라는 쿼리에 대해, 모순되는 정보를 지닌 첫 번째 패시지에 BM25, RankGPT는 각각 11위, 28위를 부여했으나, ICR은 모순된 패시지임을 파악하고 1위를 부여했음을 보여줍니다. 실제로 패시지에서는 해당 영화의 감독이 다른 사람임을 나타내고 있죠.

Multi-Hop Information Integration

ICR은 여러 패시지들을 관통하는 통합된 정보를 요구하는 multi-hop 작업에서 강력한 성능을 보입니다.

토큰 단위의 분석을 통해, 연구진들은 ICR이 특히 정보 통합 과정에 가장 중요한 bridge entity 토큰에 높은 랭킹을 부여한다는 것을 발견했습니다. 예시에서도 볼 수 있듯, First Hop과 Second Hop을 통합할 때 bridge 역할을 하는 Frederick Douglass 엔티티 토큰에 강하게 점수를 부여하고 있음을 볼 수 있죠.

이를 통해, ICR은 LLM의 multi-hop 추론 시그널도 활용하고 있음을 제시합니다.

Limitation

1. Lexical Bias (어휘 편향) 에 대해선 계속 어려워하고 있다.

ICR의 한계 중 하나는 Document 내 소수의 토큰과, 일부 Document에 대부분의 re-ranking 점수가 집중된다는 특성이 있습니다.

이로 인해, 대부분의 다른 문서는 점수를 거의 받지 못해 서로 구분이 어렵게 됩니다.

또 다른 한계로, 이러한 신호가 쿼리와 어휘적으로 유사한 구문에 대부분 집중된다는 경향이 있습니다.

이러한 어휘 편향 이슈는 문서 관련성이 단순 어휘적 유사성을 넘어선 문맥 간 유사성을 요할 때 성능 저하로 이어집니다.

평가에서도 DBPedia-Entity에서 이러한 문제가 성능 저하로 이어짐을 볼 수 있었습니다.

2. Open-weight LLM에서만 사용할 수 있기에, API 접근만 가능한 주류 LLM들에는 제한적인 방법이다.

ICR 기반의 re-ranking이 좋은 성능을 보여주지만, 아직까지는 현재 주요 LLM들을 이용한 RankGPT가 가장 좋은 성능을 냅니다.

References.

1. Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

2. Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

[Paper Review] Ignore Me But Don't Replace Me

R.i.c.K.y — Mon, 17 Feb 2025 02:31:01 +0900

이번에 리뷰할 논문은 NAACL 2024 findings에 등재된 논문입니다.

1저자이신 장우진님을 비롯한 대부분의 사람들이 빅데이터 AI 기업인 S2W Inc 소속이시고, 카이스트 NSS 연구실과 Indiana University Bloomingtom과 함께 진행했네요.

논문 보러가기 (Website)
요약 슬라이드 보러가기 (PDF)

결론

결론부터 찍고 내용을 살펴봅시다.

이 논문은 NLE (Non-Linguistic Elements) 요소를 pretraining함에 있어, 일반적인 도메인에서처럼 NLE들을 special token으로 대체하지 않고, NLE의 타입에 따라 선별적으로 마스킹하는 기법을 적용하여 더 높은 성능을 보였다는 게 핵심입니다.

Cybersecurity에서의 NLP

사이버 보안 관련 분야에서는 CTI, 즉 사이버 위협 인텔리전스 정보가 Key입니다.

CTI로부터 위협 관련 정보를 파악하고 빠르게 해결책을 수행해야하기 때문에 정확성과 신속성을 위해서라면 수동적이고 많은 노동력이 투입되곤 하죠.

이러한 노동력을 경감시키기 위해 자연어 처리 기법을 통해 계속해서 발전하는 CTI 정보들을 자동으로 식별하고, 의사결정을 하는 데 목적을 두고 있습니다.

Challenging Problems

하지만, 일반적인 도메인 문서들과 달리, Cybersecurity 도메인의 문서들은 보다 많은 전문적인 지식이 필요합니다.

또한, SHA 해시값, URL 주소 등의 NLE 요소가 일반 도메인의 문서보다 훨씬 더 많이 포함되어 있기에, 범용적인 도메인에서의 NLP 기법으로 접근하기엔 한계가 있어 보입니다.

SHA Hash, URL 등 비언어적 요소 (NLE)가 포함된 보안 관련 텍스트

논문에서도 위 2가지 문제에 대해, 도메인 특화 pretraining으로는 NLE를 식별하지 못함을 시사했습니다.

전문적인 지식이 필요하다. => 도메인 특화 데이터셋으로 pretraining하면 해결.
더 많은 NLE가 문서에 존재한다. => 도메인 특화 pretraining으로는 한계가 있다.

NLE 분류가 pretraining으로도 어려운 이유

생각해보면 당연합니다.

"모델을 학습시킨다"고 말할 때, 무엇을 학습시키는 지 생각해보면, 토큰 각각의 특징들을 학습시킨다고 말할 수 있습니다.

하지만 NLE (No-Linguistic) 토큰들은 언어론적인 의미를 가지지 않는데, 의미가 존재하지 않는 토큰을 학습하는 것이 효과가 있을까요?

더군더나, BERT 같은 MLM (Mask-Language Model)은 임의의 토큰들을 마스킹한 후, 해당 빈칸에 어떤 토큰이 들어가야 할 지 유추하는 tasks들에서도, SHA 해시값과 같은 의미 패턴이 없는 토큰을 추론한다는 것 자체가 말이 안된다고 생각합니다.

이렇게 의미가 없는 요소로 여겨지기에, 범용 도메인에선 이러한 NLE들을 <SHA>, <URL>과 같은 태그들로 변환한 후 pretraining을 하게 됩니다. 하지만 Cybersecurity에선 이런 NLE들이 가지는 의미가 상당히 중요하기에, 태그들로 가려진 채 학습된다면 치명적인 정보 손실 (information loss)을 가져오죠. 또한 모델도 NLE 자체를 인식하거나 활용하지 못하기에 성능 이슈도 있게 됩니다 .

논문에서는 이러한 문제점을 해결하기 위해 Pretraining에서의 새로운 학습 방식을 제시했습니다.

Method

NLE 타입 대한 정의

우선 수많은 NLE들을 학습하기 위해선, 이들을 분류할 수 있는 원형(Archetypes)을 찾아내야 했습니다.

즉 NLE들을 그룹지을 수 있는 타입을 정의한다고 볼 수도 있는데,

논문에서는 수많은 타입들 중 사이버 보안 분야에서 많이 볼 수 있고, 또 상대적으로 중요도가 높은 타입 7개를 선정했습니다.

7개 원형 : URL, EMAIL address, IP address, MD5 hashes, SHA hashes, BTC (Bitcoin), CVE (취약점)

SLE와 FNLE

또한, NLE를 의미에 따라 2가지로 분류할 수 있습니다.

적어도 Cybersecurity 도메인에서는, NLE라고 해서 모든 게 의미가 없는 요소는 아니기 때문이죠.

예를 들어, ricky-dev.tistory.com 이라는 NLE에 대해, 컴퓨터는 그저 알파벳의 조합으로 생각할수도 있지만,

우리들은 ricky라는 닉네임, dev라는 개발 관련 뜻, tistory라는 블로그 이름을 보면서 ricky라는 사람의 개발 블로그라고 의미를 유추해내기 때문이죠.

이처럼 NLE지만 정보를 지니고 있는 것들을 SLE (Semi-Linguistic Element)로 정의합니다.

반면에 SHA, MD5 같은 해시값이나, 66.249.65.224 같은 IP 주소는 의미를 내포하지 않은 NLE들을 FNLE (Full-Non Linguistic Element)라고 합니다.

위에서 정의한 7가지의 원형도 SLE와 FNLE로 분류할 수 있겠죠. URL과 EMAIL을 SLE, 나머지 5개를 FNLE로 구분지었습니다.

Pretraining Strategies

위에서 정의한 내용들을 바탕으로, 논문 연구진들은 총 6개의 pretraining 전략을 세운 후, 각각을 비교하며 최적의 성능을 내는 전략을 찾고자 실험을 진행했습니다.

Selective Masking (이 논문의 핵심 )

특히 주목해야 할 전략은 Selective Masking 전략입니다. MLM 시 NLE들을 마스킹하는 것이 의미가 없으니,

선택적으로 마스킹을 하자는 전략이라고 볼 수 있죠.

(좌) Vanilla MLM, (중) 모든 NLE 무시 (Mask-None), (우) FNLE만 무시 (Mask-Semis)

그림으로 함께 이해해봅시다.

왼쪽은 기존 MLM 처럼 NLE임에 상관없이 랜덤으로 선별된 토큰을 마스킹하는 전략입니다.

중간과 오른쪽 그림이 Selective Masking에 해당되는데, 여기서도 2가지 방식으로 나뉩니다.

Mask-None : NLE이기만 하면 무조건 Masking에서 예외시키는 방식
Mask-Semis : SLE는 의미가 있으니 Masking 의미가 있다고 여기고, 의미가 없는 FNLE만 Masking에서 예외시키는 방식

Method 전략 정리

Pretraining Strategies with Examples

Selective Masking을 포함한 6가지 전략을 정리하자면 다음과 같습니다.

Vanilla MLM : 기본 MLM 전략을 의미합니다. 전체 토큰 중 15%의 토큰을 마스킹한 후 추론하는 전략입니다.
Replace ALL : MLM 시 NLE 토큰들을 태그들로 대체하는 전략입니다. 기존에 가장 흔하게 썼던 전략입니다.
Vanilla + NLEC : MLM 전략에 NLE Classification도 함께 수행합니다. MLM이 완료되어도 NLEC 전략을 통해 모델에게 분류 학습을 지시할 수 있습니다.
Mask-Semis : Selective Masking 중 FNLE만 무시하는 전략입니다. SLE는 Masking 대상에 포함됩니다.
Mask-Semis + NLEC : Mask-Semis 전략에 NLE Classification도 함께 수행합니다.
Mask-None + NLEC : SLE,FNLE에 상관없이 NLE라면 Masking에서 무시하는 전략입니다. NLE Classification도 함께 수행합니다.

Pretraining Experiments

연구진들은 6가지 Pretraining 전략들을 Downstream Tasks와 Probing Tasks 수행을 통해 성능을 알아보는 실험을 진행했습니다.

Downstream Tasks

Downstream Tasks는 PLM (Pretrained-LM)의 실제 적용 가능성을 평가하기 위해 수행됩니다.

특히 Cybersecurity 도메인에서 PLM을 적용했을 때 CTI 분석, 악성코드 탐지, 취약점 분석 등과 같은 사이버보안 관련 작업에 얼마나 사용가능한지를 볼 수 있는 작업임에 의의가 있습니다.

실험에서는 PLM을 다음 3가지 모델 데이터셋을 통해 Fine-tuning하였습니다.

CyNER : malware 위협 보고서들로부터 얻은 NER 데이터셋
CySecED : The Hacker News 기사들로부터 얻은 이벤트 탐지 데이터셋
MalwareTextDB (MTDB) : MalwareTextDB에서 명시된 4가지 타입들에 대한 데이터셋

Downstream Task에서 좋은 점수를 받는다는 것은 PLM이 해당 분야의 지식을 잘 습득하고 활용할 수 있음을 보여줍니다.

Probing Tasks

Probing Tasks는 PLM의 모델 가중치의 성능을 평가함으로써, PLM이 얼마나 잘 학습했는지를 확인할 수 있습니다.

즉, 문법적 구조나 의미론적 관계, 혹은 특정 도메인 개념을 어떻게 이해하고 있는지 파악할 수 있죠.

이를 위해, MITRE라는 DB로부터 Cybersecurity와 관련된 NLE 토큰 226개를 선별하였습니다.

그 후, Validation Corpus에 선별한 226개의 토큰이 포함되었을 시 Masking 처리했습니다.

그 결과 총 77,983개의 토큰이 Masking 되었으며, 그 중 약 4,906개(약 6.2%) 토큰이 FNLE에 가까웠다고 합니다.

이렇게 수행된 MLM을 통해 모델 가중치의 성능을 평가했습니다.

Results

Downstream, Probing Tasks를 통해 수행된 각 전략들의 결과입니다. 데이터셋들의 유형에 따라 다른 매트릭을 사용했는데,

CyNER과 CySecED는 F1-Score, MTDB와 Probing Tasks는 Accuracy 를 사용했습니다.

Result of Pretraining Strategies

결과로부터 확인할 수 있는 점들이 몇 가지 있습니다.

1. NLEC (NLE Classification)은 성능 향상에 도움이 되지만, NLEC 자체만 활용하는 것은 눈에 띄는 성능 향상을 볼 수 없습니다.

Vanilla MLM에 비해 NLEC를 함께 쓴 전략이 더 높은 점수를 받았지만, 그 차이가 약 0.004~0.016으로 근소하고, 심지어 Probing Tasks에선 더 낮은 점수를 받기도 했습니다.

2. Selective MLM은 확실히 도움이 됩니다. 특히 NLEC와 함께 수행하면 성능이 더욱 향상됩니다.

표에서도 알 수 있듯이, Mask-Semis에 NLEC를 함께 수행한 전략이 가장 우수한 성능을 보여줍니다.

3. 기존 방식인 Replace All도 downstream에선 좋은 성능을 보여주지만, probing에선 저조합니다.

Downstream Tasks에선 Replace All 전략이 모든 전략들 중 2번째로 좋은 성능을 보여주는 것을 알 수 있습니다.

다만, Probing Tasks에서는 상대적으로 눈에 띄는 성능을 보여주진 못했습니다.

논문에서는 Probing Tasks 중에서도 특히 Near-FNLE 토큰들을 추론하는 성능이 안좋다고 하는데, 많은 FNLE들을 접해야 하는 Cybersecurity 도메인에선 좋지 않은 현상이라고 말합니다.

4. 모든 전략들에 대해 전반적으로 좋은 점수를 받지는 못했습니다.

전략들을 비교함에 있어서 상대적으로 우월은 가려지나, 모든 전략들의 전반적인 점수대가 Downstream은 0.5~0.8이고, Probing은 0.2~0.4정도에 그칩니다. 특히나 Probing Tasks 점수가 저조하다는 것은 NLE Pretraining MLM 추론 성능이 안좋다는 것을 의미해서 바람직하지 않은 결과인 것 같습니다.

이처럼 6가지의 전략들에 대한 성능을 비교하고, Mask-Semis와 NLEC를 함께 수행한 Pretraining 방식이 가장 좋은 방식이라고 연구진들은 판단했습니다.

CyBERTuned

CyBERTuned는 연구진이 위에서 찾은 Mask-Semis + NLEC 전략을 통해 Pretraining한 RoBERTa 기반의 모델입니다.

이 모델 또한 성능을 평가하기 위해 Downstream, Probing Tasks를 통해 진행했는데, 조금 더 다양한 범위의 Cybersecurity 작업들을 진행해보고자 여러 가지 모델 데이터셋으로 Fine-tuning을 진행했습니다.

CASIE : 보안 관련 뉴스 기사들로부터 얻은 이벤트 탐지 데이터셋입니다. 비전문가들을 대상으로 작성된 뉴스이며, 기사들은 Data breach, phishing, ransom, discover, patch로 분류됩니다.
TwitterThreats (TT) : 트위터에서 threat 관련 키워드가 언급되었는지에 대한 이진 분류 데이터셋입니다.
CYDEC : 트위터에서 cybersecurity 관련 키워드가 언급되었는지에 대한 이진 분류 데이터셋입니다.

CyBERTuned Experiments

CyBERTuned의 성능 또한 평가하기 위해 Baseline 모델과의 비교를 진행했습니다.

Baseline 모델로는 Cybersecurity 도메인에서의 BERT 기반 모델 (CyBERT, CySecBERT)들과 RoBERTa 기반 모델 (RoBERTa-base, SecureBERT)들로 선택했습니다.

CyBERTuned Evaluation Results

실험 결과에서도 몇 가지 인사이트를 관찰할 수 있었습니다.

1. BERT 기반 모델들의 성능 저조

먼저, BERT 기반 모델들(CyBERT, CySecBERT)의 저조한 성능이 눈에 띄었습니다.

CyBERT는 5개의 모델들 중 가장 저조한 점수를 받았고, CySecBERT는 CyBERT보다는 나은 점수지만, 여전히 다른 모델들과 비교했을 때 낮은 점수를 받았습니다.

이것이 가지는 의미는 중요합니다. Cybersecurity 도메인 데이터셋으로 Fine-tuning한 모델이 순수 RoBERTa 모델보다 성능이 안나온다는 뜻이 되니까 말이죠.

또한, CyNER에서 BERT 기반 모델들이 다른 모델들의 성적보다 안 좋은 이유에 대해, 연구진들은 토크나이저 방식에서 기인한다고 합니다. BERT 모델은 토큰화 과정에서 대소문자를 각각 처리하지 않고, 소문자로 처리한 다음 토큰화하는데, 대소문자 구별이 중요한 NER 특성 상 더욱 낮은 점수를 받은 원인이라고 보고 있습니다.

2. SecureBERT의 좋은 성능

SecureBERT는 특정 Task에서 CyBERTuned보다 높은 점수를 받은 유일한 모델입니다. SecureBERT가 높은 점수를 받을 수 있는 이유로써, 해당 모델은 토크나이저를 커스텀하는데, 이것이 성능에 이점을 준다고 연구진들은 말합니다.

3. 그러나, 전반적인 퍼포먼스는 CyBERTuned이 가장 우수

CyBERTuned는 모든 태스크에서 1등 혹은 2등의 점수를 보여주며 전반적인 Tasks들에 대해 높은 활용 가치를 보여주었습니다.

Discussion

논문에서는 Discussion에 대해 여러 토픽들을 시사합니다. 그 중 재미있는 내용들만 보자면,

1. RoBERTa 모델의 성능

RoBERTa 기반 모델들이 전반적으로 좋은 성능을 보여주고, 심지어 특정 태스크에서는 Domain-pretrained 모델보다도 좋은 성능을 보여주었습니다. 이를 통해, 적어도 Cybersecurity 도메인에서는 도메인 관련 데이터셋을 Fine-tuning하는것만 진행한다고 모델의 성능과 직결되지는 않는다는 것을 시사합니다.

또한, CYDEC의 Human score는 0.59, TwitterThreats는 0.66으로 측정되었는데, 위의 표에서 보여준 5개의 모델들의 점수가 모두 Human score보다 높은 것을 알 수 있습니다. 지표만 놓고 봤을 때는 모델의 성능이 인간보다 좋게 측정됨을 보여줍니다.

2. 다른 도메인에서의 NLE

이번 실험은 Cybersecurity 도메인의 NLE로만 진행하였기에, 다른 도메인에서는 이번 실험에서의 성능과 비슷한 양상을 보일 지 알 수 없습니다. 특히나, Cybersecurity에서의 NLE들 중에서는 SLE와 같이 정보가 포함된 NLE들도 있기에 좋은 점수를 받았을지도 모르죠.

이에, NLE 분류의 성능은 NLE가 정보를 얼마만큼 포함하고 있는 지에 의존한다는 것을 시사합니다.

논문 총평

논문에서 제시한 Selective Masking 기법에 대해 보고는, 참신하다는 생각이 들면서도, 기존 replace 방식으로 NLE를 처리한다는 것에 의문을 느끼고 아이디어가 나왔다는 점에서 인상깊었습니다.

Cybersecurity에서도 생각보다 NLP를 다양하게 활용할 수 있음을 볼 수 있었던 좋은 case인 것 같네요.

다만, 생각보다 실험 점수가 높게 나오지는 않아 의아했습니다. 후속 연구가 기대되는 논문인 것 같군요.

LoRA: Low-Rank Adaptation

R.i.c.K.y — Thu, 6 Feb 2025 04:07:44 +0900

LoRA?

LoRA (Low-Rank Adaptation)은 PEFT (Parameter Efficient Fine-Tuning) 방법의 하나로써,

모델을 학습시킬 때 전체 가중치를 업데이트하는 것이 아닌, 일부 파라미터만 효율적으로 학습시킴으로써 GPU 메모리 사용량을 획기적으로 줄일 수 있는 방법이다.

특히나 요즘같이 LLM과 같은 기반 모델의 크기가 매우 커지면서 FFT (Full Fine-Tuning)을 한정된 GPU 메모리 속에서 진행하기 힘든 시기에 PEFT 기법이 많이 주목받았는데, LoRA는 그중에서도 FFT에 비해 상대적으로 준하는 성능을 보이기에 더욱 사랑받는 기법이다.

기존 방법의 문제

앞서 설명했듯이, 기존에는 전체 가중치를 업데이트하면서 학습시켰는데 (FFT), 이를 위한 메모리 사용량이 매우 커진다.

LLM은 더욱 확연하게 체감할 수 있는데, 논문에서는 GPT-3 175B를 예시로 든다.

175B면 약 1750억개의 파라미터로 구성되어 있다는 건데, 학습하자고 행렬곱을 몇 번을 때려야 하는지 벌써부터 상상이 안 간다.

물론 사람들이 주구장창 학습이 완료될 때까지 FFT를 기다린 것은 아니다.

많은 사람들이 일부분의 파라미터만으로 학습시키려는 PEFT 방식을 연구했지만, 초기 PEFT 방식들은 inference latency가 많이 발생했기에 한계가 있었다. 무엇보다도, 성능마저 현저히 저하되기에 더더욱 효율적인 기법이 필요했다.

방법

LoRA를 만든 Edward Hu를 비롯한 연구진들은 다음과 같은 생각으로부터 LoRA 기법을 떠올렸다고 한다.

학습된 over-parametrized model이 실제로는 낮은 고유 차원 (Low Intrinsic Rank)에 있음을 많은 논문들이 보여주네..?
그럼, fine-tuning을 위해 사용되는 가중치들의 변화 또한 낮은 고유 차원이지 않을까?

아래는 논문에 적힌 LoRA의 원리다.

LoRA allows us to train some dense layers in a neural network indirectly by optimizing rank decomposition matrices of the dense layers' change during adaptation instead, while keeping the pre-trained weights frozen.

즉, pre-trained 모델 가중치는 그대로 두고, update 해야 할 가중치들(W 기울기) 행렬을 재구성하여 최적화하는 방법이다.

기존 FFT 방법과 LoRA 방법 비교 - 네모(W')가 사다리꼴 2개 (A, B)로 쪼개지면서 가벼워졌다.

특징

우선 장점은 명확하다. GPU 메모리 사용량이 현저하게 줄어든다.

비록 모델 파라미터는 FFT와 비교 시 동일할지언정, GPU 메모리를 사용하는 4대 요소 (모델 파라미터, Gradient State, Optimizer State, 순전파 상태) 중 Gradient와 Optimizer 상태값을 획기적으로 줄일 수 있다.

당연하다. FFT에서는 W (d차원 * d차원) 만큼의 파라미터를 학습시켰다면, LoRA는 A, B 2개의 행렬을 학습할지언정 (각 d차원*r차원), 파라미터 수가 수십억 대인 LLM 세계에서는 엄청난 절약인 거다.

GPT-3 175B 기준, LoRA의 학습 파라미터 수가 FFT의 0.01%라니까... 말 다했다.

또한, 저렴한 비용으로 task 간 Context Switching을 할 수 있다는 것도 큰 특징이다.

이 역시 모든 파라미터가 아닌 특정 가중치들만 교환하기 때문에 가능한 일이다.

게다가 대부분의 파라미터에 대한 기울기 계산이 필요 없기에, 학습 속도도 FFT보다 빠른 성능을 보인다.

다만, 단점 또한 존재한다.

추가적인 inference latency를 없애기 위해 A, B 행렬을 W로 흡수하자고 선택하면, 이 A와 B가 다른 여러 task에 대한 입력을 배치로 처리하는 것이 어렵다.

Reference

LoRA arxiv : https://arxiv.org/abs/2106.09685

Cloudflare LoRA : https://www.cloudflare.com/ko-kr/learning/ai/what-is-lora/

kimjy99's blog : https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/lora/

AWS re:Invent 2024에 갔다 왔습니다.

R.i.c.K.y — Thu, 23 Jan 2025 02:35:01 +0900

re:Invent를 알고 계신가요?

Preface.

12월 1일부터 4일까지, 총 4일동안 Las Vegas에서 진행했던 AWS re:Invent 2024 행사에 다녀왔습니다.

저는 운좋게 AWSKRUG의 커뮤니티 참관단에 선정되어 re:Invent 참가 티켓과 숙소를 지원받아 많은 부담을 덜고 참석할 수 있었습니다.

이 글을 빌려, 행사 참석에 많은 도움을 주신 석찬님을 비롯한 AWSKRUG 오거나이저분들 및 히어로분들께 감사의 말씀을 드립니다.

re:Invent?

Keynote 직전 예쁜 컬러의 로고를 찍어봤습니다

re:Invent는 AWS가 주관하는 클라우드 행사로써, 전세계에서 가장 크게 열리는 IT 행사들 중 하나입니다.

'커봤자 얼마나 크겠어?' 라고 생각하시는 분들을 위해 숫자로 알아보자면,

60,000명 이상이 행사에 참석하기 위해 라스베가스를 찾았고,

Keynote 세션을 온라인 생방송으로 시청한 인원은 400,000명을 웃돈다고 합니다.

성대한 인원에 맞게끔, 4일 동안 900개 이상의 세션이 진행되었고, 이를 위해 3,500명의 발표자분들이 멋진 경험을 공유했습니다.

AUSG에 들어오기 전에는 이렇게 성대한 행사가 있었다는 것조차 몰랐지만, 멤버들의 빅챗을 듣고 한번쯤은 꼭 가보고 싶었는데,

이번 년도에 별탈없이 갔다올 수 있어 너무 좋았던 기억만 남는군요 :)

내가 미국을? Las Vegas를? re:Invent를 간다고???

24년 9월 즈음, 열심히 AUSG을 운영하고 있었던 제게 예상치 못한 선물을 받았었습니다.

'에이~설마 되겠어?' 라는 마음으로 아무 생각 없이 신청했던 re:Invent 참관단에 선정되었다는 것을 모닝콜 소리와 함께 자각한 순간,

그날 아침은 참으로 상쾌했던 기억이 나네요 ㅎㅎ

참관단 혜택은 엄청났습니다. 우선 re:Invent 참가 티켓을 지원해준다는 것부터가 말이 안되는 혜택이였습니다.

참고로, 24년 기준 re:Invent 참가 티켓은 $2,099 (한화 약 300만원)이니 엄청난 금액이죠.

거기에 KRUG와 히어로 분들의 배려로 5성급 호텔에서 편안하게 일주일을 머물 수 있었습니다.

가장 큰 혜택은, re:Invent 기간 동안 AWS Hero 분들과 Community Builder 분들과의 대화였습니다.

이 때의 시간은 감히 값으로 매길 수 없을 정도로 제게 너무나도 소중한 자산으로 남았습니다.

참고로, 이번이 저의 생애 첫 미국 여행이였습니다. 학생때부터 미국은 꿈으로만 생각했는데, 이렇게 갑자기 가게 될 줄 알았을까요?

Start

(좌) 가기 전까지 한번 더 돌리고 가라~는 마인드 (우) 공항에서 Datadog을 보니 너무 반가웠습니다.

비행기에서 내려 Las Vegas 공항에 첫 발을 내딛었을 때, 가장 먼저 눈에 들어온 것은 어이없게도 카지노였습니다.

Gambling의 도시라고 들었지만, 공항부터 보게 될줄은 몰랐네요 ㅎㅎ. 베가스에 왔음을 실감나게 해 준 장면으로 기억합니다.

(좌) 제가 지낸 Venetian 호텔 2층에는 운하가 있..네요 O_O (우) 호텔 수영장도 엄청 크고 화려했습니다

체크인하고 호텔을 둘러보려고 하는데, 호텔 속에서 길을 잃었습니다..

정처없이 걸으며 이곳저곳을 구경하는데, 호텔 속에 베네치아가 있는 듯한 운하가 눈을 사로잡았습니다.

알고보니 Venetian 호텔의 Canal은 베가스의 핫한 포토스팟 중 하나라고 하네요! 새삼 제가 엄청난 호텔에서 잔다는 것을 깨달았습니다.

다시 한 번 AWSKRUG와 현민님께 감사의 인사를 드립니다!

리인벤트 행사 소개에 앞서 라스베가스에 대한 첫 느낌을 끄적여봤네요.

본격적으로 리인벤트에서 경험했던 것들을 소개해 드리겠습니다!

All about re:Invent

Sessions

앞서 말씀드렸다시피, 이번 re:Invent에서는 900개 이상의 세션이 진행되었습니다.

저희가 흔히 생각하는 세미나 형식의 세션들은 물론, 직접 노트북으로 실습할 수 있는 Hands-On, 청중과 발표자가 서로 대화하며 진행하는 Peer Talk 등 다양한 형식으로 진행되었습니다.

저도 행사 기간동안 키노트를 제외하고 2개 정도의 세션을 들었습니다.

제가 요즘 관심있어 하는 Hallucination과 NER과 관련된 세션 위주로 들었는데, 너무 재밌었습니다.

그 중 재밌었던 세션 하나를 소개드려보자면,

(좌) 유튜브에서만 보던 걸 직관하다니! (우) Live Coding을 하며 진행...RESPECT

첫 번째로 들었던 세션은 다양한 세션 형식들 중 "Coding talk" 형식이였습니다. 실시간으로 코딩하면서 발표하는 형식이라니!

데모병을 앓고 있는 제게는 그 어려움을 익히 알고 있기에.. 보러 갔습니다.

그리고 이분들 역시 데모병을 피해갈 수는 없었나 봅니다. 중간에 에러도 나고, 오타도 많이 나고, 심지어 화면이 끊기는 이슈도 있었으니 말이죠 ㅋㅋㅋㅋ

그치만 실수를 웃어넘기며 자연스럽게 이어나가는 이들의 모습에서 프로페셔널하다는 생각을 갖게 되어 존경스러웠습니다.

결과적으로 보여주고 싶은 모든 것을 실시간으로 해내기도 했으니 말이죠!

re:Invent 2024에서 진행된 수많은 세션들의 녹화 영상은 Youtube에서 확인할 수 있습니다.

유익한 영상들이 많으니 관심있으신 분들은 시청하시는 것을 추천드려요!

Keynote

re:Invent의 꽃이라고 말할 수 있는 Keynote는,

AWS의 주요 인사들이 나와 새로운 기술과 제품들을 선보이는 자리이기도 하며, AWS가 추구하는 미래를 엿볼 수 있는 시간입니다.

행사가 진행되는 4일에 걸쳐 5개의 Keynote가 진행되었는데요, 저는 Matt Garman (AWS CEO)와 Dr.Swami (AWS VP of AI)의 키노트를 직관했습니다.

Mon : Peter DeSantis (AWS VP of Utility Computing)
Tue : Matt Garman (AWS CEO) - 주요 신기술 소개
Wed : Dr.Swami Sivasubramanian (AWS VP of AI and Data)
Dr.Ruba Borno (AWS VP of Global Specialists and Partners)
Thur : Dr.Werner Vogels (AWS VP, CTO)

(좌) 시작 1시간 전 모습. 제 뒤에도 엄청 줄서있었습니다;; (우) 대형 행사장이 청중들로 가득 차있습니다

제가 들었던 Matt Garman과 Dr.Swami의 키노트는 모두 오전 8시에 시작했는데요, 1시간 전부터 행사장에는 키노트를 들으려는 사람들로 가득 차 버릴 정도로 인기가 많습니다.

Matt Garman (AWS CEO)'s Keynote

Matt Garman (AWS CEO) in re:Invent Keynote

Matt Garman의 키노트는 여러 분야에서의 AWS 주요 업데이트를 소개하는 시간이였습니다.

다 듣고 난 지금, 2024년은 AWS에 굉장히 혁신적인 변화들을 소개하는 자리였다! 라고 평할 정도로 신기하고 흥미로운 기술들을 선보였습니다.

AWS Community Shout Out!

본격적인 시작에 앞서, CEO가 이례적으로 AWS Community Hero들을 비롯, 전 세계의 모든 AWS Community들에 감사를 표하는 말을 듣고 너무 감격스러웠습니다. 2024년은 AUSG라는 큰 커뮤니티를 운영하는 저로써, 그 가치를 인정해주는 듯한 CEO의 샤라웃은 감동 그 자체였습니다.

그 이후, AWS가 제공하는 여러 분야에 대한 주요 업데이트를 소개하였습니다.

Compute : Amazon EC2 Trn2 Instances 출시 (ML Training용 서버 인스턴스)
Database : Amazon Aurora DSQL 출시 (빠른 분산 DB), Amazon DynamoDB global tables 출시 (Multi-Region 지원)
Storage : Amazon S3 Tables 출시 (저장된 데이터들의 Metadata도 저장함으로써 Iceberg 테이블 검색 성능 개선)
Developer : Amazon Q 기능 업데이트(Unit Test 생성, Documentation 생성, 코드 리뷰, ...), Application Modernization

소개하는 대부분의 서비스들을 소개할 때마다 모든 관중들이 환호를 지르는데, 저도 덩달아 신이 났네요 ㅎㅎ

AI에 관심이 많던 저는 특히 이번 AWS의 AI 제품 업데이트에 많은 관심을 두고 지켜보았습니다.

CEO가 소개한 AI 업데이트는 3가지로 대두됩니다.

Amazon Bedrock Model Distillation (5배 빠른 Distillation + 더 싼 가격)
Amazon Bedrock Automated Reasoning checks (Factual Errors를 방지하는 자동 검수 기능)
Amazon Bedrock Multi-agent collaboration (여러 agent를 Orchestration & 병렬로 이용하여 좀 더 정확한 답변 제공)

저는 이 중에서 Automated Reasoning checks 기능이 상당히 매력적이였는데요,

Description of Automated Reasoning checks

최초로 LLM이 답변한 데이터에 대해, user가 사전에 정의한 정책이나 rules과 자동으로 비교해주는 기능입니다.

비교 시, 사실인 답변이라고 판정되면 Verified된 Output으로, 그렇지 않으면 regenerate를 요청함으로써 한 번 더 검토하는 기능이라고 설명할 수 있겠습니다.

그리고, 특별한 손님이 Keynote에 등장했습니다.

Andy Jessy (Amazon CEO)

전 AWS CEO이자, 현 Amazon CEO인 Andy Jessy가 Matt Garman을 지원사격하기 위해 강단에 섰습니다.

저는 단순하게 생각하고, '도와주기 위해 왔구나!' 라고만 생각했지만, 큰 오판이였죠..

생각하지도 못했던 선물을 들고 re:Invent에 들고 왔습니다.

Amazon의 자체 FM, Amazon Nova

바로 Amazon Nova입니다.

Amazon도 Foundation Model에 뛰어든 최초 순간이라서 경이로웠습니다.

기존 모델들에 비해 75% 더 비용 효율적이고, Distillation, Fine-Tuning 등에서도 강점을 보인다고 하는데, 많은 기대가 됩니다.

또한 벤치마크를 통해 다른 FM들과의 점수를 비교해줬는데, 대부분의 지표에서 우수한 성능을 보여 더욱 높은 기대를 가지게 됩니다.

Nova와 함께 이미지 생성 모델인 Amazon Nova Canvas, 비디오 생성 모델인 Amazon Nova Reel도 함께 출시했습니다.

이걸 보면서, 2025년에는 멀티모달 시장이 더욱 활성화될것이라는 전망을 느꼈습니다.

Dr. Swami Sivasubramanian (AWS VP of AI and Data)'s Keynote

Dr. Swami Sivasubramanian (AWS AI, DATA VP)

Day3 Keynote에는 Swami 박사님의 키노트를 들었습니다.

Bedrock, SageMaker과 같은 AWS의 AI 서비스들에 대한 신규 서비스 소개를 주로 맡아주었기에 설레는 마음으로 들었습니다.

듣고 나서는 이런 생각을 했습니다.

AWS가 AI 기술을 흡수하는 속도가 예년보다 빨라졌구나!

Amazon Bedrock에 새롭게 추가된 기능들

특히 Amazon Bedrock 의 업데이트에서 흡수력이 대단하다는 생각을 했습니다.

Model : Nova 출시, Stable Diffusion 3.5 도입, Marketplace 출시

최적화 : Prompt Caching, Intelligent prompt routing

Data Customize : GraphRAG 지원, KG-based Structured Data Retrieval

Safety AI : Multimodal toxicity

저의 개인적인 총평

AWS가 AI 시장에 본격적으로 뛰어들려고 하는구나
Nova 소개할 땐 정말 놀라움을 감추지 못했다.
많은 신기술들을 흡수하려는 노력이 엿보이는데, 이미 선점한 기업들과의 대결이 기대된다.
일단 인도인들이 지배한 건 확실하네 (새삼)
Keynote 연사자들이 신기술 소개하기 전 빌드업치는게 재밌다.

오늘은 키노트의 주요 내용들을 기준으로 적어봤는데요,

다음 포스트에선 리인벤트에서 즐겼던 다양한 행사들과 네트워킹 파티! 그리고 리인벤트에 갈 수 있었던 방법을 소개해보려고 합니다.

Multi-Head Attention

R.i.c.K.y — Wed, 22 Jan 2025 03:01:45 +0900

이해가 되지 않았다.

기본적인 Attention에 비해, Multi-Head Attention이 갖는 이점에 대해 물었을 때,

가장 먼저 들은 건 "병렬성", 그리고 "다양한 관점에서의 문장 해석"이였다.

병렬성이라는 특징은 수긍이 되었다. Query, Key, Value 각각에 h개의 헤드를 동시에 수행함으로써 이루어지는 특징이기에 빠르게 이해가 되었다.

문제는 "다양한 관점에서의 문장 해석"이였다.

물론 직관적으로는 이해가 되었다.

"Query, Key, Value 각각에 여러 헤드가 들어가있으니 한 개만 들어간 것보다는 다각적으로 볼 수 있겠지" 라는 직관이 들었다.

허나 원리적으로 이해가 되지 않았다. Self-Attention을 예로 들 때,

"I have a pencil" 이라는 입력이 있다고 하면, 임베딩을 했을 때의 벡터가 정해진 차원만큼 변환될 텐데,

하나의 입력으로부터 여러개의 임베딩 벡터를 어떻게 뽑아내지? 가 나의 궁금증이였다.

결국 병렬적으로 수행한다는 것은, 여러 개의 Query 벡터들이 서로 다른 값을 가지고 있어야 유의미한 것인데,

내 머리속에선 각각 다른 임베딩 함수를 이용하여 도출하는 것이 아닌 한, 하나의 입력 시퀀스에선 하나의 임베딩 벡터가 나올 것이니 이해가 되지 않았던 것 같다.

원래 한 덩어리였던 것을 h개로 분할한 거였다.

답은 이 블로그에서 찾았다.

하나의 입력 시퀀스에서 다양한 벡터들을 뽑아내는 것이 아니라, 원래 한 덩어리였던 헤드를 h개로 분할한 후, 각각 어텐션을 취한다고 한다.

이렇게 하면, 기존의 단일 Query, Key, Value에 혼재되어있던 다양한 특징들이 분리되어서 어텐션을 수행하므로, 더욱 특징들 각각에 집중한 결과를 도출할 수 있게 되기에, 책에서 설명한 "다양한 관점에서의 문장 해석"에 대한 이해가 더욱 잘 되었다.

마치 Divide-and-Conquer 알고리즘처럼, 각각을 분할하여 어텐션을 수행한 후, 결과들을 concatenate함으로써 멀티 헤드 어텐션을 수행한다는 것을 깨달았다.

[리뷰] GPT-4 for Defense specific Named Entity Extraction

R.i.c.K.y — Thu, 4 Jan 2024 02:55:54 +0900

GPT-4의 특정 도메인 내 NER 성능 평가와 관련된 블로그를 읽고 요약과 더불어 리뷰를 덧붙여본다.

원문 블로그 링크

: https://medium.com/@anthony.mensier/gpt-4-for-defense-specific-named-entity-extraction-47895b7fed6d

Summary

Title : GPT-4에서 보안 도메인에 특화된 Named Entity 추출

GPT-4가 최근에 등장했음에도 불구하고, LLM은 이미 다양한 산업 분야에서 혁신을 가져오고 있음.
하지만 범용적 분야가 아닌 특화된 분야에서의 보안적 취약점은 아직 괄목한 만한 성과가 없음.
- 이유: 특화된 분야는 전문적인 지식이 필요하지만, GPT-4의 훈련 데이터는 상대적으로 범용적이기 때문

실험 목표

최근 US 국방 예산 문서들과 관련한 Knowledge graph를 구축하여, 이것으로부터 얻는 효율성(efficiency)를 평가해보자. 이 Knowledge graph(KG)는 문서에서 언급된 다양한 item들의 공급망을 이해하는 데 도움을 줄 것이다.

(item은 여기서 중요한 정보를 뜻한다고 추측합니다.)

실험 방법

이 items들을 문서로부터 추출하고 명확하게 함으로써 GPT-4의 보안 분야에 특화된 entity 추출 및 명확화 능력을 평가한다.

실험

ChatGPT를 통해 GPT-4를 GUI 형식으로 이용하려다 보니 여러 제약 사항들이 발생한다.

임의로 파이프라인을 구축하질 못한다.
한 프롬프트에서 다른 프롬프트로 점진적으로 구축하려고 했는데, GUI는 한계가 있다.

따라서, ChatGPT API를 사용하여 더 견고한 지식 추출 파이프라인을 만들었다.

파이프라인 구축

Scrapper

첫 번째 구성요소 : 온라인 자료들을 효율적으로 긁어올 수 있는 스크래퍼

Extractor

DefenseOne이란 사이트에서 최신 미국 국방 예산 자료들을 얘기하는 짧은 기사를 선택했다. 이 문서가 Base text가 된다.

위 자료로부터 중요한 entity들을 추출한다.
1. 이 entity들은 지식 그래프를 형성하는 데 중요한 지표들이 된다.
중요한 entity에 해당하는 것들이나 도메인에 특화되지 않는 것들은 쉽게 뽑아내버렸다.
1. 일반적인 NER 모델들로도 쉽게 추출해버릴 수 있다.
도메인에 특화된 entity들은 “zero-shot learning”이라 알려진 기술을 시도한다.
1. 예를 들면 persons, civilian or military organizations, military equipment, …
2. 즉, 특정 훈련이나 예제들에 의지하는 것 없이, GPT-4의 custom NER tasks 능력을 평가해본다.
```
// PROMPT 내용 예시
"Could you extract all military equipment, civilian or military organisations and persons entities from the following text: "INSERT TEXT""
```

실험 결과

GPT-4는 거의 제시했던 모든 클래스들을 이해했다.
모델이 올바른 entities를 추출해내는지, 아니면 잘못 분류하는지를 측정하는 F1 score 역시 높게 측정된다. (약 85%의 추출 정확성)
그러나, 특정 entities들을 간접적으로 지칭하는 것들에 대해선 약간의 miss를 낸다.
Ex, “Biden administration”은 추출하면서 “the administration”은 추출 x

결론

아직 더욱 구체적인 테스트들을 거쳐가며 검증해야겠지만, 적어도 GPT-4의 개체 인식 능력에 대해 신뢰할 수 있는 자신감을 얻게 되는 실험이다.

리뷰

GPT-4는 향간에선 GPT-3.5에 비해 대폭적으로 많은 파라미터와 훈련 데이터로 학습했음에도 불구, 비례적인 성능 향상을 느낄 수 없다고 평가받기도 하지만, 3.5에 비해 Hallucination에 대한 성능이 눈에 띄게 좋아졌음을 체감한다. 특히 위와 같이 특정 도메인에서의 NER 성능을 zero-shot learning (unsupervised)을 통해 테스트했음에도 85% 이상의 추출 정확성을 보여주는 것은 감탄을 금치 못하게 한다.

다만, 3.5에서도 여실히 드러난 문제였지만 인과 관계를 통한 간접적으로 의미를 갖는 Entity들에 대해서는 인식 성능이 많이 떨어지고, GPT-4에서도 괄목할만한 성과를 보여주진 못한 것 같아 여전히 해결해야 할 문제가 남아있음을 시사한다는 점에서 흥미로운 글이였다.

Transformers Architecture

R.i.c.K.y — Wed, 3 Jan 2024 02:33:07 +0900

트랜스포머 아키텍처

원본 트랜스포머 아키텍처는 Encoder-Decoder 구조를 기반으로 한다.

Encoder

입력 토큰의 시퀀스를 은닉 상태(hidden state) or 문맥(context) 이라 부르는 임베딩 벡터의 시퀀스로 변환한다.

Decoder

인코더의 은닉 상태를 사용하여 출력 토큰의 시퀀스를 한 번에 하나씩 반복적으로 생성한다.

원본 트랜스포머 아키텍처는 기계 번역과 같은 Seq2Seq 작업을 위해 고안되었지만, 시간이 지나며 인코더와 디코더는 독립적인 모델로 발전되었다.

인코더 유형

텍스트 시퀀스 입력을 풍부한 수치 표현으로 변환한다.
한 토큰에 대해 계산된 표현은 왼쪽(이전 토큰)과 오른쪽(이후 토큰) 문맥에 따라 달라지는 Bidirectional Attention의 특징을 가진다.
텍스트 분류, 개체명 인식 등에 적합하다
BERT 계열이 대표적인 인코더 유형이다.

디코더 유형

시작 텍스트가 주어지면 가장 가능성 있는 다음 단어를 예측하는 식으로 시퀀스를 자동 완성한다.
한 토큰에 대해 계산된 표현은 오직 왼쪽(이전 토큰) 문맥에 따라 달라지는 Causal Attention, Autoregressive Attention의 특징을 가진다.
GPT 계열이 대표적인 디코더 유형이다.

인코더-디코더 유형

한 텍스트의 시퀀스를 다른 시퀀스로 매핑하는 복잡한 모델링에 사용한다.
기계 번역과 요약 작업 등에 적합하다.
BART, T5 모델이 대표적인 인코더-디코더 유형이다.

인코더

인코더 층의 종류

Multi-head Self-Attention Layer
Fully connected Feed-Forward Layer

셀프 어텐션 (Self-Attention)

각 토큰에 대해 고정된 임베딩을 사용하는 대신, 전체 시퀀스를 사용해 각 임베딩의 가중 평균을 계산하는 것.

각 임베딩의 가중 평균을 구하는 이유?

→ 문맥 고려 임베딩을 위해! (셀프 어텐션을 사용하는 이유)

time flies like an arrow → flies는 파리(fly)일수도, 날다(fly)일수도 있지만, 해당 토큰의 앞뒤 문맥을 통해 어텐션 가중치가 달라진다. 이를 파악하기 위해 가중 평균을 구한다.

어텐션 가중치 계산 방법

스케일드 점곱 어텐션 (Scaled dot-product Attention)
1. 각 토큰 임베딩을 Query, Key, Value 세 개의 벡터로 투영
2. 어텐션 점수를 계산. 유서도 함수를 사용해 Query와 Key의 유사도를 출력한다.
  쿼리와 키가 비슷하면 점곱 결과가 크고, 아니면 작다.
  이 단계의 출력을 어텐션 점수라 하며, n개의 입력 토큰의 경우 n*n 행렬로 표현
3. 어텐션 가중치를 계산. 어텐션 점수에 스케일링 인자를 곱해 분산을 정규화한 후, 소프트맥스 함수를 적용해 모든 열의 합이 1이 되게 만들어준다. 이렇게 만들어진 n*n 행렬에는 어텐션 가중치가 담긴다.
4. 토큰 임베딩을 업데이트한다. 어텐션 가중치가 계산되면 이것을 값 벡터와 곱해 업데이트된 표현식을 얻는다.

의의

동일한 쿼리와 키 벡터를 사용하는 어텐션 메커니즘은 문맥에서 동일한 단어, 특히 현재 읽어들인 단어에 매우 큰 점수를 할당한다.

한계

하지만 실전에서는 단어 그 자체보다 앞뒤 문맥의 단어들이 해당 단어의 의미를 파악하는데 더 큰 도움을 준다.

앞뒤 문맥의 단어들과의 관계를 통한 의미 추출을 어떻게 만들 수 있을까? → 멀티 헤드 어텐션

멀티 헤드 어텐션

왜 싱글 헤드만 사용하면 안될까?

: 편향 방지를 위해서.

한 헤드의 소프트맥스가 유사도의 한 측면에만 초점을 맞추는 경향이 있기 때문에, 여러 개 헤드가 있으면 모델은 동시에 여러 측면에 초점을 맞추게 된다.

예) 헤드1 → 주어-동사 상호작용에 초점, 헤드2 → 인접한 형용사에 초점

마치 합성곱 신경망처럼, 각 헤드들이 동시에 특정 부분에 포커싱을 하기 때문에 편향성을 많이 줄인 채로 정확한 분석을 할 수 있게 된다.

컴공생의 2023 회고.

R.i.c.K.y — Tue, 2 Jan 2024 00:52:43 +0900

안 끝날것처럼 버티던 23년도 결국 끝나버렸다.

나중에 돌아봤을 때 23년 한 해를 헛되게 살진 않았음을 기억하고자 회고를 간단히 써보려 한다.

Conferences.

(좌) NHN Cloud Conference, (중) 23 AI EXPO Korea, (우) Cloud Native Sustainability Week in Seoul

우선, 23년동안 무엇을 가장 많이 활동하였는가? 라고 묻는다면 가장 먼저 컨퍼런스 행사가 떠오른다.

작년까지는 학교생활을 열심히 하는 것에 초점을 맞췄다면, 올해 초 나의 목표는 '우물 밖으로 나가보기'였다. 많은 컨퍼런스 행사들에 참석해보는 건 우물 밖으로 나가보기 가장 쉽고 유익한 방법이였다.

AI Expo, NHN Cloud make IT 23, CNCF Sustainability Week...등 올해 약 7개정도의 크고 작은 컨퍼런스에 참석해 많은 기술적 지식들과 인사이트를 얻었다.

특히나 컨퍼런스들을 다니며 얻는 가장 의미있는 건, "와 이런 분야도 있구나?!" 하며 내가 생각하는 개발 분야가 더욱 커짐을 느낄 때다.

확실히 이곳저곳 다니며 많은 직군의 사람들과 대화하고, 그들이 생각하는 해당 분야의 트랜드와 전망을 들으면서 편협적인 시야가 폭넓어졌다는 것을 느낀다.

Presentation.

(좌) AUSG 빅챗: CSRF, XSS 관련 발표, (우) DevFest on Campus 발표: 클라우드 네이티브, 그게 뭔데?

컨퍼런스들을 다니면서 생긴 커리어 목표가 있다. 유명한 개발 컨퍼런스에 Speaker로 나가고 싶어졌다.

트러블슈팅 과정에서 내가 얻은 깨달음이나, 단지 공유하고 싶은 지식들을 남들에게 설명해주고, 커뮤니케이션이 오가는 과정이 가치있고 재미있다는 걸 알게 된 후, 발표 기회가 있으면 마다하지 않고 진행했었다.

주제는 굉장히 다양했다. 8월엔 AUSG에서 CSRF와 XSS를 설명하며 실제로 공격당하는 과정을 라이브 데모로 시연했고, 11월엔 학부 프로그래밍 소모임에서 주최하는 학술제에 연사로 참여하여, 단순 프론트앤드와 백앤드 개발만 보면서 성장하는 1~2학년들에 다양한 개발직군들을 소개해주는 세션도 가졌다. 12월에는 DevFest에서 Cloud Native의 특징과 장/단점, 그리고 활용 사례들을 소개하는 시간도 가졌다.

여러 자리에서 발표를 하며 적지 않은 것들을 얻었다.

1. Marketing : 청자 입장에서 특정 발표를 들을 때 자연스럽게 발표자가 누군지 궁금하게 되고, 자연스럽게 내 이름을 알게 되는 사람들이 하나 둘 씩 증가함을 체감했다. 셀프 브랜딩이 되고 있는 것이다. 브랜딩이 곧 네트워킹이 되고, 네트워킹을 통해 커리어 내,외적으로 더 많은 기회들이 보인다는 점에서 좋게 다가왔다.

2. Deep-Diving : 누군가에게 어떤 내용을 전달한다는 것은 많은 책임감과 부담감이 따른다. 나는 다른 사람들에 비해 유독 책임감을 더욱 느끼는지, 발표를 준비하는 과정에서 해당 주제에 대해 깊게 파고든다. 이 과정에서 해당 주제에 대한 깊은 이해를 할 수 있음이 좋았다.

3. Presentation : 당연한 소리지만, 발표를 하다보니 발표 실력이 는다. 특히 나의 고질적인 문제점이 "발표 시간을 오버한다."였는데, 마지막 DevFest 발표에서는 15분의 분량을 정확하게 지키면서 발표한 나를 보며 뿌듯했다. 이외에도 긴장하는 버릇도 많이 완화되고, 말문이 막혔을 때도 당황하는 횟수가 적어졌음을 체감했다.

Side Projects

HOLA

산학연계SW프로젝트 전시회 참가 (인기상)

22년 11월부터 산학협력프로젝트 및 졸업작품으로써 (주)Haheho와의 협업을 통해 여성들의 건강관리 컨텐츠들을 추천해주는 애플리케이션을 제작했다. 처음으로 시작해 본 프로젝트라 막막하고, 방법을 찾아 많이 고민했던 기억으로 가득하지만, 프로젝트 기획부터 개발, 내부 배포를 통해 회사와의 컨펌 및 전시회 발표까지 무사히 마쳤다는 것에 많은 의의를 둔다.

특히나 전시회 때 우리 앱을 많이 사랑해주신 덕분에 인기상까지 받을 수 있어 더욱 의미있던 시간이였다.

사실 리팩토링에 대한 열망도 컸지만, 궁극적으로 이 앱을 리팩토링해서 실제로 가치있는 제품을 배포할 수 없다는 사실이 개선 의지를 많이 꺾은 것 같아 애증의 프로젝트로 남게 되었다.

프로젝트 시연 영상 : https://youtu.be/6rldZ-t7Oag

친구:Be

3월 말, (주)비사이드가 주최하는 포텐데이 해커톤에 참가하게 되었다. 해커톤 경험이 없었던 나는 아무생각 없이 참가신청 버튼을 눌렀는데, 막상 진행해보니 10일동안 마감기간 내에 해내야 한다는 압박감 속에서 정신없이 개발했던 기억이 난다..

Node.js 백앤드 개발자로서 참가했고, 디자이너 2분과 프론트 개발자 1분과 함께 4명이서 친구:Be라는 웹앱 서비스를 개발하였다.

친구:Be는 평소 카톡 선물하기나 경조사 등 지인관계에 무분별하게 지출되는 비용을 관리해보자! 라는 재미있는 동기로부터 나온 아이디어인데, 나한테도 필요한 애플리케이션인것 같아 더욱 열심히 개발했던 것 같다.

아픈 기억도 있다. 9일차~10일차에 배포작업을 진행하는 중, 무슨 짓을 해도 클라이언트-서버 간 CORS 에러가 계속 발생하는 문제가 발생했었다. Nginx를 잘못 설정해줬나? Docker Compose 과정 중 옵션을 주지 않은 것이 있나? 서버 단에서 CORS 관련 코드를 작성하지 않았나? 등 다양한 해결책을 적용해봤지만, 밤새 매달려도 결국 연결해 실패했던 경험이 있다.

지금 다시 생각해보면 원인은 간단한 곳에서 발생했던 것 같다. 클라이언트를 vercel을 통한 https 페이지로 배포했는데, 서버는 http를 사용중이라 프로토콜 불일치에서 기인한 것이다. 여태 http로만 프로젝트를 진행해왔던 나는 이 상황을 생각하지 못했던 것 같다.

나의 역량 부족으로 팀이 프로덕트를 제대로 선보이지 못했던 것이 너무 미안했고 면목이 없었다. 어쩌면 이 때 이후로 기초지식에 더욱 많은 힘을 주며 공부해왔던 것 같다.

Education

수험생 시절, 3수를 하게되며 조금씩 느꼈던 나의 적성이 있다. 바로 지식을 공유하는 모든 행동들을 좋아한다는 것이다.

덕분에 대학에 입학해서도 멘토링과 교육 봉사활동 등 많은 교육 활동들을 해왔던 것 같다.

D.LAB Python Instructor

(좌) 학생이 만든 그림판 앱으로 날 그려줬다...이게 나라고?, (우) 코드에 상당히 진심인 초2 꼬맹이들 :)

22년 8월부터 현재까지 매주 토요일마다 잠실 (주)디랩코드아카데미에 시간강사로 출강하여 초,중,고등학생에게 Python, Scratch, App inventor 등 다양한 프로그래밍들을 가르치고 있다. 처음에는 좋아하는 일을 하며 돈도 쏠쏠하게 벌 수 있어서 시작했지만, 1년 6개월이 지난 지금은 강의에 대한 자부심과 프로의식을 가지며 활동하고 있다.

23년 한 해동안 이곳에서 많은 학생들을 가르치며, 나 역시 함께 성장했던 시간이였다. 파이썬을 아무것도 모르던 학생을 6개월동안 가르치니 COS PRO Python 자격증을 취득하며 좋아하던 학생을 보며 많은 뿌듯함을 느꼈던 기억도 나는 반면, 프로그래밍에 그닥 많은 흥미를 갖지 못하는 학생을 어떻게든 변화시키려 노력했으나 결국 그만두는 학생을 생각하면 나의 전달방식에서 더 좋은 점이 있었지 않았을까..하는 씁쓸함도 생각이 난다.

DORO

23.06.30 구현초등학교 메이킹 수업

DORO는 한양대학교 ERICA 학생들로부터 시작한 교육 스타트업으로, 주로 안산과 서울의 초,중,고등학교 청소년들에게 HW와 SW의 융합 메이킹 교육을 진행하고 있다. 나는 23년 4월부터 대학생 강사로 활동하며 서울과 안산 지역의 학교에 찾아가 다양한 컨텐츠들을 가르쳤다.

학생들을 가르칠 때는 아무리 쉬운 수업일지라도 많은 책임감을 가지게 되고, 최대한 완벽하게 수업을 마칠 수 있도록 노력하게 되는 것 같다. 다른 이들이 이정도면 괜찮은 수업이다라고 할지라도, 내가 마음에 들지 않았을 땐 우울한 마음으로 집으로 되돌아오곤 했던 기억들이 난다. 이유는 단순하다. 수업을 받는 전체 아이들이 나만 바라보며 집중하고 있기 때문이다. 초등학생들은 재밌는 것을 만들 수 있다는 기대찬 마음으로, 고등학생들은 지금 이 활동을 통해 무언가 생산적인 것을 만들 수 있다는 신기한 마음으로 나에게 의지하는 눈빛을 받을 때면 희열과 걱정이 동시다발적으로 든다.

23년 하반기엔 바빠서 활동을 잘 못했는데, 겨울방학도 되었고 다시 열심히 해볼까 한다.

Study

나에게 있어 스터디의 가장 큰 혜택은 '강제성'인 것 같다. 사실 하고 싶은 공부는 많았지만 항상 시간이 부족하다는 자기위안과 함께 미뤘었는데, 올해는 계속해서 스터디에 참여하고, 없으면 스터디를 만들어서라도 진행하며 많은 것들을 배우고 공유할 수 있는 시간들을 가졌다.

ML / DL Study
- 4월 ~ 6월까지 3개월 간 진행했던 스터디. 당시 딥러닝실습 전공이 흥미있기도 했고, AI 기초지식을 배울 필요가 있어 참여했었다. 멤버들이 잘 이끌어준 덕분에 수월하게 진행했던 스터디
- 딥러닝과 관련된 기본 개념들을 발표했었다. (발표자료)
CS Study
- 여름방학 기간에 진행했던 CS 스터디. 전공자로서, 또 개발자로서 갖춰야 할 기본 지식들을 탄탄히 하기 위해 내가 기획했던 스터디. 네트워크, 운영체제, 자료구조, 데이터베이스 등 전반적으로 다시금 배울 수 있었던 시간이였다.
DataBase Study
- 9월부터 12월까지 AUSG 멤버들과 함께 진행했던 스터디. '내가 학교에서 배운 DB는 티끌이였구나..'를 느꼈다.
- 데이터베이스에 관련된 기술적인 지식들은 물론, 기업들이 DBMS를 선택할 때 고민하는 비즈니스적 요소들도 살펴보며 개발 내외적으로 많은 것들을 얻었다.
- 특히나 멤버분들 각각이 너무 열정적으로 임해주시고, 내용과 실제 경험담을 엮어서 현업에서 고민하고 있는 것들을 공유해주시는 부분이 재밌고 유익했다.
- 24년 2월부터는 <Real MySQL 8.0 vol.1,2>를 공부할 예정인데 상당히 기대된다!
Watch-n-Talk Study
- 9월부터 12월까지 AUSG 멤버들과 진행했다. 영어로 된 개발 컨퍼런스들을 듣고 요약 및 자신의 의견을 영어로 발표해보는 스터디다. 개발 지식과 영어라는 두 마리 토끼를 한 번에 잡아보자는 점에서 시작된 스터디.
- 처음에는 영어는 차치하고, 컨퍼런스 내용을 이해하는 데도 벅찼다. 또한, 스터디 때 내가 알고 있는 내용들을 영어로 표현하자니 엄청 버벅대고, 파파고 돌려보면서 진행했다.
- 어쩌면 이 스터디의 장점은 내가 버벅대면서 힘들게 영어 한 마디를 뱉어낼 때 실력이 오른다는 것에 있는 것 같다. 지금도 걸음마 수준이지만, 초반보다는 유창해졌다고 자신할 수 있다.

CNS LAB

(좌) 논문 세미나 발표, (우) CISC-W '23 Conference 참여

5월부터 현재까지, 김진우 교수님의 클라우드 및 네트워크 보안 연구실인 CNS LAB에서 학부연구생으로 활동하고 있다. NLP 분야에 관심갖게 된 계기도 연구실에 들어오고 나서다. 사실 AI는 나랑은 맞지 않다고 생각해 멀찍이 두고 있었는데, 연구 과제가 NLP라 많이 당황했었다. 그래도 같은 연구생인 지영이와 열심히 관련 자료들을 연구해보고, 부족한 부분들은 공부해가며 교수님의 지도 하에 기반을 구축할 수 있었고, 논문까지 성공적으로 투고할 수 있어 의미있던 시간이였다. (논문 링크)

올해 3월까지 같은 주제로 더 연구하여 SCI급 논문을 accept하는 것을 목표로 달리고 있다.

AUSG 7th

2023년 최고로 잘한 일 TOP 2

(좌) AUSG 빅챗, (우) 단순 질문에도 열정적으로 답변해주시는 우리 멤버들 :)

사실 AUSG에 들어가게 된 계기는 특별하진 않다. 페이스북을 보다 나온 모집공고를 보고 단순히 지원해보게 되었다.

클라우드에 관심이 있었고, 이 곳에 들어가게 되면 관련 지식들을 많이 얻을 수 있겠거니~하고 신청했고, 합격하게 되었다.

처음 활동에 나갔을 때 들었던 생각은, '나는 여기에 왜 뽑혔을까?'다.

다들 겉으로는 대학생이였지만, 다들 이름있는 회사에서 개발자로 근무하고 있고, 대화할 때의 개발적인 지식 수준이 한 단계 위에 있었다.

윗 기수들은 그렇다 쳐도, 같은 기수의 동기들 마저도 스펙이 대단했다. 부끄럽지만 상대적으로 자격지심이 들었음을 회고한다.

세션 발표를 해야 하는데, 다들 현업 개발자거나 그에 준하는 실력을 갖추셨기 때문에 내가 발표하는 내용의 수준들도 그 수준에 맞아야 한다고 생각했다. '근데 아는 게 없는데 어떻게 해..?' 라는 딜레마에 빠지기도 했다.

그러나 활동을 계속 해보면서, 이러한 고민들이 해결되는 시간은 생각보다 빨랐다. 많은 멤버들과 교류하고 친해지면서 느끼는 점은,

속도의 차이지 우리 모두는 결국 같은 방향을 바라보며 나아가고 있다는 것 이다.

많이 들어본 말이지만 몸소 체감한 적은 없었던 것 같다. 멤버들도 나를 보면서 얻어가는 것이 있음을 자각했을 때 AUSG 속 나의 존재감을 확인했던 것 같다.

당연히(?) AUSG에 들어온 이후 개발과 관련하여 많은 지식들과 인사이트를 얻었다. 지금 당장 떠오르는 것은 이거다.

대학생과 현업 개발자의 생각 차이는 기술적으로 고민할 때 비즈니스적인 요소를 함께 고민하느냐 아니냐 이다.

누군가가 "Spring-boot가 좋아요? Node.js가 좋아요?"라고 물었을 때, 나는 두 기술 간의 패러다임이나 성능과 관련하여 생각을 하지만, 회사 입장에서 두 기술이 비용적으로 어떤 차이가 있을 지, 현재 개발 시장에서 어떤 기술을 채택해야 채용이 편할 지, 등의 비즈니스적인 고민들은 해보지 못했다.

이렇듯 개발이라는 분야를 바라볼 때의 나의 시선이 더 넓어진다는 느낌을 AUSG에서 많이 느꼈다. 23년 최고의 우연이자 선택이다.

(좌) 멤버들과 나갔던 AWS GameDay: LoL Edition, (우) 3등까지도 찍어봤었다! (1등은 롤드컵 결승티켓...ㅠ)

또 마음 맞는 멤버들끼리 이것저것 재밌는 활동도 많이 했다. 특히 롤드컵 시즌 AUSG 멤버들과 진행했던 AWS Gameday: LOL Edition 대회는 새롭고 재밌게 문제들을 풀어나갔던 기억으로 남았다.

Canada, 그리고 English

2023년 최고로 잘한 일 TOP 1

(좌) Peyto Lake, Alberta, (우) Moraine Lake, Alberta

6월 즈음, 어무니의 항공 마일리지 유효기간 임박이라는 원인이 나의 캐나다 항공권 티켓 구매라는 어이없는 결과로 시작된 나의 캐나다 여행. 누나가 몬트리올에서 유학 중이라, 몬트리올을 찍고 누나와 밴프를 여행하고, 토론토로 돌아와 둘러본 뒤 다시 한국에 오는 경로였다.

지금 돌이켜보면, '안갔으면 어쨌을까..?' 하는 안도의 마음 뿐이다. 떠나기 전까지, 나에게 있어 여행이라는 행위는 사치처럼 보였다. 3수로 인해 남들보다 2년 늦게 시작했다는 혼자만의 압박이 앞만 보고 달리자고 생각했기 때문이다. 내가 여행하는 동안 남들은 저 멀리 앞서 있을것만 같았다. 심지어 캐나다 가서도 개발 공부하겠다고 노트북을 챙겨갔었다. (딱 2일 했다 ㅋㅋㅋ)

19일 간의 캐나다에서 내가 가지고 온 것은 3가지다.

일에 대한 인식
: 누나가 그랬다. 캐나다인들은 일하는 목적이 '여행'인 사람들이 많다고. 많은 이들이 허영심을 버리고 오직 여행만 바라보며 산다는 것을 느꼈다. 여행만 보면서 산다는 것이 부러운 게 아니라, 무언가를 부담지면서 일하지 않는 그들이 부러웠다. 한국 사회가 치열하다는 것을 알기에 그들처럼만 살 수는 없겠지만, 적어도 일을 통해 얻는 목적을 minus를 해치운다는 것보다 plus를 추구하기 위해 하는 삶을 목표로 삼는다.
다시 오고 싶다는 목표
: Lake Louise를 바라보면서, 또 Banff Downtown을 거닐다보면, 누나와 함께 여행한다는 것에 매우 감사함과 동시에 나중에 꼭 부모님을 모시고 오고 싶다는 생각을 수도 없이 하게 되었다. 빨리 돈을 열심히 벌고 싶은 이유들 중 하나도 이곳에 있다. 어쩌면 내가 일을 통해 얻는 plus적인 목적이 하나 더 추가되었음에 긍정적으로 생각한다.
영어 회화에 대한 열망
: 캐나다 친구들과도 대화를 하다 보면, 캐나다에서 개발할 생각 없냐고 많이 떠본다. 농담 반 진담 반이겠지만, 여태껏 나는 왜 국내 취업들만 바라봤을까? 라는 생각이 들었고, 답은 영어 회화를 잘 못하기 때문이였음을 바로 알 수 있었다. 평소 Reading에는 자신만만하던 나지만, 사람들과 대화하면서 내가 말하고 싶은 내용을 입 밖으로 표현하지 못하는 내 자신이 너무 답답했다.
이에 캐나다에서 오자마자 영어와 관련된 공부를 많이 하고 있다. Ringle이라는 원어민 화상 영어회화 서비스를 통해 매주 영어로 프리토킹해보기도 하고, 말해보카 앱을 통해 영단어나 발음 연습도 틈틈히 하고 있다. Watch-n-Talk 스터디를 통해서도 영어로 대화하면서 최대한 나 자신을 영어 환경에 노출시키고자 많이 노력한 것 같다.
지금 나의 수준은, 원어민과 대화할 때 기본적인 의사소통은 되는 수준(?)인 것 같다. 장족의 발전이지만 더욱 노력해서 비즈니스적인 대화도 능숙하게 해내는 수준까지 올리고 싶다.

참 많은 것들이 하고 싶었고, 많은 것들을 해왔던 23년 이였다. 어쩌면 20대의 나에게 가장 잊지 못할 해이지 않았을까 싶다.

24년은 나에게 대학생과 일반인의 경계에 위치한 한 해다. 모든 것들이 잘 되길 빌지만, 잘 안되더라도 그 과정을 슬기롭게 헤쳐나가는 내가 되었으면 좋겠다. 내 주위엔 소중한 사람들이 항상 존재한다는 것을 잊지 말자.