[Paper Review] Ignore Me But Don't Replace Me

Programming/NLP,LLM

[Paper Review] Ignore Me But Don't Replace Me

R.i.c.K.y 2025. 2. 17. 02:31

이번에 리뷰할 논문은 NAACL 2024 findings에 등재된 논문입니다.

1저자이신 장우진님을 비롯한 대부분의 사람들이 빅데이터 AI 기업인 S2W Inc 소속이시고, 카이스트 NSS 연구실과 Indiana University Bloomingtom과 함께 진행했네요.

논문 보러가기 (Website)
요약 슬라이드 보러가기 (PDF)

결론

결론부터 찍고 내용을 살펴봅시다.

이 논문은 NLE (Non-Linguistic Elements) 요소를 pretraining함에 있어, 일반적인 도메인에서처럼 NLE들을 special token으로 대체하지 않고, NLE의 타입에 따라 선별적으로 마스킹하는 기법을 적용하여 더 높은 성능을 보였다는 게 핵심입니다.

Cybersecurity에서의 NLP

사이버 보안 관련 분야에서는 CTI, 즉 사이버 위협 인텔리전스 정보가 Key입니다.

CTI로부터 위협 관련 정보를 파악하고 빠르게 해결책을 수행해야하기 때문에 정확성과 신속성을 위해서라면 수동적이고 많은 노동력이 투입되곤 하죠.

이러한 노동력을 경감시키기 위해 자연어 처리 기법을 통해 계속해서 발전하는 CTI 정보들을 자동으로 식별하고, 의사결정을 하는 데 목적을 두고 있습니다.

Challenging Problems

하지만, 일반적인 도메인 문서들과 달리, Cybersecurity 도메인의 문서들은 보다 많은 전문적인 지식이 필요합니다.

또한, SHA 해시값, URL 주소 등의 NLE 요소가 일반 도메인의 문서보다 훨씬 더 많이 포함되어 있기에, 범용적인 도메인에서의 NLP 기법으로 접근하기엔 한계가 있어 보입니다.

SHA Hash, URL 등 비언어적 요소 (NLE)가 포함된 보안 관련 텍스트

논문에서도 위 2가지 문제에 대해, 도메인 특화 pretraining으로는 NLE를 식별하지 못함을 시사했습니다.

전문적인 지식이 필요하다. => 도메인 특화 데이터셋으로 pretraining하면 해결.
더 많은 NLE가 문서에 존재한다. => 도메인 특화 pretraining으로는 한계가 있다.

NLE 분류가 pretraining으로도 어려운 이유

생각해보면 당연합니다.

"모델을 학습시킨다"고 말할 때, 무엇을 학습시키는 지 생각해보면, 토큰 각각의 특징들을 학습시킨다고 말할 수 있습니다.

하지만 NLE (No-Linguistic) 토큰들은 언어론적인 의미를 가지지 않는데, 의미가 존재하지 않는 토큰을 학습하는 것이 효과가 있을까요?

더군더나, BERT 같은 MLM (Mask-Language Model)은 임의의 토큰들을 마스킹한 후, 해당 빈칸에 어떤 토큰이 들어가야 할 지 유추하는 tasks들에서도, SHA 해시값과 같은 의미 패턴이 없는 토큰을 추론한다는 것 자체가 말이 안된다고 생각합니다.

이렇게 의미가 없는 요소로 여겨지기에, 범용 도메인에선 이러한 NLE들을 <SHA>, <URL>과 같은 태그들로 변환한 후 pretraining을 하게 됩니다. 하지만 Cybersecurity에선 이런 NLE들이 가지는 의미가 상당히 중요하기에, 태그들로 가려진 채 학습된다면 치명적인 정보 손실 (information loss)을 가져오죠. 또한 모델도 NLE 자체를 인식하거나 활용하지 못하기에 성능 이슈도 있게 됩니다.

논문에서는 이러한 문제점을 해결하기 위해 Pretraining에서의 새로운 학습 방식을 제시했습니다.

Method

NLE 타입 대한 정의

우선 수많은 NLE들을 학습하기 위해선, 이들을 분류할 수 있는 원형(Archetypes)을 찾아내야 했습니다.

즉 NLE들을 그룹지을 수 있는 타입을 정의한다고 볼 수도 있는데,

논문에서는 수많은 타입들 중 사이버 보안 분야에서 많이 볼 수 있고, 또 상대적으로 중요도가 높은 타입 7개를 선정했습니다.

7개 원형 : URL, EMAIL address, IP address, MD5 hashes, SHA hashes, BTC (Bitcoin), CVE (취약점)

SLE와 FNLE

또한, NLE를 의미에 따라 2가지로 분류할 수 있습니다.

적어도 Cybersecurity 도메인에서는, NLE라고 해서 모든 게 의미가 없는 요소는 아니기 때문이죠.

예를 들어, ricky-dev.tistory.com 이라는 NLE에 대해, 컴퓨터는 그저 알파벳의 조합으로 생각할수도 있지만,

우리들은 ricky라는 닉네임, dev라는 개발 관련 뜻, tistory라는 블로그 이름을 보면서 ricky라는 사람의 개발 블로그라고 의미를 유추해내기 때문이죠.

이처럼 NLE지만 정보를 지니고 있는 것들을 SLE (Semi-Linguistic Element)로 정의합니다.

반면에 SHA, MD5 같은 해시값이나, 66.249.65.224 같은 IP 주소는 의미를 내포하지 않은 NLE들을 FNLE (Full-Non Linguistic Element)라고 합니다.

위에서 정의한 7가지의 원형도 SLE와 FNLE로 분류할 수 있겠죠. URL과 EMAIL을 SLE, 나머지 5개를 FNLE로 구분지었습니다.

Pretraining Strategies

위에서 정의한 내용들을 바탕으로, 논문 연구진들은 총 6개의 pretraining 전략을 세운 후, 각각을 비교하며 최적의 성능을 내는 전략을 찾고자 실험을 진행했습니다.

Selective Masking (이 논문의 핵심 🔑)

특히 주목해야 할 전략은 Selective Masking 전략입니다. MLM 시 NLE들을 마스킹하는 것이 의미가 없으니,

선택적으로 마스킹을 하자는 전략이라고 볼 수 있죠.

(좌) Vanilla MLM, (중) 모든 NLE 무시 (Mask-None), (우) FNLE만 무시 (Mask-Semis)

그림으로 함께 이해해봅시다.

왼쪽은 기존 MLM 처럼 NLE임에 상관없이 랜덤으로 선별된 토큰을 마스킹하는 전략입니다.

중간과 오른쪽 그림이 Selective Masking에 해당되는데, 여기서도 2가지 방식으로 나뉩니다.

Mask-None : NLE이기만 하면 무조건 Masking에서 예외시키는 방식
Mask-Semis : SLE는 의미가 있으니 Masking 의미가 있다고 여기고, 의미가 없는 FNLE만 Masking에서 예외시키는 방식

Method 전략 정리

Selective Masking을 포함한 6가지 전략을 정리하자면 다음과 같습니다.

Vanilla MLM : 기본 MLM 전략을 의미합니다. 전체 토큰 중 15%의 토큰을 마스킹한 후 추론하는 전략입니다.
Replace ALL : MLM 시 NLE 토큰들을 태그들로 대체하는 전략입니다. 기존에 가장 흔하게 썼던 전략입니다.
Vanilla + NLEC : MLM 전략에 NLE Classification도 함께 수행합니다. MLM이 완료되어도 NLEC 전략을 통해 모델에게 분류 학습을 지시할 수 있습니다.
Mask-Semis : Selective Masking 중 FNLE만 무시하는 전략입니다. SLE는 Masking 대상에 포함됩니다.
Mask-Semis + NLEC : Mask-Semis 전략에 NLE Classification도 함께 수행합니다.
Mask-None + NLEC : SLE,FNLE에 상관없이 NLE라면 Masking에서 무시하는 전략입니다. NLE Classification도 함께 수행합니다.

Pretraining Experiments

연구진들은 6가지 Pretraining 전략들을 Downstream Tasks와 Probing Tasks 수행을 통해 성능을 알아보는 실험을 진행했습니다.

Downstream Tasks

Downstream Tasks는 PLM (Pretrained-LM)의 실제 적용 가능성을 평가하기 위해 수행됩니다.

특히 Cybersecurity 도메인에서 PLM을 적용했을 때 CTI 분석, 악성코드 탐지, 취약점 분석 등과 같은 사이버보안 관련 작업에 얼마나 사용가능한지를 볼 수 있는 작업임에 의의가 있습니다.

실험에서는 PLM을 다음 3가지 모델 데이터셋을 통해 Fine-tuning하였습니다.

CyNER : malware 위협 보고서들로부터 얻은 NER 데이터셋
CySecED : The Hacker News 기사들로부터 얻은 이벤트 탐지 데이터셋
MalwareTextDB (MTDB) : MalwareTextDB에서 명시된 4가지 타입들에 대한 데이터셋

Downstream Task에서 좋은 점수를 받는다는 것은 PLM이 해당 분야의 지식을 잘 습득하고 활용할 수 있음을 보여줍니다.

Probing Tasks

Probing Tasks는 PLM의 모델 가중치의 성능을 평가함으로써, PLM이 얼마나 잘 학습했는지를 확인할 수 있습니다.

즉, 문법적 구조나 의미론적 관계, 혹은 특정 도메인 개념을 어떻게 이해하고 있는지 파악할 수 있죠.

이를 위해, MITRE라는 DB로부터 Cybersecurity와 관련된 NLE 토큰 226개를 선별하였습니다.

그 후, Validation Corpus에 선별한 226개의 토큰이 포함되었을 시 Masking 처리했습니다.

그 결과 총 77,983개의 토큰이 Masking 되었으며, 그 중 약 4,906개(약 6.2%) 토큰이 FNLE에 가까웠다고 합니다.

이렇게 수행된 MLM을 통해 모델 가중치의 성능을 평가했습니다.

Results

Downstream, Probing Tasks를 통해 수행된 각 전략들의 결과입니다. 데이터셋들의 유형에 따라 다른 매트릭을 사용했는데,

CyNER과 CySecED는 F1-Score, MTDB와 Probing Tasks는 Accuracy 를 사용했습니다.

결과로부터 확인할 수 있는 점들이 몇 가지 있습니다.

1. NLEC (NLE Classification)은 성능 향상에 도움이 되지만, NLEC 자체만 활용하는 것은 눈에 띄는 성능 향상을 볼 수 없습니다.

Vanilla MLM에 비해 NLEC를 함께 쓴 전략이 더 높은 점수를 받았지만, 그 차이가 약 0.004~0.016으로 근소하고, 심지어 Probing Tasks에선 더 낮은 점수를 받기도 했습니다.

2. Selective MLM은 확실히 도움이 됩니다. 특히 NLEC와 함께 수행하면 성능이 더욱 향상됩니다.

표에서도 알 수 있듯이, Mask-Semis에 NLEC를 함께 수행한 전략이 가장 우수한 성능을 보여줍니다.

3. 기존 방식인 Replace All도 downstream에선 좋은 성능을 보여주지만, probing에선 저조합니다.

Downstream Tasks에선 Replace All 전략이 모든 전략들 중 2번째로 좋은 성능을 보여주는 것을 알 수 있습니다.

다만, Probing Tasks에서는 상대적으로 눈에 띄는 성능을 보여주진 못했습니다.

논문에서는 Probing Tasks 중에서도 특히 Near-FNLE 토큰들을 추론하는 성능이 안좋다고 하는데, 많은 FNLE들을 접해야 하는 Cybersecurity 도메인에선 좋지 않은 현상이라고 말합니다.

4. 모든 전략들에 대해 전반적으로 좋은 점수를 받지는 못했습니다.

전략들을 비교함에 있어서 상대적으로 우월은 가려지나, 모든 전략들의 전반적인 점수대가 Downstream은 0.5~0.8이고, Probing은 0.2~0.4정도에 그칩니다. 특히나 Probing Tasks 점수가 저조하다는 것은 NLE Pretraining MLM 추론 성능이 안좋다는 것을 의미해서 바람직하지 않은 결과인 것 같습니다.

이처럼 6가지의 전략들에 대한 성능을 비교하고, Mask-Semis와 NLEC를 함께 수행한 Pretraining 방식이 가장 좋은 방식이라고 연구진들은 판단했습니다.

CyBERTuned

CyBERTuned는 연구진이 위에서 찾은 Mask-Semis + NLEC 전략을 통해 Pretraining한 RoBERTa 기반의 모델입니다.

이 모델 또한 성능을 평가하기 위해 Downstream, Probing Tasks를 통해 진행했는데, 조금 더 다양한 범위의 Cybersecurity 작업들을 진행해보고자 여러 가지 모델 데이터셋으로 Fine-tuning을 진행했습니다.

CASIE : 보안 관련 뉴스 기사들로부터 얻은 이벤트 탐지 데이터셋입니다. 비전문가들을 대상으로 작성된 뉴스이며, 기사들은 Data breach, phishing, ransom, discover, patch로 분류됩니다.
TwitterThreats (TT) : 트위터에서 threat 관련 키워드가 언급되었는지에 대한 이진 분류 데이터셋입니다.
CYDEC : 트위터에서 cybersecurity 관련 키워드가 언급되었는지에 대한 이진 분류 데이터셋입니다.

CyBERTuned Experiments

CyBERTuned의 성능 또한 평가하기 위해 Baseline 모델과의 비교를 진행했습니다.

Baseline 모델로는 Cybersecurity 도메인에서의 BERT 기반 모델 (CyBERT, CySecBERT)들과 RoBERTa 기반 모델 (RoBERTa-base, SecureBERT)들로 선택했습니다.

실험 결과에서도 몇 가지 인사이트를 관찰할 수 있었습니다.

1. BERT 기반 모델들의 성능 저조

먼저, BERT 기반 모델들(CyBERT, CySecBERT)의 저조한 성능이 눈에 띄었습니다.

CyBERT는 5개의 모델들 중 가장 저조한 점수를 받았고, CySecBERT는 CyBERT보다는 나은 점수지만, 여전히 다른 모델들과 비교했을 때 낮은 점수를 받았습니다.

이것이 가지는 의미는 중요합니다. Cybersecurity 도메인 데이터셋으로 Fine-tuning한 모델이 순수 RoBERTa 모델보다 성능이 안나온다는 뜻이 되니까 말이죠.

또한, CyNER에서 BERT 기반 모델들이 다른 모델들의 성적보다 안 좋은 이유에 대해, 연구진들은 토크나이저 방식에서 기인한다고 합니다. BERT 모델은 토큰화 과정에서 대소문자를 각각 처리하지 않고, 소문자로 처리한 다음 토큰화하는데, 대소문자 구별이 중요한 NER 특성 상 더욱 낮은 점수를 받은 원인이라고 보고 있습니다.

2. SecureBERT의 좋은 성능

SecureBERT는 특정 Task에서 CyBERTuned보다 높은 점수를 받은 유일한 모델입니다. SecureBERT가 높은 점수를 받을 수 있는 이유로써, 해당 모델은 토크나이저를 커스텀하는데, 이것이 성능에 이점을 준다고 연구진들은 말합니다.

3. 그러나, 전반적인 퍼포먼스는 CyBERTuned이 가장 우수

CyBERTuned는 모든 태스크에서 1등 혹은 2등의 점수를 보여주며 전반적인 Tasks들에 대해 높은 활용 가치를 보여주었습니다.

Discussion

논문에서는 Discussion에 대해 여러 토픽들을 시사합니다. 그 중 재미있는 내용들만 보자면,

1. RoBERTa 모델의 성능

RoBERTa 기반 모델들이 전반적으로 좋은 성능을 보여주고, 심지어 특정 태스크에서는 Domain-pretrained 모델보다도 좋은 성능을 보여주었습니다. 이를 통해, 적어도 Cybersecurity 도메인에서는 도메인 관련 데이터셋을 Fine-tuning하는것만 진행한다고 모델의 성능과 직결되지는 않는다는 것을 시사합니다.

또한, CYDEC의 Human score는 0.59, TwitterThreats는 0.66으로 측정되었는데, 위의 표에서 보여준 5개의 모델들의 점수가 모두 Human score보다 높은 것을 알 수 있습니다. 지표만 놓고 봤을 때는 모델의 성능이 인간보다 좋게 측정됨을 보여줍니다.

2. 다른 도메인에서의 NLE

이번 실험은 Cybersecurity 도메인의 NLE로만 진행하였기에, 다른 도메인에서는 이번 실험에서의 성능과 비슷한 양상을 보일 지 알 수 없습니다. 특히나, Cybersecurity에서의 NLE들 중에서는 SLE와 같이 정보가 포함된 NLE들도 있기에 좋은 점수를 받았을지도 모르죠.

이에, NLE 분류의 성능은 NLE가 정보를 얼마만큼 포함하고 있는 지에 의존한다는 것을 시사합니다.

논문 총평

논문에서 제시한 Selective Masking 기법에 대해 보고는, 참신하다는 생각이 들면서도, 기존 replace 방식으로 NLE를 처리한다는 것에 의문을 느끼고 아이디어가 나왔다는 점에서 인상깊었습니다.

Cybersecurity에서도 생각보다 NLP를 다양하게 활용할 수 있음을 볼 수 있었던 좋은 case인 것 같네요.

다만, 생각보다 실험 점수가 높게 나오지는 않아 의아했습니다. 후속 연구가 기대되는 논문인 것 같군요.