Programming/TIL

[TIL] [리뷰] GPT-4 for Defense specific Named Entity Extraction

R.i.c.K.y 2024. 1. 4. 02:55

GPT-4의 특정 도메인 내 NER 성능 평가와 관련된 블로그를 읽고 요약과 더불어 리뷰를 덧붙여본다.

 

원문 블로그 링크

: https://medium.com/@anthony.mensier/gpt-4-for-defense-specific-named-entity-extraction-47895b7fed6d

Summary

Title : GPT-4에서 보안 도메인에 특화된 Named Entity 추출

  • GPT-4가 최근에 등장했음에도 불구하고, LLM은 이미 다양한 산업 분야에서 혁신을 가져오고 있음.
  • 하지만 범용적 분야가 아닌 특화된 분야에서의 보안적 취약점은 아직 괄목한 만한 성과가 없음.
    • 이유: 특화된 분야는 전문적인 지식이 필요하지만, GPT-4의 훈련 데이터는 상대적으로 범용적이기 때문

👉🏻 실험 목표

최근 US 국방 예산 문서들과 관련한 Knowledge graph를 구축하여, 이것으로부터 얻는 효율성(efficiency)를 평가해보자. 이 Knowledge graph(KG)는 문서에서 언급된 다양한 item들의 공급망을 이해하는 데 도움을 줄 것이다.

(item은 여기서 중요한 정보를 뜻한다고 추측합니다.)

👉🏻 실험 방법

이 items들을 문서로부터 추출하고 명확하게 함으로써 GPT-4의 보안 분야에 특화된 entity 추출 및 명확화 능력을 평가한다.

👉🏻 실험

ChatGPT를 통해 GPT-4를 GUI 형식으로 이용하려다 보니 여러 제약 사항들이 발생한다.

  1. 임의로 파이프라인을 구축하질 못한다.
  2. 한 프롬프트에서 다른 프롬프트로 점진적으로 구축하려고 했는데, GUI는 한계가 있다.

따라서, ChatGPT API를 사용하여 더 견고한 지식 추출 파이프라인을 만들었다.

👉🏻 파이프라인 구축

Scrapper

첫 번째 구성요소 : 온라인 자료들을 효율적으로 긁어올 수 있는 스크래퍼

Extractor

  • DefenseOne이란 사이트에서 최신 미국 국방 예산 자료들을 얘기하는 짧은 기사를 선택했다. 이 문서가 Base text가 된다.
  1. 위 자료로부터 중요한 entity들을 추출한다.
    1. 이 entity들은 지식 그래프를 형성하는 데 중요한 지표들이 된다.
  2. 중요한 entity에 해당하는 것들이나 도메인에 특화되지 않는 것들은 쉽게 뽑아내버렸다.
    1. 일반적인 NER 모델들로도 쉽게 추출해버릴 수 있다.
  3. 도메인에 특화된 entity들은 “zero-shot learning”이라 알려진 기술을 시도한다.
    1. 예를 들면 persons, civilian or military organizations, military equipment, …
    2. 즉, 특정 훈련이나 예제들에 의지하는 것 없이, GPT-4의 custom NER tasks 능력을 평가해본다.
    // PROMPT 내용 예시
    "Could you extract all military equipment, civilian or military organisations and persons entities from the following text: "INSERT TEXT""
    

👉🏻 실험 결과

  1. GPT-4는 거의 제시했던 모든 클래스들을 이해했다.
  2. 모델이 올바른 entities를 추출해내는지, 아니면 잘못 분류하는지를 측정하는 F1 score 역시 높게 측정된다. (약 85%의 추출 정확성)
  3. 그러나, 특정 entities들을 간접적으로 지칭하는 것들에 대해선 약간의 miss를 낸다.
  4. Ex, “Biden administration”은 추출하면서 “the administration”은 추출 x

👉🏻 결론

아직 더욱 구체적인 테스트들을 거쳐가며 검증해야겠지만, 적어도 GPT-4의 개체 인식 능력에 대해 신뢰할 수 있는 자신감을 얻게 되는 실험이다.

 

리뷰

GPT-4는 향간에선 GPT-3.5에 비해 대폭적으로 많은 파라미터와 훈련 데이터로 학습했음에도 불구, 비례적인 성능 향상을 느낄 수 없다고 평가받기도 하지만, 3.5에 비해 Hallucination에 대한 성능이 눈에 띄게 좋아졌음을 체감한다. 특히 위와 같이 특정 도메인에서의 NER 성능을 zero-shot learning (unsupervised)을 통해 테스트했음에도 85% 이상의 추출 정확성을 보여주는 것은 감탄을 금치 못하게 한다.

다만, 3.5에서도 여실히 드러난 문제였지만 인과 관계를 통한 간접적으로 의미를 갖는 Entity들에 대해서는 인식 성능이 많이 떨어지고, GPT-4에서도 괄목할만한 성과를 보여주진 못한 것 같아 여전히 해결해야 할 문제가 남아있음을 시사한다는 점에서 흥미로운 글이였다.

'Programming > TIL' 카테고리의 다른 글

[TIL] Transformers Architecture  (1) 2024.01.03