[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문

Programming/NLP,LLM

[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - Computing Machinery and Intelligence

R.i.c.K.y 2025. 10. 4. 03:03

이 글은 "한 권으로 끝내는 실전 LLM 파인튜닝" 도서를 읽고 정리한 글입니다.

Intro.

어떤 학문을 공부하든, 역사를 아는 것은 학습에 있어서도, 또 누군가에게 설명할 때에 있어서도 중요하다고 생각합니다.

자연어 처리도 마찬가지로, 현대적인 트랜스포머 아키텍처가 왜 나왔는지에 대해 알기 위한 초석으로, 자연어 처리가 그동안 어떻게 발전되어 왔는지 한 번 정리할 필요가 있는데, 마침 이 책에서도 1장에 친절하게 설명하길래 정리해 봅니다.

인공지능 발전에 큰 획을 그은 전설의 3대 논문 - 1편

1. Alan Turing - "Computing Machinery and Intelligence"

현대 인공지능 연구의 시작점이 되는 논문이라고 생각합니다.

영화 "Imitation Game"의 주인공이기도 한, 앨런 튜링은 디지털 컴퓨터 없이도 기계가 언어를 처리할 수 있다는 가능성을 항상 제기해 왔습니다. 디지털 컴퓨터가 없다는 것은 곧, 하드웨어 장치에 어떠한 커맨드도 들어가지 않는다는 것이죠.

다시 말해, 기계가 스스로 언어를 처리할 수 있다는 것을 뜻합니다.

기계는 생각할 수 있는가?

일단, 튜링이 생각하는 기계라는 것의 정의부터 짚고 가봅시다.

튜링은 기계를 “사람을 제외한 것들 중 저장, 실행, 제어 기능을 갖춘 것. 입력을 받아 결과를 출력하는 시스템을 갖춘 것”으로 정의합니다.

그러면, 이것이 기계인 지 아닌지는 어떻게 구별할 수 있을까요? 직접 물어보는 방법은 어떠신가요?

기계한테 "너 기계야?"를 물어본다. -> 안타깝게도, 기계는 말을 하지 못합니다.
사람한테 "쟤 기계야?"를 물어본다. -> 얼핏 보면 웃기지만 ,생각을 비틀어보면..?

Turing Test (a.k.a Imitation Game)

사람한테 "쟤 기계야?" 를 물어본다면, 당연히 응답자의 신뢰성을 보장할 수 없겠죠. 그래서, 어떤 질문에 대한 답변을 보고, 해당 답변을 사람이 쓴 것 같은지, 기계가 쓴 것 같은지를 응답자한테 물어보기로 하는데, 이것을 튜링 테스트라고 부릅니다.

즉, 질문자는 똑같은 질문을 두 응답자에게 질문하고, 답변이 사람인지, 기계인지 판별하는 테스트죠.

만약, 질문자가 기계의 답변을 인간 답변으로 착각할 정도라면?

그럼 튜링 테스트를 통과하게 됩니다. 기계가 생각할 수 있는 개체라는 것을 간접적으로 보여준다는 논리죠.

지금 시대에 와서 생각해 보면 억지스러운 부분도 당연히 있지만, 그 당시에는 상당히 혁신적인 테스트였습니다.

위에서 말했듯, 튜링 테스트의 한계점도 적어보자면,

기계가 인간처럼 응답할 수 있는 것이 곧, 실제로 이해하고 생각한다는 것은 아니라는 점입니다.
단순히 규칙을 따르는 것만이 아닌, 실제로 이해하고 학습할 수 있는지에 대한 근본적인 문제가 존재합니다.

근데, 이 테스트가 최근에 다시 핫했었는데.. 이 논문 때문이라고 생각합니다.

arXiv 2503.23674, Large Language Models Pass the Turing Test

여태껏 나왔던 수많은 모델들 (과거의 ML/DL 모델부터)은 모두 이 테스트를 통과하지 못해 겨울이 찾아왔었는데, 최근엔 Turing Test를 통과한 모델들이 나왔다는 내용의 논문입니다.

Win Rate는 튜링 테스트를 진행했을 때 승리한 확률, 즉, 기계가 쓴 답을 응답자가 인간이 쓴 답이라고 착각한 확률을 뜻합니다.

LLAMA-PERSONA와 GPT-4.5-PERSONA가 Threshold였던 50%를 넘겼다는 것을 시사합니다.

Large Language Models Pass the Turing Test

We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of

arxiv.org

하지만, 많은 모델들이 튜링 테스트를 통과했다고 해도, 아직도 “기계가 실제로 이해하고 학습할 수 있는지”에 대한 고민은 남아 있습니다. 다만, 과거와는 달리 현대에는 해당 고민 포인트를 “해결”할 수 있을 것 같다는 강한 믿음이 AI 업계에선 돌고 있죠 (ex. Google, OpenAI, …). 실제로도 한 인터뷰에서, OpenAI의 창립자인 샘 알트만은 5년 안에 AGI를 넘어설 것이며, 과학, 경제 분야에서 엄청난 속도로 성장이 가속화될 것이라고 말한 것도 이를 뒷받침해 주죠.

자, 패러다임의 흐름에 생각을 맡겨봅시다. 이 시점에서 우리가 헤쳐나가야 할 과제는?

저는 개인적으로, "인공지능이 어떻게(How?) 학습되는가?"가 저절로 중요해졌을 것이라고 생각합니다. 저 원리와 과정을 연구해야 성능이 좋아지고, 그래야 튜링 테스트를 통과할 모델이 나올 것이라는, 이러한 패러다임 흐름 속에서 인공지능이 발전된 것이라 생각하기 때문이죠.

위에서도 언급했듯, 튜링 테스트의 한계점 중 하나는 “기계가 실제로 이해하고 학습할 수 있는지”에 대한 근본적인 해답을 못한 것이었죠.

자연스럽게, 기계가 어떤 방식으로 학습되는지에 대한 연구가 필요해지는 시점입니다.

그래서, 다음 편에서는 기계학습의 핵심인 퍼셉트론에 대해 다뤄보겠습니다.

'Programming > NLP,LLM' 카테고리의 다른 글

[Paper Review] Attention in LLMs Yields Efficient Zero-shot Re-rankers (0)	2025.06.11
[Paper Review] Ignore Me But Don't Replace Me (0)	2025.02.17
Multi-Head Attention (0)	2025.01.22
[리뷰] GPT-4 for Defense specific Named Entity Extraction (3)	2024.01.04
Transformers Architecture (1)	2024.01.03

현재글[1편] 인공지능 발전에 큰 획을 그은 전설의 3대 논문 - Computing Machinery and Intelligence

LLM과 클라우드를 좋아합니다. 오늘 배운 개발지식을 하나씩 알려드려요. Email : songseungho9258@gmail.com

Today :
Yesterday :

re-ranking, slack webhook, AWS, ICR, GPT-4, s2w, Github PR, LLM, PEFT, rankgpt, NLP, aws re:invent, AWS GameDay, 자연어처리, ML, 개발, cybertuned, Slack-Ops, AI, Bert,

Steadily