Sparks of Artificial General Intelligence: GPT-4를 어떻게 읽어야 하나
이 글은 Sparks of Artificial General Intelligence: Early experiments with GPT-4를 한 번에 읽을 수 있도록 압축한 단일 요약본이다. 이 논문이 던지는 질문은 단순하다. GPT-4를 그냥 성능 좋은 챗봇으로 봐야 하는지, 아니면 여러 영역을 가로지르며 문제를 풀고 설명하고 도구를 쓰는 범용적 지능의 초기 형태로 봐야 하는지 묻는다. 저자들의 답은 조심스럽지만 분명하다. GPT-4는 아직 완성된 AGI는 아니지만, 적어도 그 방향을 예고하는 불꽃(sparks) 은 보여 준다는 것이다.
이 논문이 흥미로운 이유는 주장만 크고 근거가 빈약해서가 아니라, 반대로 근거를 꽤 집요하게 모으기 때문이다. 저자들은 기존 벤치마크 점수만으로는 이런 모델의 일반성을 다 보기 어렵다고 보고, 수학, 코딩, 비전, 심리학, 도구 사용, 판별 과제까지 넓게 펼쳐 놓고 하나씩 확인한다. 그래서 이 글도 같은 순서로 읽되, 각 장이 무엇을 증명하려는지와 어디서 멈칫해야 하는지를 함께 정리해 보려 한다.
논문 도입부의 분위기는 첫 예시에서 거의 다 드러난다. 저자들이 보기에 중요한 것은 어느 한 과목 점수가 아니라, 서로 다른 종류의 능력이 한 모델 안에서 동시에 나타난다는 사실이다.

이 장면을 보면 왜 이 논문이 처음부터 “다음 단어 예측기”라는 틀만으로는 GPT-4를 설명하기 어렵다고 말하는지 이해된다. 언어, 수학, 코딩, 비전이 서로 떨어진 기능처럼 보이지 않고, 한 인터페이스 안에서 이어지는 작업처럼 보이기 때문이다.
1. 이 논문이 실제로 새롭게 말하는 것
많은 사람이 이 논문을 “GPT-4가 엄청 똑똑하다”는 글로 기억하지만, 실제로 더 중요한 건 평가 방식이다. 저자들은 GPT-4 같은 모델은 이미 너무 넓은 영역에서 성능을 보이기 때문에, 익숙한 리더보드만으로는 그 성격을 다 설명할 수 없다고 본다. 그래서 정형화된 테스트만 돌리는 대신, 사람이 직접 새롭고 까다로운 과제를 만들고 모델의 반응을 살핀다. 이 접근은 엄밀한 의미의 깔끔한 벤치마크는 아니지만, 대신 모델이 무엇을 할 수 있는지와 어디서 무너지는지를 더 생생하게 보여 준다.
이 때문에 논문 전체의 톤도 독특하다. 숫자와 표가 많지만, 동시에 실험실 노트처럼 읽히는 대목이 많다. “이 문제를 던져 봤더니 이런 식으로 풀었다”, “여기서는 꽤 인상적이었지만 여기서는 갑자기 흔들렸다” 같은 서술이 반복된다. 덕분에 이 논문은 단순한 성능 보고서라기보다, GPT-4라는 모델을 처음 마주한 연구자들이 그 범위를 탐색하는 기록에 더 가깝다.
2. 가장 설득력 있게 읽히는 증거들
2-1. 멀티모달과 조합 능력
초반부에서 저자들이 가장 먼저 보여 주는 것은 GPT-4의 조합 능력이다. 이미 알고 있는 걸 그대로 꺼내 오는 수준이 아니라, 서로 멀리 떨어져 있는 개념과 표현 방식을 한 번에 묶는 장면이 계속 나온다. 시를 쓰게 하거나, 수학적 아이디어를 다른 문체로 바꾸게 하거나, 시각적 결과를 만들기 위한 중간 설계를 요청했을 때 꽤 높은 수준의 응답이 나온다는 것이다.
이 흐름은 이미지 생성 예시에서 더 직관적으로 느껴진다. 여기서 중요한 건 GPT-4가 직접 그림을 그렸느냐가 아니라, 복잡한 언어 지시를 구조화해서 시각 결과로 연결하는 능력이 어느 정도인가 하는 점이다.

이 예시를 보고 나면 저자들이 왜 GPT-4를 단순한 텍스트 생성기로만 보지 않았는지 이해된다. 모델 하나가 모든 걸 직접 수행한다기보다, 여러 도구와 시스템을 이어 붙였을 때 중심 인터페이스처럼 작동할 수 있다는 감각이 여기서 생긴다. 논문은 바로 그 가능성을 범용성의 중요한 신호로 읽는다.
2-2. 코딩은 왜 특히 강하게 보였나
논문에서 가장 강한 인상을 남기는 장은 아마 코딩일 것이다. 이유는 단순하다. 인상적인 데모 수준이 아니라, 비교적 명확한 수치와 실제 작업 사례가 함께 나오기 때문이다. 저자들은 GPT-4가 HumanEval에서 zero-shot pass@1 82%를 기록했다고 보고하고, 여기에 더해 사전학습 시점 이후에 공개된 LeetCode 문제 100개를 따로 모아 별도 평가까지 수행한다. 이 추가 평가에서 GPT-4는 overall pass@1 38%, pass@5 53%를 기록했고, 비교 대상으로 둔 인간 표본의 overall pass@1 38.2%에 근접한 수준을 보였다. 중요한 건 단순히 수치가 높다는 사실보다, 이미 알려진 벤치마크를 외워서 푼 결과가 아니라는 점을 확인하려 했다는 데 있다.
먼저 HumanEval 표를 보면 GPT-4가 이전 세대 모델과 얼마나 큰 차이를 만들었는지가 비교적 깔끔하게 보인다.

그리고 이어지는 LeetCode 표는 이 상승이 한정된 벤치마크에만 묶여 있지 않다는 점을 보여 준다. 사후에 모은 문제 세트에서도 일정 수준의 문제 해결력이 유지되기 때문이다.

이 두 표를 같이 보면 논문이 왜 GPT-4를 단순한 코드 자동완성기보다 더 넓게 해석했는지 납득된다. 본문에는 시각화 코드, 게임 코드, 프런트엔드, LaTeX 변환, 기존 코드 해석 같은 예시가 연달아 붙어 있는데, 핵심은 문법을 맞추는 수준이 아니라 명세를 읽고 작업 단위를 구성하는 능력이 꽤 좋다는 점이다. 물론 실수는 남아 있지만, 실무에 가까운 형태의 코딩 보조로는 이미 매우 강한 수준이라는 것이 이 장의 결론이다.
2-3. 수학에서는 인상과 한계가 동시에 드러난다
수학 장은 코딩 장보다 더 신중하게 읽는 편이 좋다. 저자들은 GPT-4가 수학 대화를 이어 가고, 풀이 전략을 제안하고, 어느 정도 고급 개념까지 다룰 수 있다고 말한다. 벤치마크 수치도 상당히 높다. 논문에 따르면 GPT-4는 GSM8K 87.1%, MATH 42.5%, MMMLU-STEM 82.7%를 기록했다. 다만 저자들은 바로 이어서 중요한 단서를 단다. 이 모델의 문제는 수학적 구조를 전혀 이해하지 못해서라기보다, 복잡한 계산과 긴 전개에서 계획과 검산이 불안정해진다는 데 있다는 것이다.
그 양면성은 아래 표 하나로 꽤 잘 정리된다. 성능 점프는 분명하지만, 그렇다고 해서 곧바로 전문가 수준이라고 부르기에는 여전히 빈틈이 크다.

그래서 이 장에서 정말 기억할 건 “GPT-4가 수학을 잘한다”가 아니라, 놀랄 만큼 잘 푸는 순간과 어이없게 무너지는 순간이 같은 모델 안에 함께 존재한다는 사실이다. 이 불균형이야말로 저자들이 뒤에서 한계를 길게 다루는 이유가 된다.
2-4. 사람을 이해하고, 맥락을 판별하는 능력
이 논문이 흥미로운 또 다른 이유는 단순 생성 능력만 다루지 않는다는 점이다. 저자들은 theory of mind 실험, 현실적인 사회 시나리오, 설명 가능성 과제를 통해 GPT-4가 사람의 믿음과 의도를 꽤 정교하게 다룬다고 주장한다. 물론 이것이 곧 인간의 마음을 진짜로 이해한다는 뜻은 아니다. 하지만 적어도 언어적·사회적 맥락을 구조적으로 해석하는 능력이 전작보다 크게 올라간 것은 사실이라는 쪽에 무게를 둔다.
이 흐름이 숫자로 가장 선명하게 드러나는 장면이 PII 탐지다. 저자들은 문장 속 개인정보 요소 개수를 세는 과제를 만들고 GPT-4를 전용 시스템 Presidio와 비교했는데, exact match는 GPT-4가 77.4%, Presidio가 40.8%였다고 보고한다. 여기서 중요한 건 정규식처럼 기계적으로 잡아내는 것이 아니라, 맥락을 보고 무엇이 개인정보인지 판별해야 한다는 점이다.

이 예시를 보면 왜 일반 모델이 특정 판별 과제에서 예상보다 강할 수 있는지 감이 온다. 문맥을 읽고 범주를 해석하는 능력이 충분히 올라가면, 전용 규칙 시스템보다 더 유연하게 움직일 수 있기 때문이다.
3. 그런데 왜 제목이 AGI가 아니라 sparks of AGI일까
이 논문이 흥미로운 이유는 저자들이 과감한 주장을 하면서도, 마지막 선은 넘지 않기 때문이다. 제목을 보면 바로 알 수 있다. 저자들은 GPT-4를 완성된 AGI라고 선언하지 않는다. 대신 AGI의 불꽃이라고 부른다. 이 표현에는 두 가지 뜻이 함께 들어 있다. 하나는 분명히 이전 세대와 다른 종류의 일반성이 보인다는 점이고, 다른 하나는 아직 결정적인 결핍이 남아 있다는 점이다.
저자들이 보기에 GPT-4의 진짜 변화는 개별 점수가 높아진 것보다, 서로 무관해 보이던 능력들이 한 모델 안에서 동시에 나타난다는 데 있다. 글쓰기와 코드, 수학과 설명, 도구 사용과 사회적 추론이 하나의 인터페이스에서 이어진다. 바로 이 동시성이 논문이 말하는 일반성의 핵심이다. 하지만 이 동시성만으로 AGI를 선언하기에는 아직 빠르다. 모델은 여전히 자주 틀리고, 길게 계획하는 문제에서 흔들리며, 자기 점검과 기억 유지가 안정적이지 않다. 그래서 제목도 의도적으로 절제되어 있다.
4. 이 논문이 직접 인정하는 가장 큰 한계
논문 후반부를 읽으면 분위기가 꽤 달라진다. 앞에서는 놀라운 사례가 이어졌다면, 여기서는 오히려 왜 이 모델이 아직 불완전한가가 중심이 된다. 저자들은 GPT-4를 매우 강력한 fast thinking 시스템처럼 해석한다. 즉각적인 반응, 패턴 포착, 언어적 유창성은 뛰어나지만, 긴 호흡의 계획과 검산, 장기 기억, 안정적인 자기 수정은 약하다는 뜻이다.
그 한계는 계획 실패 예시에서 아주 선명하게 드러난다. 겉으로 보기에는 그럴듯하게 문제를 풀어 가는 것 같아도, 조금만 단계가 길어지거나 여러 제약을 동시에 관리해야 하면 구조가 무너지기 시작한다.

그래서 저자들이 강조하는 병목은 단순한 산술 실수 몇 개가 아니다. 장기 기억의 부재, 지속 학습의 부재, 그리고 복잡한 문제를 끝까지 붙잡고 가는 계획 능력의 부족이 핵심이다. 이 대목이 중요한 이유는, 논문이 결국 “더 큰 다음 단어 예측기”만으로 충분한가라는 질문까지 밀어붙이기 때문이다. 저자들은 앞으로 더 깊은 AGI를 향해 가려면, 단순한 스케일업만이 아니라 계획·메모리·검증 같은 구조가 함께 붙어야 할 수 있다고 본다.
5. 사회적 함의까지 함께 봐야 이 논문이 완성된다
이 논문이 오래 남는 이유는 능력만 자랑하고 끝나지 않기 때문이다. 9장에서는 허위정보, 조작, 편향, 노동시장 영향 같은 문제를 꽤 정면으로 다룬다. 특히 사람을 설득하거나 흔드는 종류의 텍스트를 얼마나 쉽게 만들 수 있는지를 생각하면, 성능 향상은 곧바로 사회적 위해 가능성의 확대와 연결된다. 저자들도 이 점을 숨기지 않는다.
다만 여기서 한 가지 구분은 필요하다. 논문이 실험한 대상은 정렬 이전 단계의 초기 GPT-4이고, 실제 배포 모델은 이후 안전과 편향 완화를 위한 추가 튜닝을 거쳤다. 그러니 논문 속 위험 사례를 현재 서비스의 출력과 그대로 등치하면 안 된다. 그래도 메시지는 분명하다. 이런 종류의 능력이 실제로 가능해졌다면, 안전 정렬과 제품 설계, 규제 논의는 부수적인 장식이 아니라 중심 과제가 되어야 한다는 것이다.
6. 마지막으로 무엇을 기억하면 좋을까
이 논문을 한 문장으로 줄이면 이렇다. GPT-4는 아직 완성된 AGI는 아니지만, 인간이 일반 지능이라고 불러 온 여러 특성이 한 모델 안에서 동시에 나타나기 시작했다는 사실을 보여 준다. 이게 바로 저자들이 말하는 sparks의 의미다.
그래서 이 논문은 찬양과 냉소 사이에서 읽는 게 가장 좋다. “드디어 AGI가 왔다”라고 말하기에도 이르고, “그냥 다음 단어 예측기일 뿐”이라고 잘라 말하기에도 이미 너무 많은 것이 벌어졌다. 오히려 더 정확한 태도는, 놀라운 일반성과 명백한 구조적 결함이 동시에 커지고 있다는 사실을 함께 보는 것이다. 이 두 문장을 동시에 붙잡을 수 있을 때, 이 논문이 왜 2023년 이후 LLM 논의의 기준점처럼 남았는지도 자연스럽게 보인다.
'AI논문' 카테고리의 다른 글
| Prompt Engineering and the Effectiveness of Large Language Models in Enhancing Human Productivity (0) | 2026.04.16 |
|---|---|
| GPT Technical Report (1) | 2026.04.16 |
| The Iceberg Index: Measuring Workforce Exposure in the AI Economy (0) | 2026.04.16 |
| Core-Aware Selective KV Compression for Reasoning Traces (0) | 2026.04.16 |
| Mixture of Experts (0) | 2026.04.16 |