AI도 고민한 2025년 수능! 챗GPT vs 한국 AI 모델 성능 비교

2025년 수능이 "불수능"이라는 말이 나올 정도로 어려웠다는 것, 알고 계신가요?

실제로 한국교육과정평가원장이 책임지고 사퇴하는 사건까지 발생했을 만큼 심각한 상황이었습니다.

그런데 더 놀라운 사실이 있습니다.

AI(인공지능)에게 직접 수능 문제를 풀게 했더니, 한국 AI 모델은 20점대에 그쳤다는 것입니다.

이 결과는 단순한 성적 비교를 넘어, 한국 AI 기술의 현주소와 국제 경쟁력을 여실히 보여줍니다.

서강대 수학과 김종락 교수 연구팀은 2025년 12월 15일, 국가대표 AI 프로젝트에 참여 중인 국내 5개 팀의 대규모언어모델(LLM)과 챗GPT 등 해외 5개 모델을 대상으로 수능 문제를 풀게 했습니다.

테스트 결과는 정말 충격적이었습니다.

단순 추론만 사용한 조건에서 해외 모델인 제미나이는 92점을 기록한 반면, 한국 모델 최고 점수는 솔라 프로-2가 받은 58점이었습니다.

나머지 한국 모델들은 모두 40점 이하로 떨어졌고, 경량 모델인 라마 바르코는 단 2점을 받았습니다.

연구팀은 테스트 조건을 완화해 Python 계산 도구 사용과 3회 시도를 허용했습니다.

이 조건에서 해외 모델들은 대부분 90점 이상을 받았고, 그록은 만점까지 기록했습니다.

한국 모델도 개선되었지만 여전히 격차가 컸습니다.

솔라 프로-2는 70점, 엑사원은 60점에 머물렀고, 나머지는 40점 이하였습니다.

한국 모델이 계산 툴을 사용할 수 있도록 설정했음에도 낮은 정답률을 보였다는 점은 단순한 계산 능력 부족이 아니라, 더 근본적인 문제 이해력과 논리적 추론 능력의 한계를 드러냅니다.

2025년 수능의 난이도는 실제로 매우 높았습니다.

영어 영역의 1등급 비율은 3.11%로 절대평가 도입 후인 2018년 이후 최저치를 기록했습니다.

BBC 등 해외 언론에서도 한국 수능 난이도를 주목할 정도였죠.

이 때문에 교육과정평가원장이 책임지고 사퇴했고, 수험생들과 학부모들의 큰 불만이 이어졌습니다.

AI마저 고민할 정도라니, 한국 수능의 난이도가 국제적으로도 인정받는 것 같습니다.

김종락 교수는 "한국 AI가 해외 프런티어 모델과의 기술 격차를 좁히기 위해선 근본적인 모델 구조 개선과 데이터 품질 강화가 필요하다"고 지적했습니다.

구체적인 문제점을 살펴보면,

첫째, 한국 모델들은 직접적인 계산이나 패턴 인식에는 어느 정도 능력을 보였지만 다단계 논리적 추론이 필요한 수능 고난도 문제에서 취약했습니다.

둘째, 해외 모델들은 한국어 자체의 복잡한 문법과 의미를 정확하게 파악해 문제를 풀었지만, 한국 모델들은 한국 데이터로 충분히 학습되지 않은 면이 있습니다.

셋째, 대규모언어모델은 학습 데이터의 양과 질에 크게 영향을 받는데, 한국 모델들의 학습 데이터가 해외 모델만큼 방대하지 않거나 교육적 난제까지 포함하지 못했을 가능성이 있습니다.

흥미로운 사실이 하나 더 있습니다. 한국은 전 세계에서 3번째로 많은 초거대 AI 모델을 보유하고 있습니다.

미국이 125~128개, 중국이 95개를 보유한 가운데, 한국은 14개로 3위입니다.

기업별로는 LG가 5개 모델로 국내 최다 보유 중이며, 네이버와 삼성은 각각 3개씩 보유하고 있습니다.

하지만 수량 3위가 질 3위를 의미하지는 않습니다.

스탠퍼드대의 'AI 인덱스 2025' 보고서에 따르면, 한국의 "주목할 만한(Notable) AI 모델"은 LG의 엑사원 3.5 단 하나에 불과합니다.

정부가 추진 중인 "국가대표 AI" 프로젝트는 이런 기술 격차를 해소하기 위한 시도입니다.

하지만 이번 수능 테스트 결과는 아직 갈 길이 멀다는 것을 명확히 보여줍니다.

개선을 위해서는 더 정교한 신경망 아키텍처 개발, 교육·과학·철학 등 다양한 분야의 고품질 데이터 확충, 한국어 맥락 파악과 문맥 이해력 향상, 복잡한 논리 체계를 이해하고 적용하는 추론 능력 강화, 그리고 민·관 협력을 통한 지속적인 기술 개발이 필요합니다.

이번 AI 수능 테스트는 단순한 성적 비교를 넘어, 한국 기술의 현재 위치를 객관적으로 보여주는 거울입니다.

한국 AI가 뒤처진 것은 사실이지만, 한국은 반도체와 5G 등에서 글로벌 리더이고 AI 개발도 빠르게 추진 중입니다.

특히 한국어 처리와 논리 추론 능력 강화에 집중하면 2~3년 내에 상당한 격차 축소가 가능합니다.

개인적으로는 AI 학습 앱 이용 시 챗GPT나 제미나이가 한국 앱보다 더 정확할 수 있다는 점을 참고하시고, 한국 AI 개발에 투자하는 기업들의 성장 가능성도 주목해 볼 만합니다.

스페이스X 2026년 상장 확정, 1조 5천억 달러 사상 최대 IPO 전망 (0)	2025.12.23
유데미·코세라 3조 6천억 원 합병, 온라인 교육 판도가 바뀐다 (0)	2025.12.22
비트코인 8만 6천 달러 붕괴! 2026년 4만 달러 추락설의 진실 (0)	2025.12.18
2026년, 이렇게 바뀝니다: 구하라 법, 약물운전 단속, 제로슈거 표기법 (1)	2025.12.16
미국 금리 인하, 내 통장은 어떻게 될까? (0)	2025.12.11