Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link
ANTARES | Highlight EP02 Ares Yang Merasa Penasaran Terhadap Zea | WeTV Original
EP155 Trailer 光之晨曦猎魔团挑战圣卫 |《神印王座》Throne of Seal | 腾讯视频 – 动漫
NSƯT Chí Trung tái xuất, thần sắc thế nào sau khi mổ 3 khối u?
Khởi công, khánh thành 80 công trình quy mô lớn dịp 30/4
Character AI là gì? Cách tải Character AI để trò chuyện cùng AI Chat
Ngẫu Hứng Lý Qua Cầu
ANH SẼ MẠNH MẼ YÊU EM chill cover
EP25期完整版: 李雪琴自曝相亲趣事,同一时间三个人给自己介绍同一个人!梁龙毛不易李雪琴上演东北一家亲! |《毛雪汪》 FULL #综艺 #毛雪汪 #李雪琴 #毛不易 #梁龙
Thắng lợi của cuộc kháng chiến chống Mỹ, cứu nước – Bài học về xây dựng lực lượng vũ trang nhân dân vững mạnh trong kỷ nguyên mới
Cấp xã mới có thể hoạt động từ 1/7
Robot ‘người nhân tạo’ cử động 1.000 cơ bắp
Tài khoản 4 năm không sử dụng bỗng phát sinh loạt giao dịch chuyển khoản, người đàn ông ở Trung Quốc lập tức đến ngân hàng rút 125 triệu: Cảnh sát vào cuộc điều tra
#CHILLCOVER | PLUGIN Affiliate Egg Pro | QUANG HÙNG
Những điểm nhấn của quần thể đô thị Sun Mega City
Hướng dẫn làm mứt cà rốt dẻo ăn lạ miệng
MÁU ĐỔ TRƯỚC SÂN CHÙA – Chuyện tâm linh Nguyễn Huy kể
NHÀ MA TẬP 126 | VẾT RẠN TÌNH THÂN – CHUYỆN MA KINH DỊ SỞN GAI ÓC – MC DUY THUẬN | FULL 4K
HLV đội U17 xin lỗi sau trận thua 0-6, báo chí Indonesia thừa nhận sự thật về thất bại của đội nhà
ベット 癒しのフルート – ストレスや不安を取り除き、心を落ち着かせます – 負のエネルギーを追い出します – 癒しの音楽, 睡眠音楽, 浄化音楽, 瞑想音楽 #shorts #浄化音楽 #癒し
Lễ hội Âm nhạc Quốc gia Estonia: Giai điệu của dân tộc, di sản của nhân loại
Một hãng smartphone đình đám hoãn ra mắt điện thoại màn hình gập thế hệ mới vì doanh số không như kỳ vọng
Với mức giá đang giảm mạnh, mẫu iPhone này đáng hơn cả iPhone 16 Pro
Nguồn cơn tranh cãi liên quan Quyền Linh
ENG SUB【侠客行不通 Hidden Master】EP03 | 虎丑者联盟破长老暴毙案 | 主演:徐志胜,范静祎
Trong ngày cưới, chú rể có hành động ‘kém duyên’ gây phẫn nộ
#CHILLBOLERO VÕNG GÁC ĐÊM XƯƠNG
10 cách tải video YouTube về điện thoại, máy tính miễn phí cực dễ
Jisoo đọ khí chất Han So Hee tại sự kiện Dior
NHÀ MA TẬP 81 | NẤU THỊT NGƯỜI – CHUYỆN MA KINH DỊ SỞN GAI ÓC – MC DUY THUẬN | FULL 4K
EP167 Trailer |《吞噬星空》Swallowed Star | 腾讯视频 – 动漫
Danh tính người đàn ông bên Phạm Băng Băng suốt 20 năm
NONSTOP 2025 MIXTAPE | NHẠC TRẺ REMIX 2025 HAY NHẤT HIỆN NAY | NONSTOP 2025 VINAHOUSE CỰC MẠNH P74
‘Áp dụng tiêu chuẩn quốc tế với nhà máy điện hạt nhân tại Việt Nam’
Tiếp tục làm sâu sắc hơn quan hệ Việt Nam – Lào
One UI 7 chưa triển khai xong, One UI 8 đã có ảnh trên tay: Dựa trên Android 16, sẽ cài sẵn trên Galaxy Z Fold7 và Z Flip7
Mẹ biển – Tập 21: Huệ chìm đắm trong cơn nghiện
Bệnh viện thu hồi sữa Hapomil của công ty bị điều tra về sữa giả
Chân dung nhà báo – “chiến sĩ” trên “mặt trận” thông tin các thời kỳ
Quang hùng | XOT XA | #CHILLCOVER |
Thuốc, thực phẩm chức năng bị vứt thành đống ven đường TP HCM
Mẹ bầu ăn kiểu này, nguy cơ con tự kỷ có thể tăng gấp đôi
[MULTI SUB]《一往无前的蓝》完整版第1期(上):消防新生硬核消防实训 | First In Last Out
Ba ôtô khách tông liên hoàn, 7 người bị thương
Cách sửa quạt hơi nước bị hỏng đơn giản tại nhà: Nguyên nhân & cách khắc phục
7 mẫu điện thoại Xiaomi mà người dùng không nên mua trong năm nay
1.000 nghệ sĩ hội tụ trong chương trình 'Mùa xuân thống nhất' THTT trên VTV1
Gala Lá xanh: Bùng nổ cảm xúc với những ca khúc đi cùng năm tháng
Những sản phẩm của Apple sẽ ra mắt trong năm nay
Báo cáo tiết lộ lý do Tổng thống Trump miễn thuế cho iPhone, laptop từ Trung Quốc – Tất cả là nhờ CEO Tim Cook?
MC Mai Ngọc tiết lộ cân nặng tháng cuối thai kỳ, khoe thực đơn toàn món dễ làm, giàu dinh dưỡng
hongkong 1| mixxing quang hùng |
Nhã Phương sở hữu khuyết điểm khó sửa ngoài đôi mắt ‘lão hóa’