Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link
Vợ Anh Đức bối rối khi bị hỏi so sánh Trấn Thành và Victor Vũ
Hãy Lắng Nghe Khúc Nhạc… Bừng Lên Rộn Ràng Ngất Ngây!!! #khuctinhnong #phuongvu #shorts
Bùng nổ trong 11 phút, Aston Villa đại thắng Newcastle, nuôi hy vọng dự Cúp C1
Nhà hát Đó tạo điểm nhấn cho Libera Nha Trang
MIXXING | còn đó ! mà thôi | QUANG HÙNG
Bật mí 3 mẹo sử dụng OPPO Find N5 dành cho người mới cực hay mà bạn không nên bỏ qua
4 bộ phận cơ thể sẽ mạnh hơn nhờ đạp xe
Hướng dẫn cách báo cáo công ty kê khai thuế sai (sai mức thu nhập, chưa từng làm việc tại công ty đó)
517 chủ xe Hà Nội biển số sau nhanh chóng kiểm tra phạt nguội theo Nghị định 168
ENG SUB【侠客行不通 Hidden Master】EP03 武林侠会竟遭魔教入侵!(徐志胜、范静祎、王帅)
Lịch thi đấu bóng đá hôm nay 15/4: Trực tiếp Barcelona đấu với Dortmund, Aston Villa vs PSG
Alo bác sĩ nghe: Đau mỏi vai gáy khi ngủ dậy cảnh báo điều gì?
EP07预告:案件新线索浮现,苟凌风与马缨丹携手破解江湖谜题【侠客行不通Hidden Master】 #徐志胜 #范静祎 #王帅
Starlink thí điểm tại Việt Nam: Bước đột phá cho kết nối không giới hạn
Đúng 12h30 ngày thứ Tư 16/4/2025, 3 con giáp sau phúc đức ngập tràn, lộc lá đầy nhà
Tuyệt đối điện ảnh: “Nhà làm phim AI” chia sẻ từng bước tạo ra Chúa Nhẫn phiên bản Ghibli
Nhạc guitar điện phần 4
Ông xã Đỗ Mỹ Linh đeo túi ‘cá sấu bạch tạng’ nửa tỷ, nhìn sang mẹ chồng càng choáng váng
Sau khi thông báo chia đều tài sản, mẹ vợ giả ốm, con rể lộ ngay bộ mặt thật
#CHILLCOVER | Cho Anh Gần Em Thêm Chút Nữa | QUANG HÙNG
#CHILLCOVER | Nếu Lúc Trước Em Đừng Tới | QUANG HÙNG
Men gan thấp nguy hiểm không? Người có dấu hiệu này cần cảnh giác
Kiện toàn thành viên Tổ công tác cải cách thủ tục hành chính của Thủ tướng Chính phủ
U17 CHDCND Triều Tiên lập kỷ lục khi thắng đậm Indonesia ở giải châu Á
Xiaomi 16 được tiết lộ sẽ trang bị viên pin khủng 7000mAh, ra mắt cuối năm 2025
Tin chuyển nhượng hôm nay 7/6: Jack Grealish rời Man City với giá rẻ; 5 CLB châu Âu muốn chiêu mộ Garnacho
Không ăn tinh bột vào buổi tối có giúp giảm cân nhanh hơn?
Thế giới nợ Elon Musk một lời xin lỗi: X được định giá lại vượt mức 44 tỷ USD, sắp trả hết nợ, báo lãi 1,2 tỷ USD, tạo ra kỳ tích không tưởng
Tổng Bí thư Tô Lâm: Công tác hoàn thiện thể chế pháp luật phải mở đường cho kiến tạo phát triển
#CHILLCOVER DAY DỨT NỖI ĐAU | QUANG HÙNG
Có cần làm lại Căn cước, hộ chiếu… khi sáp nhập tỉnh hay không?
Có nên khai thác kim loại dưới đáy biển sâu?
em + Tái Sinh QUANG HÙNG
Nồi chiên hơi nước là gì, mua loại nào tốt? TOP 5 sản phẩm bán chạy nhất
Link xem trực tiếp bóng đá Inter Milan vs Bayern Munich 02h00 hôm nay 17/4, tứ kết Champions League
Cha tôi, người ở lại – Tập 27: Việt gặp lại mẹ trong tình huống đắng cay
Thêm 4 lô mỹ phẩm bị yêu cầu thu hồi toàn quốc
5 thức uống buổi sáng giúp da đẹp, dáng thon
Bộ đội mở cầu phao trong đêm cứu trẻ nguy kịch
Bộ Quốc phòng đề xuất danh mục tiêu chuẩn, quy chuẩn kỹ thuật đối với tàu bay không người lái
Anh hút CO2 từ nước biển để đối phó biến đổi khí hậu
Bệnh viện đa khoa Tâm Anh, VNVC xây cộng đồng chia sẻ kiến thức y khoa
Giám đốc Bệnh viện K: Hầu hết bệnh nhân ung thư phổi được phát hiện ở giai đoạn muộn
《战至巅峰》完整版第3期(上):首轮淘汰赛开战,杨幂敖子逸巅峰对决 | We Are The Champions
Ô nhiễm đô thị thúc đẩy nhu cầu máy lọc không khí
Huyện Phúc Thọ dự kiến sau sắp xếp có 3 xã: Phúc Thọ, Phúc Lộc, Hát Môn
CHILL COVER QUANG HÙNG| chi la khong
Tivi Xiaomi 100 inch giá bao nhiêu? Phù hợp cho những ai sử dụng?
2 cách tạo email trên điện thoại iPhone đơn giản, nhanh gọn nhất
Nhờ AI trên Galaxy A series mới, bạn có thể lên đường du lịch hè ngay và luôn chẳng cần sách hướng dẫn
Inter Milan loại Bayern Munich, gặp Barca ở bán kết cúp C1
Đang ngủ, nam thanh niên thiệt mạng vì cây đổ vào nhà