Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link
Thời Sự
Trường ĐH Sư phạm Hà Nội công bố cách quy đổi điểm xét tuyển năm 2025
Th7
Radio My
Rạp cưới ở Hà Nội tan hoang vì dông lốc, gia đình chú rể chật vật chống đỡ
Th7
Video
Cách làm HÀU CHIÊN GIÒN SỐT MAYONNAISE MÙ TẠT giòn rụm | MÓN NGON MỖI NGÀY
Th7
Thể Thao
Cabin BLV: Mua Cunha, Mbeumo là chưa đủ với MU
Th7
Công Nghệ
Hướng dẫn cách thay đổi thông tin đăng ký thuế cá nhân online không cần đến cơ quan thuế
Th7
Công Nghệ
Từ ngày 1/8/2025, sẽ có 5 trường hợp SIM điện thoại bị khóa hoặc thu hồi
Th7
Công Nghệ
Máy giặt Casper của nước nào? Có tốt không? TOP 7 sản phẩm đáng mua nhất
Th7
Thời Sự
Quyết tâm xây dựng lực lượng Công an vững mạnh, vì nhân dân phục vụ
Th7
Giải Trí
Thứ rau ăn sương hít khí trời xưa rẻ bèo không ai mua, nay thành đặc sản người thành phố lùng tìm
Th7
Thời Sự
4 giờ cảnh sát truy xét kẻ liều lĩnh, lợi dụng bão Wipha để phạm tội
Th7
Thể Thao
Lý do bất ngờ khiến Gyokeres từ chối MU và Ruben Amorim
Th7
Thời Sự
Đạt 22 điểm khối D01 nên chọn trường nào ở Hà Nội năm 2025?
Th7
Radio My
Có bằng thạc sĩ ở Anh, cô gái về nước làm bồi bàn khiến dư luận xôn xao
Th7
Video
CÁCH LÀM TÔM NƯỚNG LÁ CHÚC NÓNG HỔI | MÓN NGON MỖI NGÀY
Th7
Thể Thao
Barcelona: Rashford yên tâm, Flick rất giỏi “mở khóa”
Th7
Công Nghệ
Laptop Dell core i7 vượt trội, thủ lĩnh học đường chỉ từ 18.99 triệu, HSSV – Giáo viên giảm thêm 500K
Th7
Công Nghệ
Điện thoại bạn đang dùng sạc được bao nhiêu lần?
Th7
Công Nghệ
Detergent trên máy giặt là gì? Lưu ý cần nắm để sử dụng máy giặt hiệu quả
Th7
Thời Sự
Trong năm 2025, Bộ Tư pháp hoàn thành xây dựng 6 cơ sở dữ liệu
Th7
Ẩm Thực
Đặc sản Quảng Trị thơm ngon làm từ loài cây hoang dại ở đồi cát, gai chi chít
Th7
Thời Sự
Hà Nội sẽ ‘làm sống lại’ 4 dòng sông ‘chết’ trong nội đô
Th7
Giải Trí
Cảm động lễ tang họa sĩ Lê Thiết Cương
Th7
Radio My
Vừa sinh được cháu trai, con dâu đã đưa ra đề nghị khiến tôi sững sờ
Th7
Công Nghệ
Chuyển đổi số tối ưu năng lượng, hướng đến sản xuất bao bì không phát thải
Th7
Video
CÁCH LÀM SALAD CAM ĐẬU ĐỎ NGON – BỔ – RẺ | MÓN NGON MỖI NGÀY
Th7
Thể Thao
Tin chuyển nhượng ngày 23/7: MU lần đầu tiên làm điều này sau 20 năm; Nottingham Forest ‘mời’ Man City chiêu mộ đội trưởng
Th7
Công Nghệ
TOP 10 mẫu nồi cơm điện Panasonic chất lượng, giá rẻ cho gia đình
Th7
Thời Sự
Sẵn sàng cho Đại hội đại biểu Đảng bộ Công an thành phố lần thứ XXIX, nhiệm kỳ 2025 – 2030
Th7
Ẩm Thực
Cách nấu canh măng móng giò đơn giản, thơm ngon tại nhà
Th7
Thời Sự
Đến năm 2030, sân bay Gia Bình đón khoảng 30 triệu hành khách
Th7
Thể Thao
Xem trực tiếp bóng đá U23 Việt Nam vs U23 Campuchia ở đâu, kênh nào?
Th7
Giải Trí
Diễn viên Hoàng Hà và ‘Điều ước cuối cùng’
Th7
Thời Sự
Học viện Báo chí và Tuyên truyền công bố điểm sàn xét tuyển năm 2025
Th7
Radio My
Hiếm muộn 5 năm mới có tin vui, tôi chết lặng trước câu nói của mẹ chồng
Th7
Radio My
Thấy 4 mẹ con ôm nhau giữa dông lốc, người đàn ông Hà Nội có hành động ấm lòng
Th7
Video
CÁCH LÀM ĐÙI GÀ BARBECUE NGON HẾT SẨY | MÓN NGON MỖI NGÀY
Th7
Công Nghệ
Không đùa đâu: MacBook Pro chơi Cyberpunk 2077 cả trăm FPS, còn hai mẫu Mac “quốc dân” cũng chạy vèo vèo
Th7
Công Nghệ
Dahua là thương hiệu gì? Đến từ đâu? Có bán tại Thế Giới Di Động không?
Th7
Công Nghệ
iOS 18.6 beta RC ra mắt: Toàn bộ những điểm mới và thay đổi
Th7
Công Nghệ
Samsung Galaxy A24 giá bao nhiêu? Có nên mua ở thời điểm hiện tại?
Th7
Thời Sự
Lưu lượng hồ thủy điện Bản Vẽ gần đạt đỉnh, tỉnh Nghệ An chỉ đạo khẩn
Th7
Radio My
Bước tiếp hành trình mới
Th7
Giải Trí
Kinh nghiệm khám phá khu chợ đêm tấp nập nhất Lạng Sơn dù đã tồn tại hàng trăm năm
Th7
Thể Thao
Lịch thi đấu bóng đá hôm nay 22/7: U23 Việt Nam xuất trận
Th7
Thời Sự
Trường ĐH Công nghiệp Hà Nội công bố điểm sàn xét tuyển năm 2025
Th7
Radio My
Ước mơ của người thợ ở TPHCM hơn 40 năm bám vỉa hè khắc chữ thủ công
Th7
Video
Cách làm CÁNH GÀ CHIÊN COCA cực ngon | MON NGON MOI NGAY
Th7
Thời Sự
Ninh Bình: Sóng biển cuộn bờ, người dân vô tư đứng checkin trước bão
Th7
Thể Thao
Nhận định U23 Việt Nam vs U23 Campuchia: Thắng vào bán kết
Th7
Giải Trí
Dương Domic chao đảo, Phương Anh Đào dẫn đầu thử thách thể lực
Th7
Thể Thao
Scottie Scheffler áp đảo vòng 2 The Open 2025
Th7
Thời Sự
Phát hiện xác cá heo trên sông ở Cà Mau
Th6
Video
Cách làm LẨU TẢ PÍ LÙ thơm ngon “quyến rũ” | MÓN NGON MỖI NGÀY
Th7
Quang Hùng Video
GỌI ĐÒ QUANG HÙNG
Th4
Thời Sự
Dự báo thời tiết 2/7/2025: Diễn biến mưa lớn ở miền Bắc, có nơi vẫn 150mm
Th7
Thời Sự
Bộ Công an thông tin vụ sữa giả Hiup và dầu ăn chăn nuôi dùng cho người
Th7
Video
GỎI CÁ
Th6
Radio My
Chồng qua đời, tôi được người quen giới thiệu 3 người đàn ông, nhưng chỉ vài tuần gặp nhau, họ đã khiến tôi ‘bỏ chạy’
Th6