Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link
Thời Sự
Những nạn nhân khốn khổ của nhóm chuyên dùng ảnh ghép, đồi trụy để đòi nợ
Th7
Thể Thao
Real Madrid loay hoay tái thiết: Khi Vinicius và Mbappe ganh nhau
Th7
Thời Sự
Điểm sàn một ngành của Học viện Kỹ thuật Mật mã là 24
Th7
Video
BÍ QUYẾT NẤU MÌ NƯA XÀO KIM CHI THỊT BÒ | MON NGON MOI NGAY
Th7
Thời Sự
Nghệ An di dời hàng chục hộ dân khỏi vùng sạt lở
Th7
Thời Sự
Bão số 3 Wipha đổ bộ đất liền, Hà Nội ảnh hưởng như thế nào?
Th7
Thể Thao
VCK U15 Quốc gia 2025: SLNA có chiến thắng đậm
Th7
Thời Sự
Loạt thí sinh có tổng điểm xét tuyển rất cao nhưng lại trượt tốt nghiệp năm 2025
Th7
Video
BÚN BÒ GIÒ HEO NGON TUYỆT VỜI CHO BỮA SÁNG | MÓN NGON NGÀY
Th7
Công Nghệ
Các chương trình ưu đãi đặc quyền dành cho người dùng Galaxy Z Flip7 FE 5G
Th7
Công Nghệ
Bán ô tô điện dễ như bán điện thoại, công ty được ví như ‘Apple của châu Á’ nổi lên là đế chế công nghệ toàn năng, khiến các đối thủ phương Tây e dè
Th7
Thời Sự
6 tiếng sinh tồn nghẹt thở của người đàn ông bị sóng đánh rơi xuống biển
Th7
Thể Thao
Quảng Nam rút khỏi V-League, đội của Công Phượng sáng cửa lên thay
Th7
Giải Trí
NSƯT Kim Tuyến gợi cảm làm giám khảo cuộc thi có giải thưởng hơn nửa tỷ
Th7
Thời Sự
Trường ĐH Khoa học Xã hội và Nhân văn Hà Nội công bố điểm sàn xét tuyển năm 2025
Th7
Video
PIZZA PHỞ HẢI SẢN | MÓN NGON MỖI NGÀY
Th7
Công Nghệ
Google Pixel 10 lộ ảnh render chính thức: Nhiều màu sắc trẻ trung, cụm 3 camera
Th7
Công Nghệ
Viettel đang ‘đào vàng’ dưới biển theo cách của riêng mình
Th7
Công Nghệ
Samsung sắp “khai tử” dòng Galaxy S Plus vào năm tới
Th7
Công Nghệ
Điều hòa âm trần là gì? Có mấy loại? Ai nên sử dụng điều hòa âm trần?
Th7
Thời Sự
Phát hiện 1 thi thể nam giới gần hiện trường vụ lật tàu Vịnh Xanh 58
Th7
Thể Thao
MU đặt mục tiêu bất ngờ cho mùa giải mới
Th7
Giải Trí
‘Dịu dàng màu nắng’ tập 35: Gã chồng vũ phu tìm tận nhà trọ đánh Thảo
Th7
Video
LƯƠN KHO CỦ NÉN NGON TUYỆT HẢO | MÓN NGON MỖI NGÀY
Th7
Thể Thao
Arsenal chính thức nổ ‘bom tấn’ 73,5 triệu euro
Th7
Công Nghệ
Vietcombank cảnh báo đến khách hàng một chiêu lừa mới, ai cũng nên biết để tránh mất tiền oan
Th7
Công Nghệ
Vệ tinh Trung Quốc có thể chụp ảnh khuôn mặt từ quỹ đạo 100km
Th7
Công Nghệ
Điều hoà Gree của nước nào? Có tốt không? Nên mua mẫu nào cho gia đình?
Th7
Thời Sự
Đảng bộ các cơ quan Đảng phường Chương Mỹ tổ chức thành công Đại hội lần thứ nhất
Th7
Thể Thao
Đình Bắc báo tin cực vui trước trận U23 Việt Nam đấu U23 Campuchia
Th7
Thời Sự
Thủ khoa có tên lạ, tốt nghiệp đại học điểm gần tuyệt đối
Th7
Video
CUA RANG SỐT TẮC NGON TỪ BIỂN | MÓN NGON MỖI NGÀY
Th7
Thể Thao
Nhận định, soi tỷ lệ nữ Đức vs nữ Tây Ban Nha 02h00 ngày 24/7, bán kết EURO nữ 2025
Th7
Công Nghệ
Tận dụng tối đa OPPO Reno14 Series nhờ loạt mẹo hay giúp máy bền pin lâu chụp đẹp
Th7
Công Nghệ
Acer Việt Nam ra mắt chương trình ưu đãi Back To School 2025: Laptop Siêu Hạng – Ra Trường Trước Hẹn
Th7
Công Nghệ
Nvidia lên tiếng sau tuyên bố của Dược Sĩ Tiến
Th7
Công Nghệ
Cách tắt thông báo sinh nhật trên Zalo của mình và bạn bè cực đơn giản
Th7
Thời Sự
Đại hội điểm Chi bộ MTTQ phường Thượng Cát: Khẳng định vai trò trong giai đoạn mới
Th7
Thời Sự
Công ty trùm giang hồ Vi ‘ngộ’ từng là cổ đông bỏ ngoài sổ sách hơn 33 tỷ đồng
Th7
Thể Thao
Kết quả bóng đá hôm nay 22/7: U23 Việt Nam, Thái Lan vào bán kết Đông Nam Á
Th7
Thời Sự
Nhiều trường cho học sinh tan sớm hoặc tạm nghỉ để tránh bão Wipha
Th7
Radio My
Chồng tơ tưởng người cũ còn trách vợ không chịu làm điều này để mình phải ra đi ‘tay trắng’
Th7
Video
SỤN HEO XÁO NGHỆ TỐT CHO SỨC KHOẺ | MÓN NGON MỖI NGÀY
Th7
Công Nghệ
Galaxy Z Fold7 và Z Flip7 đang bán cực chạy ở thị trường tỷ dân này
Th7
Công Nghệ
TGDĐ + Cake by VPBank cung cấp dịch vụ trả sau MWG PayLater: Hạn mức đến 40 triệu, ưu đãi 0%
Th7
Công Nghệ
AI làm phản, nói dối người dùng và tự ý xóa TOÀN BỘ cơ sở dữ liệu của công ty
Th7
Công Nghệ
FBI đánh sập trang web tải game lậu Nintendo Switch lớn NSW2U
Th7
Thời Sự
Chuẩn bị chu đáo cho Đại hội Đảng bộ xã Quảng Oai lần thứ nhất, nhiệm kỳ 2025 – 2030
Th7
Radio My
Ngày anh đưa ô, em đưa trái tim mình
Th7
Thời Sự
Nữ sinh gọi điện xin gia đình chuyển 370 triệu đồng, nếu không sẽ bị ‘chặt ngón tay’
Th7
Thể Thao
PSG thắng Real Madrid 4-0: Quả bóng vàng cho Ousmane Dembele
Th7
Video
Cách làm NGHÊU NƯỚNG XỐT ME dai ngọt, ngon mê say | MÓN NGON MỖI NGÀY
Th7
Radio My
8 nguyên tắc tiền nong người khôn ngoan sẽ làm càng sớm càng tốt
Th6
Thời Sự
Hội đồng trường không gây tốn kém, không cần xóa bỏ
Th7
Video
Món tiết canh ngựa siêu ngon | Nhịp Sống Tây Bắc
Th6
Sức Khỏe
Vẻ đẹp Trương Bá Chi thời đôi mươi
Th6
Sức Khỏe
Những loại trái cây giàu magie giúp chống viêm hiệu quả
Th6
Thể Thao
CLB châu Á đầu tiên giành chiến thắng tại FIFA Club World Cup 2025
Th6