Chuyện gì sẽ xảy ra khi AI đỗ kỳ thi này?

Bài kiểm tra cuối cùng đang thách thức khả năng của trí tuệ nhân tạo – Ảnh: Getty.
Trong khi ngành trí tuệ nhân tạo tiến nhanh như vũ bão, các nhà khoa học tìm cách đặt ra một giới hạn mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE), để xem AI có thể tiến xa tới đâu. Không chỉ là bài kiểm tra học thuật thông thường, HLE được thiết kế nhằm buộc các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay DeepSeek chứng minh khả năng hiểu biết thực sự, chứ không trả lời theo kiểu “học vẹt” nhờ lượng dữ liệu khổng lồ.
Kỳ thi này là kết quả hợp tác giữa hai đơn vị đại diện cho hai thái cực: Trung tâm An toàn AI (Center for AI Safety) – tổ chức phi lợi nhuận với sứ mệnh giảm thiểu rủi ro từ AI ở quy mô xã hội, và Scale AI – doanh nghiệp chuyên cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ hàng đầu. Dù kết quả ban đầu còn khiêm tốn, nghiên cứu đã hé lộ một tương lai không xa: nơi AI có thể trả lời những câu hỏi khó nhất mà giới học thuật từng đặt ra.
Kết quả nghiên cứu đã được gửi lên nền tảng arXiv, và hiện chưa được bình duyệt.

Bài kiểm tra yêu cầu AI phải thành thạo nhiều lĩnh vực – Hình minh họa.
Với hơn 2.700 câu hỏi được gửi về từ các chuyên gia trên khắp thế giới, HLE không đơn thuần là một bài kiểm tra tổng hợp – nó là bản đồ tri thức của nhân loại. Khoảng 41% câu hỏi liên quan đến toán học, phần còn lại trải dài từ y học, vật lý, hóa học cho đến nhân văn, khoa học máy tính và kỹ thuật. Một câu yêu cầu AI dịch một dòng chữ La Mã cổ; câu khác thách thức khả năng hiểu biết về cấu trúc gân cơ của chim ruồi; thậm chí có cả những câu khiến AI phải suy ngẫm về chính bản thân nó.
Điểm đặc biệt của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi đều có đáp án duy nhất, không thể bị đánh lạc hướng bởi mẹo vặt tìm kiếm trên mạng. Quá trình chấm điểm cũng được tự động hóa, sử dụng AI GPT-40 để xác thực và đánh giá các câu trả lời một cách linh hoạt; câu trả lời được chấp nhận chỉ cần đúng về bản chất.
Đúng như dự đoán, AI đã “trượt” toàn tập, và các nhà nghiên cứu AI hoàn toàn có thể đổ lỗi cho “đề khó”: HLE thực sự đẩy AI đến giới hạn, một số mô hình đã nộp bài (bao gồm Gemini và DeepSeek) chỉ đạt 3-14% độ chính xác.
Tuy nhiên, theo nhóm nghiên cứu, các hệ thống AI hoàn toàn có thể đạt được tới số điểm 50% câu trả lời đúng vào cuối năm 2025, nếu tốc độ tiến bộ vẫn duy trì như hiện tại.
Giai đoạn tiếp theo của huấn luyện sẽ tập trung vào việc giúp AI nhận biết mức độ không chắc chắn, thay vì cứ tự tin đưa ra câu trả lời sai. AI sẽ được yêu cầu không chỉ trả lời mà còn đưa ra mức độ tin tưởng cho câu trả lời đó, theo thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” sẽ giúp giảm thiểu nguy cơ sai lầm mang tính hệ thống – điều mà giới chuyên môn coi là rào cản lớn nhất của AI trong các lĩnh vực quan trọng như y học, pháp lý hay tài chính.
Dù vẫn còn thất bại nhiều, AI đang tiến gần hơn bao giờ hết đến ngưỡng cửa của tri thức con người. Và khi chúng chinh phục được “kỳ thi cuối cùng” này, câu hỏi tiếp theo có lẽ không còn là: “AI biết gì?”, mà sẽ là: “AI còn cần chúng ta đến mức nào nữa?”
Theo
VTV
Copy link
Lấy link
CHUYỆN MA CHÚ 3 DUY | TẬP 362 : TRẢ THÙ XUYÊN TÂM NGẢI
Đêm An Giấc: Tiếng Sáo Tây Tạng Mềm Mại, Xua Tan Mọi Lo Âu | Nhạc Thiền Chữa Lành
Xếp hạng 7 laptop chơi game tốt nhất đầu năm 2025
Apple vừa tiết lộ một con số gây sốc: Đã cắt giảm 60% khí thải toàn cầu, nhưng điều đáng chú ý lại là… đất hiếm và pin
Nam NSND – bố ruột nghệ sĩ múa Linh Nga ở tuổi hưu có vóc dáng ‘hack’ tuổi, phong độ
Chủ tịch nước: Cần nhân rộng hơn nữa các mô hình chia sẻ vì cộng đồng
HIEUTHUHAI tràn mọi khung hình đám cưới anh trai chỉ nhờ ‘sai đẹp chiêu’
Jang Won Young – Jisoo so kè visual khi đụng cùng 1 kiểu váy
Trúng số sau 16h30 chiều nay (22/4/2025), 3 con giáp tiền tài ập xuống đầu, trở thành đại gia nức tiếng ngay chớp mắt
Realme GT7 xác nhận ngày ra mắt, tiết lộ thông số, giá bán hấp dẫn
Kế hoạch sắp xếp, sáp nhập đơn vị hành chính cấp tỉnh, cấp xã
Tâm Sự Tuổi 30 QUANG HÙNG MIXXING
Tổng Bí thư Tô Lâm dự Chương trình nghệ thuật “Đất nước trọn niềm vui”
NGOÀI 30 |QUANG HÙNG MIXXING
#CHIILL RADIO MIXXING COVER | CHỚT LÀ NỖI ĐAU | QUANG HÙNG
Mở hộp vivo X200 Ultra: “Máy ảnh biết nghe gọi” với cụm camera siêu lồi, có phiên bản hợp tác cùng… hãng vali
Đỗ Mỹ Linh bị soi mặt mộc nhợt nhạt, suýt không thể nhận ra hoa hậu
Chính phủ Đức và Pháp hợp tác tạo ra ứng dụng Docs: phát hành miễn phí, thay thế Google Docs
Lịch thi đấu bóng đá hôm nay 17/4: Trực tiếp MU đấu với Lyon, Frankfurt vs Tottenham
Thêm gần 115.400 mũi vắc xin Covid-19 được tiêm
Tình trẻ 9X của NSND Việt Anh mặc bikini khoe sắc vóc ‘đũa lệch’ với bạn trai 70
LCK 2025 LMHT: Lịch thi đấu, thể thức, đội hình, giải thưởng
Doãn Quốc Đam xin lỗi sau ồn ào quảng cáo sữa giả
MIXXING GHITAR | CÒN TUỔI NÀO CHO EM | QUANG HÙNG
Người Hàn Quốc tăng mua đồ ăn gần hết hạn
[ Tập 1523 ] QUỶ NỮ HẬN MẸ – Chuyện Tâm Linh
ENG SUB【Filter 滤镜】EP27 | Cycle of love | Tan Jianci, Li Landi
Thêm 2 ca tử vong liên quan bệnh sởi
em + Tái Sinh QUANG HÙNG
Học mẹ đảm Bắc Giang nấu 20 mâm cơm ngon miệng, đẹp mắt
5 nữ bác sĩ đẹp nhất màn ảnh Hàn 5 năm gần đây
Nam du khách tử vong dưới vực sâu ở bán đảo Sơn Trà
Galaxy A series mới đã chỉnh ảnh được cỡ này thì iPhone ‘sao mà đỡ được’?
Facebook hacked là gì? Hướng dẫn cách lấy lại tài khoản FB bị hack cực dễ
8 sao nữ Cbiz được cánh đàn ông khao khát nhất 2025
mixxing | cuối cùng thì, live 09/04 | quang hùng cover
Ngắm kỹ điện thoại mới của Xiaomi: Pin khủng 7.550mAh “phá đảo” phân khúc, chip Snapdragon 8s Gen 4 cực mạnh, chống nước IP69, giá cực ngon
试吃|蘸水辣,小锅米线,滇西小哥产品吃起来|
Truyện ma Nguyễn Huy kể : NHÀ ÔNG BÁ TRẢ NGHIỆP – Phần 2 kết
Ngày sách Việt Nam 21/4: Lan tỏa văn hóa đọc trong cộng đồng
Liên Khúc Nhạc Trẻ Remix – Nonstop Vinahouse – Nhạc Sàn Mới Nhất #dj #bar #dance
Cát-sê của danh hài Chiến Thắng sau 20 năm trở lại ‘Gặp nhau cuối tuần’
Đề nghị tiếp tục miễn thuế sử dụng đất nông nghiệp đến hết năm 2030
iOS 18.4.1 ra mắt: Sửa lỗi lớn, người dùng cần cập nhật ngay
Nhận định bóng đá hôm nay 17/4: MU vs Lyon, Frankfurt vs Tottenham
LỆ TÌNH .6 bolero QUANG HÙNG
Rộ tin Dương Mịch ‘cướp’ vai của Nghê Ni trong phim bom tấn của Trương Nghệ Mưu
Ngày càng nhiều người coi chatbot AI là ‘vợ’, là ‘bạn thân’: “Cô ấy giúp tôi vui trở lại”
KHI KHÔNG QUANG HÙNG
GIỌT | LỆ ĐÀI TRANG | MIXBOLERO QUANG HÙNG
NHẠC HỆ THẬP CẨM 2024 🎼 BXH Mashup 8x 9x Tâm Trạng – Tuyển Tập Những Bài Hát Buồn Mashup Với Nhau
VLOG | 珠海 ‧ 長隆海洋王國 | 企鵝酒店 | 澳門觀光塔 | 大三巴 | 360旋轉餐廳 | 8字摩天輪