Theo các nghiên cứu nội bộ và độc lập, tỷ lệ “ảo giác”, tức hiện tượng AI bịa ra thông tin sai lệch, đang tăng lên đáng kể ở các thế hệ chatbot mới.
Trong khi các hệ thống trí tuệ nhân tạo đang ngày càng giỏi hơn trong việc giải toán và viết mã, thì một nghịch lý mới lại đang khiến giới công nghệ đau đầu: các chatbot AI càng “suy luận” tốt thì càng hay… bịa chuyện.
Một ví dụ điển hình vừa xảy ra với Cursor, một công cụ hỗ trợ lập trình đang nổi. Tháng trước, một chatbot AI của hãng bất ngờ thông báo đến người dùng rằng họ sẽ không còn được sử dụng phần mềm trên nhiều máy tính khác nhau. Thông tin này hoàn toàn không đúng, nhưng nó đã khiến nhiều khách hàng hoang mang, hủy đăng ký dịch vụ, và chỉ được dập tắt khi CEO Michael Truell phải đích thân lên tiếng đính chính trên Reddit: “Chúng tôi không có chính sách như vậy. Đây là phản hồi sai từ chatbot AI tuyến đầu.”
Sự cố này không phải cá biệt. Trên thực tế, theo các nghiên cứu nội bộ và độc lập, tỷ lệ “ảo giác”, tức hiện tượng AI bịa ra thông tin sai lệch, đang tăng lên đáng kể ở các thế hệ chatbot mới, đặc biệt là những mô hình “reasoning” chuyên xử lý các tác vụ suy luận đa bước như GPT-4 Turbo (o3) của OpenAI hay R1 của DeepSeek.

Giỏi toán, kém kiểm chứng
Khác với các chatbot cũ vốn mắc lỗi đơn giản, những hệ thống AI mới ngày nay có thể giải bài toán phức tạp, viết code dài, và “trình bày” các bước suy nghĩ như con người. Nhưng đó cũng chính là điểm yếu: càng phân tích nhiều bước, càng dễ tạo ra sai sót giữa chừng, và hệ quả là thông tin sai bị tích lũy theo từng bước một.
Trong một bài kiểm tra nội bộ của OpenAI có tên PersonQA, vốn yêu cầu AI trả lời câu hỏi về người nổi tiếng, hệ thống GPT-4 Turbo (o3) đưa ra thông tin sai lệch tới 33% số lần, gấp đôi so với phiên bản trước đó. Với phiên bản o4-mini, tỷ lệ này còn cao hơn, lên tới 48%.
Tình trạng trở nên đáng lo hơn khi áp dụng với các câu hỏi phổ thông. Trong thử nghiệm SimpleQA, o3 bịa đáp án tới 51% số lần, còn o4-mini gây sốc với mức “hallucination” 79% tức gần như 4/5 câu trả lời đều có yếu tố sai lệch.
Nguyễn Hoàng Minh, sinh viên năm cuối ngành Luật tại Đại học Kinh tế – Luật TP.HCM, từng dùng ChatGPT để hỗ trợ viết báo cáo nghiên cứu về quyền sở hữu trí tuệ. Trong phần trích dẫn, chatbot đã viện dẫn một điều khoản không hề tồn tại trong bất kỳ hiệp định nào của các tổ chức quốc tế như WIPO. Minh chỉ phát hiện ra khi bị giảng viên phản hồi rằng phần trích dẫn “không có căn cứ pháp lý”, và thừa nhận: “Nếu không kiểm tra lại, tôi đã nộp bản báo cáo với một lỗi rất nghiêm trọng.”
Tương tự, Lê Thị Hải Yến, nghiên cứu sinh ngành Dược tại TP.HCM, cho biết từng nhờ AI tóm tắt các bài báo y khoa để chuẩn bị thuyết trình. Một trong các đoạn tóm tắt trích dẫn nghiên cứu từ tạp chí NEJM, nhưng khi kiểm tra lại, bài báo đó hoàn toàn không tồn tại. “Nó… tưởng tượng ra cả bài báo. Nếu tôi tin vào đoạn đó, rất có thể sẽ bị xem là cố tình ngụy tạo dữ liệu,” Yến nói.
Vì sao càng huấn luyện càng bịa?
Theo các chuyên gia, việc đào tạo chatbot bằng dữ liệu khổng lồ từ internet không còn đủ để cải thiện chất lượng. OpenAI, Google và nhiều hãng khác giờ chuyển sang mô hình huấn luyện bằng reinforcement learning, tức để AI “thử sai” rồi học từ phản hồi. Phương pháp này cải thiện rõ ở các bài toán logic, nhưng lại không giúp ích mấy trong việc kiểm soát tính xác thực thông tin.
Laura Perez-Beltrachini, nhà nghiên cứu tại Đại học Edinburgh, cho biết: “Các mô hình mới có xu hướng học tốt một nhóm nhiệm vụ nhưng đồng thời lại ‘quên’ dần các tác vụ khác. Khả năng suy luận tăng lên nhưng độ đáng tin lại giảm.”
Một vấn đề khác là những chatbot này giờ thường hiển thị cả chuỗi “bước suy nghĩ” ra cho người dùng thấy. Trớ trêu thay, theo các nhà nghiên cứu tại Anthropic, những gì chatbot nói rằng nó đang nghĩ thực ra… không phải là cách nó thật sự vận hành. Người dùng đang bị thuyết phục bởi chuỗi lý luận hợp lý trên bề mặt, dù kết luận lại sai hoàn toàn.
Các công ty như Vectara đang theo dõi sát hiện tượng này. Họ thử yêu cầu các chatbot tóm tắt các bài báo cụ thể – một nhiệm vụ đơn giản – nhưng vẫn thấy tỷ lệ bịa thông tin dao động từ 3% đến 27%, tùy vào mô hình và phiên bản. Riêng hệ reasoning R1 của DeepSeek có tỷ lệ sai đến 14,3%, trong khi GPT-4 Turbo (o3) đạt 6,8%.
Pratik Verma, CEO của công ty Okahu, nhận định: “Chúng ta đang mất quá nhiều thời gian chỉ để xác minh chatbot có đúng hay không. Nếu không xử lý triệt để vấn đề này, giá trị thật sự của AI là tiết kiệm công sức sẽ biến mất.”
Theo
Đời sống Pháp luật
Copy link
Lấy link
Ký ức về ngày Đại thắng – Vui sao nước mắt lại trào
AI | KHỔ VỈ AI | HÀ NHI QUANG HÙNG TUYẾT NHI
TP.HCM: Khai trương Trung tâm Báo chí Lễ kỷ niệm 50 năm Ngày Giải phóng miền Nam
Hậu quả của sâu răng lâu năm I Nha Khoa Smile HT #shorts
Một hãng smartphone đình đám hoãn ra mắt điện thoại màn hình gập thế hệ mới vì doanh số không như kỳ vọng
CHUYỆN MA CHÚ 3 DUY | TẬP 229: BẾN ĐÒ THẢM ÁN
Gia đình ở Quảng Nam tá hỏa phát hiện ổ rắn 7 con trong máy điều hòa
[ENG SUB]《新游记》完整版第2期(下):叮~兄弟团get新游角色卡 | The New Journey
Trung Quốc lần đầu tiết lộ thông tin về tàu ngầm hạt nhân Type 094
Hiện tượng ‘biển sữa’ khiến giới khoa học bối rối 400 năm
【Multi Sub】FULL | EP5-1:西双版纳分组约会变大型雄竞现场! 《半熟恋人 第四季》Love Actually S4
Cha tôi, người ở lại – Tập 34: An nhận lời tác hợp Thảo – Nguyên nhưng tim nhói đau
We TV Original Duren Jatuh | Highlight 11 | Duda playboy disuruh setia
Bác sĩ: Nguy cơ nhồi máu cơ tim tăng gấp 6 lần trong tuần đầu nhiễm cúm
[THUYẾT MINH] Tay Bắn Tỉa: Báo Thù – Sniper Vengeance | Đụng Độ Nhóm Sát Thủ | Phim Lẻ YOUKU
Danh tính ‘không phải dạng vừa’ của mỹ nhân so kè ‘một 9 một 10’ với Chi Pu
❤️🔥The look of a man in love #mygirlfriendisanalien #shorts #thassapakhsu #wanpeng #cdrama #kiss
‘Lật mặt 8’ liên tục bị chê dở, Lý Hải lại phải lên tiếng
KHI KHÔNG QUANG HÙNG
SROM – Huyền thoại lữ khách công bố giải đấu quốc tế, ra mắt máy chủ mới
ROG Zephyrus G16: Laptop Gaming AI 16 inch mỏng nhẹ mạnh nhất với RTX 50 Series chính thức ra mắt tại Việt Nam
HLV MU úp mở về thương vụ Matheus Cunha, tiết lộ kế hoạch thanh lọc lực lượng mùa hè
Carnaval Hạ Long 2025: Kết nối di sản, tiên phong tỏa sáng
VTV sẵn sàng cho truyền hình trực tiếp lễ diễu binh, diễu hành 30/4
‘Kỷ nguyên vàng’ trong thám hiểm không gian của NASA
ENG SUB《神印王座》Throne of Seal EP153 | 龙皓晨陨落,采儿挑战永恒之塔,寻找伊莱克斯复活皓晨 | 腾讯视频 – 动漫
Vi khuẩn gây bệnh não ở người trẻ
audio TRUYỆN NGẮN : KẾT THÚC RỒI ĐẤY
Người Trung Quốc được cảm nhận “sờ tận tay” iPhone 17 Air
Sắp xếp tổ chức Bộ Công an phù hợp xu thế chung của đổi mới hệ thống chính trị
Không phải “Galaxy Z Flip FE”, đây mới là tên gọi mẫu smartphone màn hình gập giá rẻ sắp ra mắt của Samsung?
Tiểu Vy phản ứng ra sao khi bị nói cố tình ‘chặt đẹp’ Hoa hậu Ý Nhi
Vợ chồng đùm túm đi xe máy về quê: Bố mẹ đã già, chẳng còn nhiều dịp 30/4 nữa
Loại rau rẻ tiền nhiều chất dinh dưỡng, giúp tăng cường hệ miễn dịch
Ngọc Kem ‘độ body’ ác liệt, vòng 3 căng đét đẹt hậu chia tay ViruSs
Ảnh AI đánh lừa con người như thế nào?
Hay tv – ANH TỘC Giọng Ca Hay Nhất Miền Núi Tây Bắc – LK Nhạc Vùng Cao DISCO REMIX Căng Vỡ Loa Bass
【EP11–15】Tempatku Pulang《树下有片红房子》Drama China | Highlights
“Chiến thần” livestream bán hàng giả, trách nhiệm của sàn thương mại điện tử ở đâu?
Đoạn Tuyệt Nàng Đi Remix💘 Florentino Thẹn Thùng Nhìn Em Quay Gót Đi Mãi Anh Đứng Chết Lặng Trong Mưa
Triển lãm 300 tài liệu, hiện vật ảnh quý và trao trả hồ sơ cán bộ đi B
Nữ diễn viên bị chê trách: Con trai út cưng chiều như hoàng tử, con trai lớn với chồng cũ thì bỏ bê
Ca sĩ Duy Mạnh ra mắt ‘Bố chuột’ sau ồn ào đòi bồi thường 2,5 tỷ đồng
Dòng thời gian cover quang hùng
Vivo T4 ra mắt: Pin công nghệ mới 7.300 mAh, giá từ 6,7 triệu đồng
Thu hồi triệt để các dự án treo trong năm 2025
50 năm Thống nhất đất nước: Quảng bá hình ảnh đất nước qua những trang sách hào hùng
Nhà hát Đó tạo điểm nhấn cho Libera Nha Trang
Hàng giò chả 3 đời ở Hà Nội ngon có tiếng, giữ chữ tín nhờ ‘báu vật’ trăm tuổi
杨树林在线花式逃婚 #shorts
Cú đá hai chạm của Alvarez xuất hiện ở Serie A, gây tranh cãi nảy lửa
Chủ tịch nước quyết định đặc xá, tha tù trước thời hạn cho hơn 8.000 phạm nhân