Theo các nghiên cứu nội bộ và độc lập, tỷ lệ “ảo giác”, tức hiện tượng AI bịa ra thông tin sai lệch, đang tăng lên đáng kể ở các thế hệ chatbot mới.
Trong khi các hệ thống trí tuệ nhân tạo đang ngày càng giỏi hơn trong việc giải toán và viết mã, thì một nghịch lý mới lại đang khiến giới công nghệ đau đầu: các chatbot AI càng “suy luận” tốt thì càng hay… bịa chuyện.
Một ví dụ điển hình vừa xảy ra với Cursor, một công cụ hỗ trợ lập trình đang nổi. Tháng trước, một chatbot AI của hãng bất ngờ thông báo đến người dùng rằng họ sẽ không còn được sử dụng phần mềm trên nhiều máy tính khác nhau. Thông tin này hoàn toàn không đúng, nhưng nó đã khiến nhiều khách hàng hoang mang, hủy đăng ký dịch vụ, và chỉ được dập tắt khi CEO Michael Truell phải đích thân lên tiếng đính chính trên Reddit: “Chúng tôi không có chính sách như vậy. Đây là phản hồi sai từ chatbot AI tuyến đầu.”
Sự cố này không phải cá biệt. Trên thực tế, theo các nghiên cứu nội bộ và độc lập, tỷ lệ “ảo giác”, tức hiện tượng AI bịa ra thông tin sai lệch, đang tăng lên đáng kể ở các thế hệ chatbot mới, đặc biệt là những mô hình “reasoning” chuyên xử lý các tác vụ suy luận đa bước như GPT-4 Turbo (o3) của OpenAI hay R1 của DeepSeek.

Giỏi toán, kém kiểm chứng
Khác với các chatbot cũ vốn mắc lỗi đơn giản, những hệ thống AI mới ngày nay có thể giải bài toán phức tạp, viết code dài, và “trình bày” các bước suy nghĩ như con người. Nhưng đó cũng chính là điểm yếu: càng phân tích nhiều bước, càng dễ tạo ra sai sót giữa chừng, và hệ quả là thông tin sai bị tích lũy theo từng bước một.
Trong một bài kiểm tra nội bộ của OpenAI có tên PersonQA, vốn yêu cầu AI trả lời câu hỏi về người nổi tiếng, hệ thống GPT-4 Turbo (o3) đưa ra thông tin sai lệch tới 33% số lần, gấp đôi so với phiên bản trước đó. Với phiên bản o4-mini, tỷ lệ này còn cao hơn, lên tới 48%.
Tình trạng trở nên đáng lo hơn khi áp dụng với các câu hỏi phổ thông. Trong thử nghiệm SimpleQA, o3 bịa đáp án tới 51% số lần, còn o4-mini gây sốc với mức “hallucination” 79% tức gần như 4/5 câu trả lời đều có yếu tố sai lệch.
Nguyễn Hoàng Minh, sinh viên năm cuối ngành Luật tại Đại học Kinh tế – Luật TP.HCM, từng dùng ChatGPT để hỗ trợ viết báo cáo nghiên cứu về quyền sở hữu trí tuệ. Trong phần trích dẫn, chatbot đã viện dẫn một điều khoản không hề tồn tại trong bất kỳ hiệp định nào của các tổ chức quốc tế như WIPO. Minh chỉ phát hiện ra khi bị giảng viên phản hồi rằng phần trích dẫn “không có căn cứ pháp lý”, và thừa nhận: “Nếu không kiểm tra lại, tôi đã nộp bản báo cáo với một lỗi rất nghiêm trọng.”
Tương tự, Lê Thị Hải Yến, nghiên cứu sinh ngành Dược tại TP.HCM, cho biết từng nhờ AI tóm tắt các bài báo y khoa để chuẩn bị thuyết trình. Một trong các đoạn tóm tắt trích dẫn nghiên cứu từ tạp chí NEJM, nhưng khi kiểm tra lại, bài báo đó hoàn toàn không tồn tại. “Nó… tưởng tượng ra cả bài báo. Nếu tôi tin vào đoạn đó, rất có thể sẽ bị xem là cố tình ngụy tạo dữ liệu,” Yến nói.
Vì sao càng huấn luyện càng bịa?
Theo các chuyên gia, việc đào tạo chatbot bằng dữ liệu khổng lồ từ internet không còn đủ để cải thiện chất lượng. OpenAI, Google và nhiều hãng khác giờ chuyển sang mô hình huấn luyện bằng reinforcement learning, tức để AI “thử sai” rồi học từ phản hồi. Phương pháp này cải thiện rõ ở các bài toán logic, nhưng lại không giúp ích mấy trong việc kiểm soát tính xác thực thông tin.
Laura Perez-Beltrachini, nhà nghiên cứu tại Đại học Edinburgh, cho biết: “Các mô hình mới có xu hướng học tốt một nhóm nhiệm vụ nhưng đồng thời lại ‘quên’ dần các tác vụ khác. Khả năng suy luận tăng lên nhưng độ đáng tin lại giảm.”
Một vấn đề khác là những chatbot này giờ thường hiển thị cả chuỗi “bước suy nghĩ” ra cho người dùng thấy. Trớ trêu thay, theo các nhà nghiên cứu tại Anthropic, những gì chatbot nói rằng nó đang nghĩ thực ra… không phải là cách nó thật sự vận hành. Người dùng đang bị thuyết phục bởi chuỗi lý luận hợp lý trên bề mặt, dù kết luận lại sai hoàn toàn.
Các công ty như Vectara đang theo dõi sát hiện tượng này. Họ thử yêu cầu các chatbot tóm tắt các bài báo cụ thể – một nhiệm vụ đơn giản – nhưng vẫn thấy tỷ lệ bịa thông tin dao động từ 3% đến 27%, tùy vào mô hình và phiên bản. Riêng hệ reasoning R1 của DeepSeek có tỷ lệ sai đến 14,3%, trong khi GPT-4 Turbo (o3) đạt 6,8%.
Pratik Verma, CEO của công ty Okahu, nhận định: “Chúng ta đang mất quá nhiều thời gian chỉ để xác minh chatbot có đúng hay không. Nếu không xử lý triệt để vấn đề này, giá trị thật sự của AI là tiết kiệm công sức sẽ biến mất.”
Theo
Đời sống Pháp luật
Copy link
Lấy link
Toàn bộ cấu hình, giá bán và ngày ra mắt của Redmi Turbo 4 Pro bị tiết lộ qua danh sách công bố sớm
Ải Hồng Nhan cover cực hay giọng đỉnh thật #nhachaymoingay #musicremix
6 nhóm thực phẩm nên chần trước khi nấu
黑白两道只为救一人 #黑白森林 #丁禹兮 #宁理 #韩雪 #shorts
MIXXING COVER | SẮP 30 | QUANG HÙNG
Truyện Ma – Dâu Trẻ Nhà Chồng – Phủ Tang Nhà Chồng – Nghe Duy Thuận kể truyện ma làng quê kinh dị
Điểm hẹn tài năng – Tập 1: Những khoảnh khắc tỏa sáng của 12 thí sinh
My MobiFone: Cách đăng ký, đăng nhập và sử dụng chi tiết từ A đến Z
Sao Dortmund lập hat-trick, Barcelona hú vía vào bán kết Cúp C1
Tôi đánh ghen với nhiều gái đẹp bên chồng, hóa ra ‘tiểu tam’ lại là đàn ông
[ENG SUB]《新游记》完整版第7期(上):新游兄弟勇闯古宅玩捉迷藏 | The New Journey
Dùng thử pin dự phòng xịn nhất của Xiaomi: Dung lượng 25.000mAh, công suất 210W, có cả màn hình giám sát, sạc từ đồng hồ tới laptop đều quá ngon lành
Hai nhóc tỳ nhà nam MC nổi tiếng VTV gây chú ý với bộ ảnh kỷ niệm hướng tới ngày 30/4
Vivo X200 Ultra chính thức ra mắt với ống kính tháo rời cực xịn sò
Doanh nghiệp dùng AI khai thác quá mức dữ liệu miễn phí, Wikimedia kêu cứu
[THUYẾT MINH] PHIM KINH DỊ: Sói Khổng Lồ Hung Bạo – The Wolves – Cuộc Chiến Sói Hoang |Phim Lẻ YOUKU
Thủ tướng Phạm Minh Chính dâng hương tri ân các Anh hùng liệt sĩ và thăm cựu tù tại Côn Đảo
Cho Dù Là Ma Nữ Thì Tôi Cũng Thịt Full 1-71 | KK VietSub
Đồ ăn vặt hàng ngày là kẻ thù thầm lặng gây tổn thương gan
iPhone 15 thường giá bao nhiêu? Đánh giá chi tiết iPhone 15
Bảng kích thước màn hình máy tính phổ biến hiện nay
mong em được vào quang hùng
Gia đình siêu mẫu Hà Anh xả kho ảnh mừng đại lễ, 2 nhóc tỳ visual lai tây đỉnh chóp
CHUYẾN TÀU HOÀNG HÔN BOLERO| QUANG HÙNG MIXXING
QUANG HÙNG | KHÓC | CHANNEL CẢM XÚC
Apple, Samsung và Google đang “hút máu” người dùng ra sao
Review – Cách ngừa Sợi bã nhờn, mụn đầu đen ở mũi #thsbsphuongquy #review #reaction #shorts
HÀM THỦY TINH – Phim Hành Động Mỹ Cực Hấp Dẫn (full Thuyết Minh)
Thời gian ơi! Kể chuyện: Những miền ký ức trong veo về giấc mơ mùa hè
Đúng 8h sáng ngày 8/5/2025, 3 con giáp đổi phận thành đại phú hào, tài lộc bội thu, tiền tiêu xả láng
Cái bẫy khiến nhiều người Việt mặc không đẹp
‘Kiều nữ’ quê Vũng Tàu nổi tiếng cả nước: Sở hữu biệt thự khắp nơi, 43 tuổi chưa chồng, bao kẻ si mê
Em Cứ Đi Đi Quang Hùng #CHILLCOVER
Khách Tây la hét om sòm rồi bỏ chạy khi trải nghiệm 1 kiểu du lịch ở Việt Nam, dân mạng nhìn độ ‘mạo hiểm’ thì bật cười
双高胎能在梦里聊天,这是中文吗 #毛雪汪 #高超 #高越 #李雪琴 #双胞胎 #shorts
【Thuyết Minh】NHÀ TRỌ TÂY HÀNH | Những cao thủ đỉnh cao tái xuất giang hồ | iQIYI Movie Vietnam
[THUYẾT MINH] Lang Chiến | Chiến binh đơn độc chiến đấu chống lại băng đảng máu lạnh | Phim Lẻ YOUKU
Lisa tại Coachella 2025: Vũ đạo và giọng hát là tâm điểm tranh cãi
Căn Nhà Ma | Thám Tử Sê Lốc Huy 30
Hieuthuhai bị lật đổ
《心动的信号S4》完整版第3期 (上):约会日→陈思铭方彬涵甜度升级 | Heart SignalS4
Người bệnh cấp cứu có buộc phải đóng tiền ngay?
Nhạc Thiền Tĩnh Tâm An Lạc – Lắng Nghe Và Cảm Nhận Sự Bình An Trong Tâm Hồn – HAY TUYỆT
Mẹ biển – Tập 22: Đại trở về, cố tình tránh mặt kẻ thù
Vợ Quý Bình không ghen khi nam diễn viên đóng chung với duy nhất một người
Mẹ biển – Tập 23: Đại tiếp tục chạm mặt Ba Sịa
Phá dỡ điểm check-in ‘vườn vô cực’ ở Sa Pa
Những bộ ba tấn công xuất sắc nhất trong lịch sử Champions League
《令人心动的offer S3》完整版第6期(上):病例汇报考核→汪苇杭临场被换题
ENG SUB【Hidden Master 侠客行不通】EP07 | A world of martial arts, the rise of a hero | WeTV
Chồng H’Hen Niê sẵn sàng làm ông bố bỉm sữa
Chấp 2 người, U17 Uzbekistan vẫn thắng thuyết phục chủ nhà, xứng đáng vô địch U17 châu Á