News :
Người phụ nữ SN 1971 giao dịch chuyển khoản 20 triệu đồng với Vũ Văn Luyện: Công an lập tức yêu cầu làm việc Bé gái 6 tuổi chảy máu vùng kín suốt 4 năm, đi khám mới phát hiện thứ “không ai ngờ” bên trong Nhận định Becamex TPHCM vs Nam Định: Khó cản Xuân Son Cảnh khác lạ tại hồ nước thải của công ty hoá chất từng phủ váng vàng dày đặc Báo Indonesia: U17 Việt Nam xuất sắc hạ U17 Malaysia Cầu tiền tỷ xây xong phải rào chắn lại, lãnh đạo phường nêu lý do liên quan 5 hộ dân Bí ẩn ngôi chùa hơn 700 năm giữa sông Trường Giang, lặng lẽ ẩn hiện theo mùa nước Huyết áp cao ảnh hưởng đến cơ thể thế nào? Nghỉ Giỗ Tổ ngay sát 30/4-1/5, nhiều gia đình ‘chốt’ kỳ nghỉ dài tới 9 ngày Elon Musk có thừa nhận bất ngờ về Robotaxi, tại sao Tesla lại thận trọng hơn với sản phẩm mới? Luộc vịt thêm loại hạt này, thịt ngọt thơm, không còn mùi hôi Khi nghỉ việc người lao động được nhận những khoản tiền nào? Lời khuyên đến những gia đình tự trồng giá đỗ Cưới chồng U50 vì khối tài sản khủng, vừa xong đêm tân hôn tôi đã ngã quỵ khi thấy 2 món quà anh đặt sẵn trên bàn Đình Triệu và Trung Kiên tỏa sáng, HAGL cưa điểm với Hải Phòng Dự báo thời tiết 25/4/2026: Miền Bắc nắng nhẹ quanh 30 độ trước khi lại mưa giông Thông báo “nóng” đến tất cả người dùng iPhone nhận được email có nội dung sau 4 việc “cho thêm tiền” cũng đừng làm ngay sau khi ăn, nhiều người lại tưởng tốt làm mỗi ngày U17 Việt Nam thắng tưng bừng Malaysia, vô địch Đông Nam Á Người đàn ông nuôi động vật hoang dã quý hiếm trái phép suốt 4 năm tại nhà Người từng chuyển khoản vào các tài khoản Vietcombank, BIDV dưới đây khẩn trương trình báo công an trước ngày 10/5 Sau tuổi 40, đàn ông dễ “tụt phong độ”: Thủ phạm không chỉ là tuổi tác Video bóng đá U17 Việt Nam 3-0 U17 Malaysia: Chức vô địch tuyệt đối Người phụ nữ tử vong trên đường ở Ninh Bình, cơ thể có nhiều vết thương Ngân hàng Nhà nước cảnh báo quan trọng liên quan đến dữ liệu sinh trắc học Galaxy Z Fold 8 Wide lộ thiết kế chi tiết: mỏng hơn và nhỏ gọn hơn đáng kể so với Huawei Pura X Max Cây đinh lăng được ví như Thần giữ của: Đặt chỗ nào để giữ Lộc giữ Tiền? Trong thời hạn thực hiện hợp đồng có được tự ý thay công việc, địa điểm làm việc không? 5 sai lầm khi trồng lưỡi hổ khiến cây mãi không “lên” Rộ tin Pep Guardiola rời Man City dẫn dắt tuyển Italia Công an công bố tin nhắn phải xóa ngay nếu không muốn mất tiền trong tài khoản Dune Awakening tắt PvP bắt buộc vì hơn 80% người chơi không thích đối đầu với nhau LPBank công bố tài liệu ĐHĐCĐ 2026: Thành lập ngân hàng con 100% vốn tại VIFC Các bác sĩ khuyên: Dấu hiệu nguy hiểm nhất của ung thư phổi KHÔNG PHẢI đau ngực, mà là sự xuất hiện của 4 thứ Hình ảnh không ngờ về diễn viên Quốc Tuấn, NSND Bùi Bài Bình Đánh bại đội của Thanh Thúy, HC Đức Giang vào chung kết Cúp Hùng Vương Lần thứ 3 hoãn xét xử vụ đốt quán cà phê làm 11 người tử vong ở Hà Nội OPPO Find X9 Ultra sắp ra mắt tại Việt Nam – ULTRA mạnh nhất trong các dòng Ultra Cây thiết mộc lan hợp mệnh nào? Trồng 1 cây trong nhà, vừa đẹp vừa hút may mắn Ngoài dầu cá, 8 thực phẩm sau đây giúp bổ sung omega-3 hiệu quả mỗi ngày Hệ sinh thái pháp lý cho kinh tế di sản cất cánh Văn Quyết nêu ‘tử huyệt’ khiến Ninh Bình FC của Hoàng Đức bại trận Người phụ nữ đến công an giao nộp vật nghi là băng đạn 99 viên Phantom Blade Zero rút khỏi DLSS 5 vì cam kết không dùng AI trong game Apple dành camera tốt nhất cho iPhone 20, iPhone 18 Pro có khẩu độ thay đổi Đơn xin nghỉ việc vì lương thấp mới nhất 2026? ‘Lời hứa đầu tiên’ tập 4: Thiếu gia Hải Đăng ra giá với bà trùm hoa hậu HLV Roland lần đầu có danh hiệu, U17 Việt Nam nhận thưởng lớn Sau phá 3km dải phân cách, đường Cộng Hòa sẽ được tổ chức giao thông 3 chiều Chi 25 tỷ USD để biến Tesla từ hãng ô tô thành công ty công nghệ: Elon Musk khiến cả phố Wall run sợ

Vì sao AI có thể tạo video giống thật nhưng lại không đếm nổi từ một đến mười như trẻ nhỏ?


Các mô hình video AI đang khiến Hollywood lo lắng vì khả năng tạo hình ảnh chân thực đến mức khó phân biệt thật giả. Tuy nhiên, một thử nghiệm đơn giản lại phơi bày điểm yếu đáng ngạc nhiên: hầu hết chúng không thể đếm từ 1 đến 10 một cách chính xác.

Trong vài tháng gần đây, làn sóng phát triển của các mô hình video AI đã khiến ngành công nghiệp điện ảnh toàn cầu chú ý đặc biệt. Những hệ thống như Seedance 2.0, Sora hay Veo có thể tạo ra các đoạn video với chất lượng hình ảnh chân thực đáng kinh ngạc. Nhân vật trong video có làn da với từng lỗ chân lông rõ ràng, ánh sáng phản chiếu trên bề mặt vật thể giống như quay bằng máy quay chuyên nghiệp, còn bối cảnh xung quanh chi tiết đến mức nhiều người khó phân biệt với cảnh quay thực tế.

Chính vì vậy, sự xuất hiện của các công nghệ này đã khiến Hollywood phản ứng mạnh mẽ. Một số hãng phim lớn đã lên tiếng cảnh báo về nguy cơ thay đổi toàn bộ ngành công nghiệp sáng tạo. Thậm chí theo nhiều nguồn tin, Disney đã gửi thư pháp lý tới ByteDance sau khi các công nghệ tạo video mới xuất hiện.

Tuy nhiên, giữa lúc các mô hình AI gây ấn tượng mạnh về mặt thị giác, một thử nghiệm tưởng chừng rất đơn giản lại hé lộ một giới hạn đáng chú ý. Một lập trình viên sử dụng mạng xã hội X với tài khoản fofr đã đặt ra một bài kiểm tra cơ bản: yêu cầu AI tạo video một người đàn ông đếm từ 1 đến 10 và giơ số ngón tay tương ứng.

Kết quả khiến nhiều người bất ngờ. Video được tạo ra có nhân vật với gương mặt cân đối, biểu cảm tự nhiên và bối cảnh nhà bếp chân thực. Khi nhân vật nói “one”, mọi thứ vẫn diễn ra bình thường. Nhưng ngay sau đó, hệ thống bắt đầu gặp lỗi. Nhân vật có thể lặp lại một âm vô nghĩa, hoặc nói “ten” trong khi chỉ giơ ba ngón tay. Trong toàn bộ đoạn video, số ngón tay giơ lên thường không vượt quá ba.

Điều đáng nói là những lỗi này lại càng gây cảm giác kỳ lạ bởi phần còn lại của video trông quá thật. Sự tương phản giữa hình ảnh chân thực và hành động phi logic tạo ra cảm giác mà nhiều người gọi là “hiệu ứng người giả”.

Sau khi thử nghiệm này được chia sẻ, cộng đồng mạng đã nhanh chóng biến nó thành một thử thách rộng rãi. Nhiều người thử đưa cùng một yêu cầu vào các mô hình khác như Sora của OpenAI, Veo của Google hay Kling của Trung Quốc. Kết quả gần như giống nhau: không có hệ thống nào thực hiện hoàn hảo việc đếm từ 1 đến 10.

Theo các chuyên gia, hiện tượng này không phải là một lỗi kỹ thuật đơn lẻ mà phản ánh giới hạn cơ bản của cách xây dựng mô hình AI hiện nay. Phần lớn hệ thống tạo video hoạt động bằng cách học các quy luật thống kê từ lượng dữ liệu khổng lồ, sau đó dự đoán cách sắp xếp pixel có khả năng xuất hiện tiếp theo trong mỗi khung hình.

Cơ chế này tương tự cách các mô hình ngôn ngữ lớn dự đoán từ tiếp theo trong một câu. Nhờ đó, AI có thể tái tạo những chi tiết hình ảnh rất tinh vi, bởi dữ liệu huấn luyện chứa hàng triệu ví dụ về khuôn mặt, quần áo, ánh sáng hay cảnh vật.

Tuy nhiên, khi nhiệm vụ đòi hỏi sự hiểu biết về logic hoặc kiến thức thường thức, các mô hình này bắt đầu bộc lộ hạn chế. Ví dụ điển hình là việc xử lý bàn tay con người. Một bàn tay có cấu trúc phức tạp với hàng chục khớp và cơ bắp, khiến việc mô phỏng chính xác chuyển động trở nên khó khăn.

Vì sao AI tạo video giống thật nhưng không thể đếm từ 1 đến 10 như trẻ nhỏ - Ảnh 1.

Ngoài ra, dữ liệu huấn luyện về bàn tay thường ít rõ ràng hơn so với khuôn mặt. Trong nhiều video, bàn tay nằm ở rìa khung hình, bị che khuất hoặc bị nhòe do chuyển động. Điều này khiến mô hình học được ít thông tin chính xác hơn.

Một hạn chế khác nằm ở việc mô phỏng các quy luật vật lý. Nhiều hệ thống AI hiện nay vẫn gặp khó khăn khi tái tạo các hiện tượng như dòng nước chảy, vật thể va chạm hoặc kính vỡ. Báo cáo kỹ thuật khi OpenAI ra mắt Sora cũng thừa nhận rằng mô hình chưa thể mô phỏng chính xác nhiều tương tác vật lý cơ bản.

Bên cạnh đó, video còn đòi hỏi tính nhất quán theo thời gian. Mỗi khung hình phải liên kết logic với khung hình trước đó. Tuy nhiên, các mô hình khuếch tán hiện nay xử lý thời gian như một chiều toán học trừu tượng, nên chúng không thực sự “nhớ” điều gì đã xảy ra ở những khung hình trước.

Chính vì vậy, trong một đoạn video dài vài giây, AI có thể quên mất nhân vật đã giơ bao nhiêu ngón tay trước đó và tiếp tục tạo ra những hành động không nhất quán.

Vì sao AI tạo video giống thật nhưng không thể đếm từ 1 đến 10 như trẻ nhỏ - Ảnh 2.

Trước những hạn chế này, nhiều nhà nghiên cứu đang tìm kiếm một hướng đi mới. Một trong những ý tưởng được chú ý nhất là xây dựng cái gọi là “mô hình thế giới”. Thay vì chỉ học từ hình ảnh, AI sẽ được thiết kế để hiểu cấu trúc không gian ba chiều và các quy luật vật lý chi phối thế giới thực.

Một trong những người tiên phong trong hướng nghiên cứu này là nhà khoa học Fei-Fei Li, người sáng lập bộ dữ liệu ImageNet nổi tiếng. Năm 2024, bà thành lập công ty World Labs với mục tiêu phát triển trí tuệ không gian cho AI.

Theo quan điểm của bà, để AI thực sự hiểu thế giới, hệ thống cần học được các quy luật vật lý như trọng lực, chuyển động hay cấu trúc vật chất. Đây là những yếu tố vượt xa khả năng của các mô hình chỉ dựa vào dữ liệu hình ảnh.

World Labs gần đây đã huy động được khoảng 1 tỷ USD vốn đầu tư và đang phát triển công nghệ tạo môi trường 3D từ hình ảnh hoặc văn bản. Ngoài ra, nhiều tổ chức lớn khác cũng đang theo đuổi hướng tương tự, bao gồm Google DeepMind và Nvidia.

Sự xuất hiện của những dự án này cho thấy một điều quan trọng: con đường chỉ dựa vào dữ liệu có thể đang dần chạm tới giới hạn. Để AI tiến xa hơn, các nhà nghiên cứu có thể cần một bước nhảy về kiến trúc và cách tiếp cận.

Trong bối cảnh đó, thử thách “đếm từ 1 đến 10” trở thành một phép thử thú vị. Nó nhắc nhở rằng dù các mô hình AI ngày nay có thể tạo ra hình ảnh giống thật đến đâu, việc hiểu thế giới thực vẫn là một bài toán khó hơn nhiều.

Và ít nhất ở thời điểm hiện tại, việc đếm từ một đến mười vẫn là kỹ năng mà con người làm tốt hơn máy móc.

Tags

Nga

Trung Quốc

AI tạo video

Nguồn Trang : https://soha.vn/vi-sao-ai-co-the-tao-video-giong-that-nhung-lai-khong-dem-noi-tu-mot-den-muoi-nhu-tre-nho-198260311150149399.htm