Vì Sao AI Có Thể Tạo Video Giống Thật Nhưng Lại Không đếm Nổi Từ Một đến Mười Như Trẻ Nhỏ?
News :
Cách truy cập và tải xuống dữ liệu cá nhân của bạn trên Facebook Vì sao motorola G57 Power 5G là chiếc điện thoại đáng mua đầu năm 2026? Galaxy S26 Ultra dùng khung nhôm thay titan: Độ bền thực tế ra sao khi thử nghiệm thả rơi? Vì sao người xưa kiêng quét nhà vào buổi tối? 4 lý do khiến nhiều gia đình vẫn giữ thói quen này Phát hiện ung thư khi đi khám sức khoẻ định kỳ Bé gái 6 tuổi tử vong nghi do chó dại cắn: BS nói chẳng may bị chó cắn cần làm ngay 1 việc để giữ mạng Real Madrid đấu Man City: Arbeloa đau đầu bởi những công thần Nồi inox: Cẩm nang toàn diện từ A-Z về các loại & cách chọn bộ nồi inox tốt nhất cho gia đình VinaPhone nhận giải mạng 5G tốt nhất Đông Nam Á từ Ookla Sức mạnh không tưởng của Mark Zuckerberg: Đang nắm trong tay Facebook với 3 tỷ người dùng, Meta vừa chi tiền mua thêm mạng xã hội cho các bot AI realme C83 5G ra mắt: Chưa tới 4 triệu có màn hình 144Hz và pin 7.000mAh Cảnh báo chấn thương tiềm ẩn nguy hiểm ở trẻ em sau tai nạn tưởng chừng nhẹ Hiệu trưởng trường tiểu học nêu lý do nhu cầu học thêm vẫn tồn tại dù bị ‘siết’ Nghệ sĩ Nguyễn Châu U80 viên mãn bên vợ kém 10 tuổi, có biệt thự cho thuê HLV Trần Tiến Đại tái xuất, ngồi ‘ghế nóng’ PVF-CAND Phạt TikToker phát tán phim ‘Thỏ ơi’ trên mạng để trục lợi Hướng Dẫn Chi Tiết Cách Kiểm Tra Gói Cước Vinaphone Nhanh Chóng và Chính Xác Nhất Trung Quốc chế tạo drone tre bay hơn 100 km/h Vì sao AI có thể tạo video giống thật nhưng lại không đếm nổi từ một đến mười như trẻ nhỏ? 3 mẹo sử dụng HONOR X8d đơn giản nhưng cực hữu ích mà người dùng nên biết Trên tay đủ 3 màu iPhone 17e chính hãng: Thiết kế không đổi, màu hồng là điểm nhấn, hiệu năng cực mạnh, giá 18 triệu Mẹo nhìn màu và đuôi tôm biết đâu là tôm tươi ngon, chắc thịt Xác định 4 cặp đấu vòng tứ kết Asian Cup nữ 2026 Không khí lạnh mới sắp tràn về, thời tiết cả nước 7 ngày tới diễn biến thế nào? Tổng Hợp Các Gói Cước 4G MobiFone Mới Nhất: Đăng Ký Ngay! MacBook Neo giá từ 15,5 triệu đồng gây sốc thị trường, ASUS thừa nhận khó cạnh tranh về giá Mẹo bảo quản hành lá nửa năm vẫn tươi ngon như mới mua WHO đưa “thần dược” 8.000 USD/lọ từ Thụy Điển về Đà Nẵng cứu 3 người ngộ độc cá ủ chua Kiến nghị giữ nguyên giá điện áp dụng đối với các trung tâm dữ liệu Kết quả bóng đá hôm nay 11/3: Mưa bàn thắng ở Cúp C1 Hướng Dẫn Chuyển Đổi Excel sang PDF Đơn Giản, Hiệu Quả Và Miễn Phí realme Note 80 ra mắt tại loạt quốc gia Đông Nam Á với pin 6.300mAh và giá dễ tiếp cận Microsoft tái khẳng định cam kết ‘dài hạn’ với mảng game, Xbox là trụ cột phát triển công ty Nhà có 5 dấu hiệu này thường dễ tụ tài lộc, càng ở lâu vận khí càng vượng Agribank điều hành tín dụng kiên định vì mục tiêu phát triển bền vững Ngân hàng tư nhân lớn nhất hệ thống vừa tăng lãi suất tiết kiệm lên vùng 7% Bé gái 6 tuổi tử vong sau khi bị chó dại cắn từ 3 tháng trước Nằm võng ăn bánh hạnh nhân, thiếu niên suýt mất mạng vì hóc dị vật Thấy vợ mới đang tắm cho con riêng, tôi vô tình chạm vào vai khiến con run bắn người vì sợ hãi, bí mật dưới lớp áo làm tôi rụng rời tay chân Viết từ nỗi đau, nhà thơ mắc bệnh nan y giành Giải thưởng Hội Nhà văn Việt Nam Viettel Campuchia và hành trình đầu tư bằng sự tử tế Hướng Dẫn Chuyển Đổi PDF Sang Word: Từ A-Z Miễn Phí, Hiệu Quả CEO NVIDIA Jensen Huang ví von AI như ‘bánh 5 lớp’, khẳng định tiềm năng lớn chưa khai thác realme P4 Power 5G gây ấn tượng với pin hơn 10.000mAh, màn hình 144Hz và Dimensity 7400 Ultra MacBook Neo giá hơn 15 triệu đồng gây bất ngờ với tốc độ SSD chậm hơn nhiều MacBook Air M5 4 loại cây trong nhà không nên mang tặng người khác, kẻo vô tình “tán lộc” của chính mình Ăn uống điều độ nhưng cholesterol vẫn tăng? Nguyên nhân nhiều phụ nữ sau 40 không ngờ tới Thích chàng ‘mọt sách’ cùng lớp, cô gái quyết lột xác và cái kết sau một thập kỷ Sáu năm làm vợ, chưa khi nào tôi thấy sợ hãi như 6 tháng sống chung với mẹ chồng Sáp nhập cơ quan báo chí, cơ hội việc làm ngành báo có giảm?

Vì sao AI có thể tạo video giống thật nhưng lại không đếm nổi từ một đến mười như trẻ nhỏ?


Các mô hình video AI đang khiến Hollywood lo lắng vì khả năng tạo hình ảnh chân thực đến mức khó phân biệt thật giả. Tuy nhiên, một thử nghiệm đơn giản lại phơi bày điểm yếu đáng ngạc nhiên: hầu hết chúng không thể đếm từ 1 đến 10 một cách chính xác.

Trong vài tháng gần đây, làn sóng phát triển của các mô hình video AI đã khiến ngành công nghiệp điện ảnh toàn cầu chú ý đặc biệt. Những hệ thống như Seedance 2.0, Sora hay Veo có thể tạo ra các đoạn video với chất lượng hình ảnh chân thực đáng kinh ngạc. Nhân vật trong video có làn da với từng lỗ chân lông rõ ràng, ánh sáng phản chiếu trên bề mặt vật thể giống như quay bằng máy quay chuyên nghiệp, còn bối cảnh xung quanh chi tiết đến mức nhiều người khó phân biệt với cảnh quay thực tế.

Chính vì vậy, sự xuất hiện của các công nghệ này đã khiến Hollywood phản ứng mạnh mẽ. Một số hãng phim lớn đã lên tiếng cảnh báo về nguy cơ thay đổi toàn bộ ngành công nghiệp sáng tạo. Thậm chí theo nhiều nguồn tin, Disney đã gửi thư pháp lý tới ByteDance sau khi các công nghệ tạo video mới xuất hiện.

Tuy nhiên, giữa lúc các mô hình AI gây ấn tượng mạnh về mặt thị giác, một thử nghiệm tưởng chừng rất đơn giản lại hé lộ một giới hạn đáng chú ý. Một lập trình viên sử dụng mạng xã hội X với tài khoản fofr đã đặt ra một bài kiểm tra cơ bản: yêu cầu AI tạo video một người đàn ông đếm từ 1 đến 10 và giơ số ngón tay tương ứng.

Kết quả khiến nhiều người bất ngờ. Video được tạo ra có nhân vật với gương mặt cân đối, biểu cảm tự nhiên và bối cảnh nhà bếp chân thực. Khi nhân vật nói “one”, mọi thứ vẫn diễn ra bình thường. Nhưng ngay sau đó, hệ thống bắt đầu gặp lỗi. Nhân vật có thể lặp lại một âm vô nghĩa, hoặc nói “ten” trong khi chỉ giơ ba ngón tay. Trong toàn bộ đoạn video, số ngón tay giơ lên thường không vượt quá ba.

Điều đáng nói là những lỗi này lại càng gây cảm giác kỳ lạ bởi phần còn lại của video trông quá thật. Sự tương phản giữa hình ảnh chân thực và hành động phi logic tạo ra cảm giác mà nhiều người gọi là “hiệu ứng người giả”.

Sau khi thử nghiệm này được chia sẻ, cộng đồng mạng đã nhanh chóng biến nó thành một thử thách rộng rãi. Nhiều người thử đưa cùng một yêu cầu vào các mô hình khác như Sora của OpenAI, Veo của Google hay Kling của Trung Quốc. Kết quả gần như giống nhau: không có hệ thống nào thực hiện hoàn hảo việc đếm từ 1 đến 10.

Theo các chuyên gia, hiện tượng này không phải là một lỗi kỹ thuật đơn lẻ mà phản ánh giới hạn cơ bản của cách xây dựng mô hình AI hiện nay. Phần lớn hệ thống tạo video hoạt động bằng cách học các quy luật thống kê từ lượng dữ liệu khổng lồ, sau đó dự đoán cách sắp xếp pixel có khả năng xuất hiện tiếp theo trong mỗi khung hình.

Cơ chế này tương tự cách các mô hình ngôn ngữ lớn dự đoán từ tiếp theo trong một câu. Nhờ đó, AI có thể tái tạo những chi tiết hình ảnh rất tinh vi, bởi dữ liệu huấn luyện chứa hàng triệu ví dụ về khuôn mặt, quần áo, ánh sáng hay cảnh vật.

Tuy nhiên, khi nhiệm vụ đòi hỏi sự hiểu biết về logic hoặc kiến thức thường thức, các mô hình này bắt đầu bộc lộ hạn chế. Ví dụ điển hình là việc xử lý bàn tay con người. Một bàn tay có cấu trúc phức tạp với hàng chục khớp và cơ bắp, khiến việc mô phỏng chính xác chuyển động trở nên khó khăn.

Vì Sao Ai Tạo Video Giống Thật Nhưng Không Thể Đếm Từ 1 Đến 10 Như Trẻ Nhỏ - Ảnh 1.

Ngoài ra, dữ liệu huấn luyện về bàn tay thường ít rõ ràng hơn so với khuôn mặt. Trong nhiều video, bàn tay nằm ở rìa khung hình, bị che khuất hoặc bị nhòe do chuyển động. Điều này khiến mô hình học được ít thông tin chính xác hơn.

Một hạn chế khác nằm ở việc mô phỏng các quy luật vật lý. Nhiều hệ thống AI hiện nay vẫn gặp khó khăn khi tái tạo các hiện tượng như dòng nước chảy, vật thể va chạm hoặc kính vỡ. Báo cáo kỹ thuật khi OpenAI ra mắt Sora cũng thừa nhận rằng mô hình chưa thể mô phỏng chính xác nhiều tương tác vật lý cơ bản.

Bên cạnh đó, video còn đòi hỏi tính nhất quán theo thời gian. Mỗi khung hình phải liên kết logic với khung hình trước đó. Tuy nhiên, các mô hình khuếch tán hiện nay xử lý thời gian như một chiều toán học trừu tượng, nên chúng không thực sự “nhớ” điều gì đã xảy ra ở những khung hình trước.

Chính vì vậy, trong một đoạn video dài vài giây, AI có thể quên mất nhân vật đã giơ bao nhiêu ngón tay trước đó và tiếp tục tạo ra những hành động không nhất quán.

Vì Sao Ai Tạo Video Giống Thật Nhưng Không Thể Đếm Từ 1 Đến 10 Như Trẻ Nhỏ - Ảnh 2.

Trước những hạn chế này, nhiều nhà nghiên cứu đang tìm kiếm một hướng đi mới. Một trong những ý tưởng được chú ý nhất là xây dựng cái gọi là “mô hình thế giới”. Thay vì chỉ học từ hình ảnh, AI sẽ được thiết kế để hiểu cấu trúc không gian ba chiều và các quy luật vật lý chi phối thế giới thực.

Một trong những người tiên phong trong hướng nghiên cứu này là nhà khoa học Fei-Fei Li, người sáng lập bộ dữ liệu ImageNet nổi tiếng. Năm 2024, bà thành lập công ty World Labs với mục tiêu phát triển trí tuệ không gian cho AI.

Theo quan điểm của bà, để AI thực sự hiểu thế giới, hệ thống cần học được các quy luật vật lý như trọng lực, chuyển động hay cấu trúc vật chất. Đây là những yếu tố vượt xa khả năng của các mô hình chỉ dựa vào dữ liệu hình ảnh.

World Labs gần đây đã huy động được khoảng 1 tỷ USD vốn đầu tư và đang phát triển công nghệ tạo môi trường 3D từ hình ảnh hoặc văn bản. Ngoài ra, nhiều tổ chức lớn khác cũng đang theo đuổi hướng tương tự, bao gồm Google DeepMind và Nvidia.

Sự xuất hiện của những dự án này cho thấy một điều quan trọng: con đường chỉ dựa vào dữ liệu có thể đang dần chạm tới giới hạn. Để AI tiến xa hơn, các nhà nghiên cứu có thể cần một bước nhảy về kiến trúc và cách tiếp cận.

Trong bối cảnh đó, thử thách “đếm từ 1 đến 10” trở thành một phép thử thú vị. Nó nhắc nhở rằng dù các mô hình AI ngày nay có thể tạo ra hình ảnh giống thật đến đâu, việc hiểu thế giới thực vẫn là một bài toán khó hơn nhiều.

Và ít nhất ở thời điểm hiện tại, việc đếm từ một đến mười vẫn là kỹ năng mà con người làm tốt hơn máy móc.

Tags

Nga

Trung Quốc

AI tạo video

Nguồn Trang : https://soha.vn/vi-sao-ai-co-the-tao-video-giong-that-nhung-lai-khong-dem-noi-tu-mot-den-muoi-nhu-tre-nho-198260311150149399.htm

Để lại một bình luận