News :
Công an cảnh báo thủ đoạn lừa đảo qua Zalo, một người ở TP.HCM đã bị chiếm đoạt hơn 225 triệu đồng Android sắp thay đổi lớn: Cài app ngoài Play Store theo cách này, nhưng ứng dụng ngân hàng của bạn có thể bị gián đoạn 24 giờ Điện thoại hãng ‘con ếch’ vuông vức bé xíu, bàn phím QWERTY ẩn dưới khớp xoay, đời mới nhưng nhìn qua tưởng đồ cổ từ 2005 Người phụ nữ nghi có người trốn trên trần nhà, sự thật sau đó gây sốc 7 thứ KHÔNG BAO GIỜ nên rửa với nước nóng, nhiều người mắc sai lầm rồi nhận “kết đắng” Tử vi tuổi Mùi năm 2026 chi tiết từng tháng và cách hóa giải vận hạn Ca sĩ Hòa Minzy khoe tin vui Man City hạ Arsenal 2-1: Pep Guardiola vẫn là thầy của Arteta Dự báo thời tiết 24/3/2026: Miền Bắc sáng mưa nhỏ, trưa bừng nắng mạnh Từng có người đào được 184 tỷ Bitcoin trong một ngày và mất sạch chỉ sau vài giờ vivo X300 Ultra được xác nhận phần cứng camera ‘đỉnh nóc’: Cảm biến 200MP kép, zoom 400mm, chống rung chuẩn gimbal Huawei Enjoy 90 Pro Max ra mắt với pin 8.500mAh, Kirin 8000 và HarmonyOS 6 Xem vận may rủi qua khí sắc khuôn mặt theo tháng Âm lịch Gan xơ hóa, nhiễm mỡ độ 2 sau 25 năm duy trì 1 thói quen: Bác sĩ nói cần bỏ ngay Từ học sinh chuyên Lý Đà Nẵng đến nhà khoa học được vinh danh tại Mỹ Chí Trung báo tin ‘Ngọc hoàng’ Quốc Khánh trở lại, Mỹ Tâm – Mai Tài Phến tình tứ trên máy bay U23 Việt Nam tới Trung Quốc, sẵn sàng đấu Thái Lan, Triều Tiên Tài khoản của người phụ nữ Lai Châu có giao dịch 600 triệu đồng không rõ nguồn gốc: Công an sử dụng các biện pháp nghiệp vụ vào cuộc Những nâng cấp trên OPPO Find N6 sẽ khiến bạn phải lên đời ngay lập tức Một thứ tưởng “vô dụng” giúp kéo dài tuổi thọ đáng kể 3 “liều thuốc trường thọ” tốt nhất thế giới – tất cả đều miễn phí Ăn 1 – 2 tép tỏi mỗi ngày: Huyết áp, mỡ máu thay đổi thế nào? Chú rể choáng khi bạn mừng cưới gần 400 nghìn kèm giấy trừ nợ 1,5 triệu đồng Hai cha con nổi tiếng nào ở Việt Nam mà cha là đại tướng, con là thượng tướng? Xác minh clip nam thanh niên chặn đánh 2 người phụ nữ trong ngõ nhỏ ở Hà Nội So sánh chuột Logitech MX Master 3S với Logitech MX Master 2S, Logitech MX Master 4 Chỉ tốn 3 giây bật tính năng này trên Google Maps, bạn sẽ bớt cảnh kẹt xe mỗi ngày CEO Apple chỉ ra sai lầm nhiều người dùng iPhone mắc phải Uống cà phê theo cách này, dễ tổn thương tim Chiều 24/3: Giá vàng SJC, giá vàng nhẫn trơn tiếp tục tăng, vượt mốc 170 triệu đồng/lượng Lao ngoài phổi: ‘Kẻ giấu mặt’ khiến nhiều người phát hiện bệnh muộn Bộ KH&CN trao giấy phép cho Starlink tại Hoa Kỳ Tuyển Việt Nam: Liệu có khác hơn được không? Thêm danh tính 7 nghi phạm vụ dàn cảnh cướp giật tại Liên Hoa Bảo Tháp Loa Alpha Works giá bao xịn chỉ từ 390K, bảo hành 1 năm 1 đổi 1, tặng kèm bộ phát Wi-Fi và micro iPhone 17 Pro chạy được mô hình AI 400 tỷ tham số nhờ thủ thuật stream từ SSD Cách kết nối AirPods với iPhone, máy tính, Android nhanh Vạn Phát Hưng thay “tướng” thần tốc: CEO rời ghế sau 3 tháng, người kế nhiệm lên chức chỉ sau 11 ngày làm Phó Tổng Ăn tỏi: Chuyên gia chỉ cách chế biến và thời điểm ăn tốt nhất Để dạy STEM thực chất, giáo viên phải làm chủ công nghệ và chấp nhận vất vả hơn Hạ Arsenal, Man City lần thứ 9 vô địch cúp Liên đoàn Anh Cảnh sát chặn ô tô chở hơn 700kg hàng cấm, Phan Thanh Hương ra đầu thú Mưa nghịch mùa Hướng dẫn chi tiết kiểm tra gói cước Viettel bạn đang sử dụng Dòng Redmi Note 16 có thể sở hữu pin 10.000mAh và camera 200MP Đừng để vali quá tải: 7 món đồ không nên mang khi du lịch kẻo chuyến đi kém thoải mái Chiều 24/3: Giá vàng SJC, giá vàng nhẫn trơn tiếp tục tăng lên gần 170 triệu đồng/lượng Bệnh viện Nhân dân 115 cảnh báo thế hệ 9X: Căn bệnh ung thư tiêu hóa “ăn cắp” máu từng ngày, dễ nhầm tưởng mệt mỏi do áp lực công việc Cảnh giường chiếu phản cảm trong phim giờ vàng bị khán giả phản ứng Tottenham thảm bại, đối diện nguy cơ xuống hạng

iPhone 17 Pro chạy được mô hình AI 400 tỷ tham số nhờ thủ thuật stream từ SSD

Các mô hình ngôn ngữ lớn (LLM) với 400 tỷ tham số thông thường đòi hỏi phần cứng chuyên dụng với dung lượng RAM khổng lồ. Ngay cả phiên bản đã được nén (quantized) cũng cần tối thiểu 200 GB RAM. Với yêu cầu như vậy, iPhone 17 Pro vốn chỉ trang bị 12 GB LPDDR5X RAM được xem là hoàn toàn ngoài cuộc. Tuy nhiên, một đoạn video mới đây cho thấy điều tưởng như không thể đã xảy ra, và ẩn sau đó là một số kỹ thuật khéo léo đáng chú ý.

Người dùng @anemll đã công bố video chạy thử Flash-MoE, một dự án mã nguồn mở, trực tiếp trên iPhone 17 Pro. Kết quả cho thấy chiếc điện thoại thực sự xử lý được mô hình 400 tỷ tham số này, nhưng tốc độ sinh văn bản chỉ đạt 0.6 token/giây, tương đương khoảng một từ được tạo ra sau mỗi 1,5 đến 2 giây. Đây là tốc độ cực kỳ chậm so với trải nghiệm thực tế, và sẽ khiến phần lớn người dùng nhanh chóng mất kiên nhẫn.

Chạy model AI 400 tỷ tham số trên chính chiếc iPhone 17 Pro, tốc độ 0,6 token/giây

Bí quyết để vượt qua giới hạn RAM nằm ở cách Flash-MoE vận hành: thay vì nạp toàn bộ mô hình vào bộ nhớ (điều hiển nhiên là bất khả thi với 12 GB RAM), dự án này tận dụng bộ nhớ lưu trữ SSD của thiết bị để stream dữ liệu trực tiếp lên GPU theo từng phần nhỏ khi cần. Đây là phương pháp tương tự kỹ thuật memory-mapped inference vốn được dùng trên máy tính để bàn khi VRAM không đủ đáp ứng mô hình lớn.

iPhone 17 Pro chạy được mô hình AI 400 tỷ tham số nhờ thủ thuật stream từ SSD - Ảnh 1.

Ngoài ra, chữ “MoE” trong tên Flash-MoE là viết tắt của Mixture of Experts, một kiến trúc mô hình đặc biệt trong đó chỉ một phần nhỏ trong tổng số 400 tỷ tham số được kích hoạt cho mỗi token sinh ra. Điều này giúp giảm đáng kể lượng dữ liệu cần xử lý tại một thời điểm, tạo điều kiện để kỹ thuật stream SSD hoạt động khả thi hơn trên phần cứng di động.

Một điểm đáng chú ý khi chạy LLM cục bộ theo cách này là toàn bộ quá trình xử lý diễn ra hoàn toàn trên thiết bị, không cần kết nối internet, và đảm bảo quyền riêng tư tuyệt đối: 100% dữ liệu không rời khỏi máy. Tuy nhiên, chi phí phải trả là mức tiêu thụ pin rất cao khi GPU phải duy trì hoạt động liên tục trong suốt quá trình sinh văn bản.

Các nhà phát triển cũng thường dùng phiên bản quantized của LLM để giảm yêu cầu phần cứng, nhưng ngay cả bản nén của mô hình 400 tỷ tham số vẫn cần tối thiểu 200 GB RAM nếu chạy theo cách thông thường, con số vượt xa bất kỳ smartphone nào hiện tại. Thực tế này cho thấy khoảng cách lớn giữa việc “chạy được” một mô hình và việc sử dụng nó ở mức độ thực dụng. Flash-MoE trên iPhone 17 Pro đã vượt qua rào cản đầu tiên, nhưng với 0.6 token/giây, rào cản thứ hai vẫn còn rất xa.


Nguồn Trang : https://genk.vn/iphone-17-pro-chay-duoc-mo-hinh-ai-400-ty-tham-so-nho-thu-thuat-stream-tu-ssd-165262303235145431.chn

Để lại một bình luận