Khi các công ty AI thu thập dữ liệu với quy mô công nghiệp mà không đóng góp cho “nguồn”, một câu hỏi lớn được đặt ra: Ai sẽ trả tiền cho tri thức miễn phí?

Hồi đầu tháng, Quỹ Wikimedia thông báo về việc các hệ thống AI liên tục thu thập dữ liệu đang gây áp lực lớn lên máy chủ của Wikipedia. Các bot tự động – vốn được dùng để thu thập dữ liệu huấn luyện cho các mô hình ngôn ngữ lớn (LLM) – đã “hút” hàng terabyte dữ liệu, khiến băng thông dành cho việc tải xuống nội dung đa phương tiện của Quỹ tăng 50% kể từ tháng 1/2024.
Phải nói thêm, đây là vấn đề phổ biến trong cộng đồng phần mềm miễn phí và mã nguồn mở (FOSS).
Quỹ Wikimedia không chỉ vận hành Wikipedia mà còn quản lý các nền tảng như Wikimedia Commons – nơi lưu trữ hơn 144 triệu tệp đa phương tiện, cho phép người dùng tải và sử dụng miễn phí. Trong nhiều thập kỷ, những nội dung này đã phục vụ từ kết quả tìm kiếm trực tuyến đến hỗ trợ học sinh, sinh viên làm bài.
Tuy nhiên, tính từ đầu năm 2024, các công ty AI đã gia tăng mạnh việc thu thập dữ liệu qua hình thức “crawl” trực tiếp, sử dụng API và tải dữ liệu với số lượng lớn nhằm “nuôi” các mô hình trí tuệ nhân tạo. Sự gia tăng đột biến của lưu lượng bot tự động đã khiến chi phí duy trì cơ sở hạ tầng tăng đáng kể, nhất là khi phần lớn các tổ chức đứng sau các hệ thống này không đóng góp tài chính cho Wikimedia Commons.
Quỹ Wikimedia cho biết khi cựu Tổng thống Mỹ Jimmy Carter qua đời vào tháng 12/2024, trang Wikipedia của ông đã nhận được hàng triệu lượt xem. Thế nhưng áp lực thực sự xuất hiện khi người dùng đồng thời phát trực tuyến một đoạn video dài 1,5 tiếng về cuộc tranh luận năm 1980 được lưu trữ trên Wikimedia Commons. Lưu lượng truy cập tăng vọt khiến mạng của Wikimedia quá tải, buộc các kỹ sư phải nhanh chóng điều phối lại để giảm nghẽn.
Sự cố mới làm lộ ra một vấn đề lớn hơn: phần lớn băng thông nền đã bị các bot âm thầm tiêu thụ từ trước, thông qua việc quét dữ liệu đa phương tiện quy mô lớn.

Yêu cầu băng thông của Wikimedia Projects tăng đột biến tại hai thời điểm, Ngày bầu cử Tổng thống Mỹ và ngày mất của cựu Tổng thống Jimmy Carter – Ảnh: Wikimedia.
Hành vi này ngày càng trở nên quen thuộc trong thế giới phần mềm miễn phí và mã nguồn mở (FOSS). Kho lưu trữ Pagure của Fedora đã chặn toàn bộ lưu lượng truy cập từ Brazil sau một chuỗi hoạt động thu thập dữ liệu tương tự. Nền tảng GitLab của GNOME đã triển khai cơ chế “proof-of-work” nhằm hạn chế truy cập quá mức từ bot. Trong khi đó, Read the Docs đã cắt giảm đáng kể chi phí băng thông bằng cách chặn các trình thu thập dữ liệu AI.
Dữ liệu nội bộ của Wikimedia cho thấy lý do vì sao dạng lưu lượng này lại cực kỳ tốn kém. Không giống người dùng “bằng xương bằng thịt”, vốn thường chỉ xem các bài viết phổ biến đã được lưu trong bộ nhớ đệm, các bot lại quét cả những trang ít người truy cập và buộc các trung tâm dữ liệu lõi của Wikimedia phải phản hồi trực tiếp. Các hệ thống cache vốn được thiết kế để phục vụ hành vi duyệt web (vốn dễ dự đoán) của con người trở nên kém hiệu quả, khi bot truy cập toàn bộ kho dữ liệu, bất kể trang nổi tiếng hay ít người biết.
Kết quả là, Wikimedia phát hiện trongsố các yêu cầu tốn tài nguyên nhất, các bot chiếm tới 65% , mặc dù chỉ chiếm 35% tổng lượt xem trang. Mỗi yêu cầu từ bot có chi phí cao hơn nhiều so với người dùng thật, và khi tích lũy lại, tổng chi phí tăng rất nhanh.
Muôn vàn cách tránh né “cơ quan chức năng”
Chưa hết, tình hình trở nên phức tạp hơn khi nhiều trình thu thập dữ liệu tập trung vào AI không tuân thủ các quy tắc đã được thiết lập, một số bỏ qua chỉ dẫn trong file robots.txt*, số khác giả mạo người dùng thật, có những trình thu thập còn xoay vòng qua các địa chỉ IP dân dụng nhằm né tránh cơ chế chặn. Điều này khiến một số bên cung cấp dịch vụ đã phải ứng dụng những biện pháp bảo vệ quyết liệt.
*robots.txt là tên tệp được sử dụng để triển khai Giao thức Loại trừ Robot (Robots Exclusion Protocol) – một tiêu chuẩn dành cho các website nhằm hướng dẫn các trình thu thập dữ liệu (web crawlers) và bot truy cập web về những phần cụ thể của trang web.
Tuy nhiên, việc tuân thủ là tự nguyện, và nhiều trình thu thập dữ liệu độc hại hoặc chuyên phục vụ huấn luyện AI hiện nay cố tình phớt lờ tệp này, gây ra áp lực lớn cho hạ tầng web.

Việc Wikipedia/Wikimedia Commons là nền tảng mở khiến chúng bị lợi dụng – Ảnh: Wikimedia Commons.
Hệ quả là đội ngũ vận hành hạ tầng của Wikimedia luôn trong trạng thái đề phòng. Mỗi tiếng ngồi đối phó với bot là mất đi một giờ đáng lẽ đã được dùng vào các hoạt động quan trọng, như hỗ trợ cộng tác viên, người dùng, hay cải tiến kỹ thuật.
Trên khắp Internet, các nền tảng mở đang thử nghiệm nhiều giải pháp kỹ thuật để đối phó: từ thử thách proof-of-work, tarpits phản hồi chậm (như Nepenthes), danh sách chặn trình thu thập dữ liệu dùng chung (như ai.robots.txt), đến các công cụ thương mại như AI Labyrinth của Cloudflare. Những giải pháp này nhắm tới hạn chế việc nội dung số đang bị khai thác với quy mô công nghiệp.
Nguy cơ đến từ việc khai thác quá mức
Wikimedia thừa nhận tầm quan trọng của việc cung cấp “tri thức như một dịch vụ”, và nội dung của họ thực sự hoàn toàn miễn phí. Tuy nhiên, Quỹ Wikimedia nhấn mạnh: “Nội dung của chúng tôi miễn phí, nhưng hạ tầng thì không”.
Trước sức ép ngày càng lớn từ việc các hệ thống AI khai thác tài nguyên quá mức, Wikimedia đã khởi động một sáng kiến mới mang tên WE5: Sử dụng Hạ tầng Có Trách Nhiệm (Responsible Use of Infrastructure). Mục tiêu của sáng kiến là đặt ra những câu hỏi thiết yếu về cách định hướng các nhà phát triển AI tiếp cận tài nguyên một cách tiết kiệm và bền vững, đồng thời vẫn giữ được tinh thần mở của hoạt động cung cấp tri thức cộng đồng.

Quỹ Wikimedia kêu gọi các công ty có trách nhiệm hơn trong việc khai thác dữ liệu miễn phí – Ảnh: Wikimedia Commons.
Thách thức lớn nhất hiện nay là làm cầu nối giữa các kho tri thức mở và hoạt động phát triển AI thương mại. Nhiều công ty đang dựa vào nội dung mở để huấn luyện các mô hình thương mại mà không đóng góp lại cho hạ tầng đang duy trì nguồn tri thức đó – điều này tạo ra sự mất cân bằng kỹ thuật nghiêm trọng, đe dọa đến tính bền vững của các nền tảng vận hành dựa trên thiện chí của cộng đồng.
Một số giải pháp khả thi có thể bao gồm: tài trợ chung hạ tầng, cung cấp API chuyên dụng, hoặc xây dựng các phương thức truy cập hiệu quả hơn. Nếu thiếu sự hợp tác thực chất, chính những nền tảng đã góp phần tạo nên bước tiến AI ngày nay có thể không còn đủ sức vận hành ổn định trong tương lai.
Theo Wikimedia/ArsTechnica
Theo
VTV
Copy link
Lấy link
Trọ ở khách sạn vì rẻ hơn thuê nhà
Thủ tướng: Đề nghị Warburg Pincus thúc đẩy thương mại bền vững Việt Nam-Hoa Kỳ
List 5 kiểu tóc xoăn yêu kiều, nữ tính giúp cô nàng mặt vuông trở nên thanh thoát
Phương Mỹ Chi uống thuốc, nhào nặn đốt mỡ vì ám ảnh giảm cân
Phó Thủ tướng Trần Hồng Hà họp về đề xuất đầu tư tuyến đường sắt chở khách Hà Nội – Quảng Ninh
Kiếm hàng trăm triệu đồng mỗi phiên livestream, KOLs bất chấp để quảng cáo
Hướng dẫn cách tạo tài khoản Gmail mới miễn phí chỉ với 5 bước đơn giản
Đột phá mới trong điều trị chấn thương chỉnh hình
【武侠古装】《夺镖 The Last Winner》——亡命镖客乱世护宝硬核破局|Full movie|言杰/赵聪/何翔/郝伟
1.000 nghệ sĩ hội tụ trong chương trình 'Mùa xuân thống nhất' THTT trên VTV1
ChatGPT gặp lỗi lạ: có thể tạo hình “trai đẹp” nhưng từ chối tạo hình “gái xinh”
In winter, nothing beats the snow-white, crisp, and sweet radishes【滇西小哥】
Lưu ý quan trọng cho người yêu thích cà phê khi thời tiết nắng nóng
Vinhomes lên kế hoạch lãi kỷ lục 42.000 tỷ đồng
Rọi vào tâm trí Ϲhàng ôm vương vấn ngàу đêm…
Quậy đục nước hội xuân khi tương lai mơ hồ cất lời #tiktokremix #dance #nhactreremix
Sau Mai Ngô đến em gái Công Vinh lên đồ sexy ‘hết nước chấm’ quẩy lễ hội té nước
Chuyện thầm kín: Hụt hẫng vì bạn tình gọi tên người lạ trong lúc lâm trận
“Si Tình” | JuongB x Si Cuisine & Mixology | Mixtape Vietmix 2025
Mẹ Từ Hy Viên tìm đến một người đặc biệt sau khi mất con gái
Người đàn ông qua đời sau 2 tháng bị mèo cắn
Người dùng iPhone, iPad cần làm ngay điều nay
Ơi câu ví anh trao! mùa xuân anh trở lại
Cấy ghép thành công tim nhân tạo bán phần cho bệnh nhân suy tim nặng
Sữa giả thường phân phối trực tuyến, sàn thương mại điện tử, livestream
Đạp xe từ Hà Nội vào TP HCM xem lễ diễu binh 30/4
BÀI CA TẾT CHO EM QUANG HÙNG
PT-BR | Perfect World Episódio 207 | WeTV
7 mẫu điện thoại Xiaomi mà người dùng không nên mua trong năm nay
#CHILLCOVER | ĐÓ CÓ THỂ LÀ KHI | QUANG HÙNG
Thủ tướng: Ưu tiên cơ sở vật chất dôi dư phục vụ mục đích công ích, công cộng
チベット ヒーリング フルート ストレスや不安を和らげ、心を落ち着かせます 心の安定、リラックス、癒し、浄化 、瞑想、睡眠、集中 #shorts #チベットヒーリング #チベットフルート
Người yêu cũ có người yêu mới COVER Quang Hùng
NGƯỜI YÊU CŨ CÓ NGƯỜI YÊU MỚI CHILL QUANG HÙNG
Diễn đàn VOZ bất ngờ thông báo tạm ngưng hoạt động với người dùng Việt Nam
Cách tải WinRAR miễn phí và cài đặt nhanh chóng trên Windows
CHUYỆN BA MÙA MƯA QUANG HÙNG MIXXTOEN
[ENG SUB]《拜托了冰箱轰趴季》完整版第9期:岳云鹏自曝跟妻子吵架打草稿 | Play! Fridge
NGƯỜI ĐỨNG SAU HẠNH PHÚC GHITAR COVER QUANG HÙNG #CHILLCOVER
Đại tướng Phan Văn Giang làm việc với Ban Thường vụ Tỉnh ủy Lạng Sơn
Apple đưa iPhone 6s vào danh sách “đồ cổ” sau tròn một thập kỷ
Có cần làm lại CCCD, hộ chiếu khi sáp nhập tỉnh thành?
Đúng 12h30 ngày thứ Tư 16/4/2025, 3 con giáp sau phúc đức ngập tràn, lộc lá đầy nhà
OpenAI ra mắt Chat GPT-4.1, mạnh hơn GPT-4o & rẻ hơn đến 26%
Thế giới nợ Elon Musk một lời xin lỗi: X được định giá lại vượt mức 44 tỷ USD, sắp trả hết nợ, báo lãi 1,2 tỷ USD, tạo ra kỳ tích không tưởng
Tài khoản ngân hàng Sacombank 3 năm không sử dụng, không phát sinh giao dịch đột nhiên nhận được 410 triệu đồng
Tâm Sự Tuổi 30 QUANG HÙNG MIXXING
#anh quất em ak
cover | Túp Liều Lý Tưởng | mixxing quang hùng tuyết nhi
Meta triển khai “Tài khoản thiếu niên” trên Facebook và Messenger
Nonstop 15 in 1 – Nhạc Remix TikTok Triệu View Mới Nhất Hiện Nay ♫ Top 15 Nhạc Remix Hay Nhất 2025
Nhạc chữa bệnh, Ngắm phong cảnh tây tạng