Wikipedia ký loạt thỏa thuận cấp phép dữ liệu AI với Microsoft, Meta và Amazon

Quỹ Wikimedia của Wikipedia vừa ký loạt thỏa thuận cấp phép với Microsoft, Meta và Amazon, yêu cầu các doanh nghiệp AI trả phí khi sử dụng nội dung Wikipedia để huấn luyện mô hình trí tuệ nhân tạo, trong bối cảnh chi phí hạ tầng tăng mạnh do hoạt động thu thập dữ liệu AI.

Quỹ Wikimedia vừa công bố hàng loạt thỏa thuận cấp phép nội dung với các tập đoàn công nghệ lớn gồm Microsoft, Meta, Amazon, Perplexity và Mistral AI. Đây là bước đi mới nhất trong nỗ lực thu phí các doanh nghiệp AI khi họ sử dụng nội dung Wikipedia để huấn luyện các mô hình trí tuệ nhân tạo.

Theo thông báo, các thỏa thuận được ký thông qua Wikimedia Enterprise – đơn vị thương mại của Quỹ Wikimedia, chuyên cung cấp quyền truy cập API trả phí vào hơn 65 triệu bài viết trên Wikipedia, với tốc độ và dung lượng cao hơn so với các API công khai miễn phí. Quỹ Wikimedia không công bố giá trị tài chính cụ thể của các hợp đồng.

Trước đó, nhiều công ty công nghệ từng thu thập dữ liệu Wikipedia ở quy mô lớn mà không có thỏa thuận cấp phép. Việc ký kết lần này cho thấy phần lớn các nhà phát triển AI lớn đã chính thức tham gia chương trình Wikimedia Enterprise, bên cạnh Google – đối tác đã ký thỏa thuận từ năm 2022 – cùng một số doanh nghiệp nhỏ hơn như Ecosia, Nomic, Pleias, ProRata và Reef Media.

Nguồn doanh thu từ các hợp đồng cấp phép được kỳ vọng giúp Wikimedia bù đắp chi phí hạ tầng ngày càng tăng, trong bối cảnh tổ chức phi lợi nhuận này chủ yếu dựa vào các khoản quyên góp nhỏ từ cộng đồng, trong khi nội dung của Wikipedia ngày càng trở thành nguồn dữ liệu quan trọng để huấn luyện các mô hình AI thương mại.

Áp lực chi phí từ việc khai thác dữ liệu AI

Quyết định thúc đẩy cấp phép trả phí được đưa ra trong bối cảnh chi phí hạ tầng của Wikimedia tăng mạnh do hoạt động thu thập dữ liệu của các hệ thống AI. Tháng 4/2025, Wikimedia Foundation cho biết băng thông phục vụ tải nội dung đa phương tiện đã tăng 50% so với tháng 1/2024. Đáng chú ý, các bot tự động chiếm tới 65% những yêu cầu tiêu tốn chi phí lớn nhất đối với hạ tầng cốt lõi, dù chỉ chiếm khoảng 35% tổng lượt xem trang.

Đến tháng 10 cùng năm, Wikimedia tiết lộ lượng truy cập của người dùng thực vào Wikipedia đã giảm khoảng 8% so với cùng kỳ, sau khi tổ chức nâng cấp hệ thống phát hiện bot và xác định rằng một phần đáng kể lưu lượng trước đó thực chất là các trình thu thập dữ liệu được thiết kế để né tránh kiểm soát.

Sự sụt giảm này đặt ra thách thức đối với mô hình vận hành đã duy trì Wikipedia trong suốt 25 năm qua: người đọc truy cập, một bộ phận trở thành biên tập viên hoặc nhà tài trợ, từ đó góp phần cải thiện nội dung. Tuy nhiên hiện nay, nhiều chatbot AI và công cụ tìm kiếm có thể trả lời trực tiếp câu hỏi dựa trên nội dung Wikipedia mà không đưa người dùng quay lại nền tảng.

Trong khi đó, các thử nghiệm ứng dụng AI tạo sinh do Wikimedia triển khai cũng vấp phải phản ứng từ cộng đồng biên tập viên tình nguyện. Tháng 6 vừa qua, Wikipedia đã tạm dừng một chương trình thí điểm tạo tóm tắt bài viết bằng AI, sau khi nhiều biên tập viên cho rằng ý tưởng này có thể làm suy giảm mức độ tin cậy của nội dung.

Nhà sáng lập Wikipedia, Jimmy Wales, cho biết ông ủng hộ việc các mô hình AI sử dụng dữ liệu Wikipedia để huấn luyện, bởi đây là nguồn nội dung do con người biên tập. Tuy nhiên, ông nhấn mạnh việc sử dụng dữ liệu ở quy mô lớn cần đi kèm trách nhiệm tài chính, khi các doanh nghiệp AI đang tạo ra áp lực đáng kể lên hạ tầng của nền tảng này.

Đại Nghĩa

Đàm Thị Thuý Vân

Link nội dung: https://antt.nguoiduatin.vn/wikipedia-ky-loat-thoa-thuan-cap-phep-du-lieu-ai-voi-microsoft-meta-va-amazon-205260116115304787.htm