Trung Quốc cảnh báo về ô nhiễm dữ liệu đào tạo AI

cổng thông tin điện tử ĐÀI TIẾNG NÓI VIỆT NAM

Đăng nhập

Liên hệ

Đơn vị

Rss

Chương trình đã phát

Nghe và xem trực tuyến

Thế giới

Trung Quốc cảnh báo về ô nhiễm dữ liệu đào tạo AI

Cập nhật: 06/08/2025

Thực hư tin tàu Thái Lan bị Iran đánh chặn tại eo biển Hormuz

“Bình thường mới” của thị trường năng lượng toàn cầu hậu khủng hoảng Hormuz

VOV.VN - Bộ An ninh Quốc gia Trung Quốc (MPS) hôm nay (5/8) vừa ban hành khuyến cáo an toàn, cảnh báo sự tốt xấu lẫn lộn trong chất lượng dữ liệu đào tạo trí tuệ nhân tạo (AI).

Trong đó, không ít thông tin sai lệch, nội dung hư cấu và quan điểm thiên vị đã gây ô nhiễm nguồn dữ liệu và mang đến những thách thức mới cho an toàn AI.

Khuyến cáo được đăng trên tài khoản WeChat chính thức của Bộ An ninh Quốc gia Trung Quốc, trong đó lưu ý chỉ cần 0,01% dữ liệu đào tạo chứa văn bản sai, thì đầu ra của mô hình AI có hại có thể tăng lên 11,2%.

Bài viết nêu rõ, 3 yếu tố cốt lõi của AI là thuật toán, sức mạnh tính toán và dữ liệu. Trong đó, dữ liệu là yếu tố cơ bản để đào tạo các mô hình AI và là nguồn lực then chốt cho các ứng dụng AI. Dữ liệu cung cấp nguyên liệu thô cho các mô hình, ảnh hưởng đến tính năng và thúc đẩy việc ứng dụng AI.

Dữ liệu chất lượng cao có thể cải thiện đáng kể độ chính xác và độ tin cậy của các mô hình AI. Tuy nhiên, một khi dữ liệu bị nhiễm bẩn, nó có thể dẫn đến lỗi ra quyết định của mô hình, thậm chí là lỗi của hệ thống AI, tiềm ẩn các rủi ro an toàn.

Khuyến cáo dẫn các nghiên cứu cho biết, ngay cả một lượng nhỏ văn bản sai trong dữ liệu đào tạo cũng có thể làm tăng đáng kể đầu ra có hại. Chỉ cần 0,001% văn bản sai lệch có thể làm tăng 7,2% nội dung đầu ra có hại, và ở mức 0,01%, mức tăng này lên tới 11,2%.

Nội dung sai lệch do dữ liệu bị ô nhiễm tạo ra có thể trở thành nguồn dữ liệu cho quá trình đào tạo mô hình trong tương lai, gây ra “hiệu ứng di sản ô nhiễm” lâu dài.

Bài viết nhấn mạnh, hiện nay, nội dung do AI tạo ra đã vượt xa nội dung thực do con người tạo ra về số lượng. Một lượng lớn dữ liệu chất lượng thấp và không khách quan đang tràn ngập, gây ra sự tích tụ thông tin sai lệch trong bộ dữ liệu đào tạo AI qua các thế hệ và cuối cùng làm sai lệch khả năng nhận biết của chính mô hình.

Bộ này cảnh báo ô nhiễm dữ liệu có thể dẫn đến những rủi ro trong thế giới thực, đặc biệt là trong các lĩnh vực như thị trường tài chính, an toàn công cộng và chăm sóc sức khỏe. Trong tài chính, nó có thể gây ra những biến động bất thường của thị trường; trong an toàn công cộng, có thể gây hiểu lầm trong dư luận và hoảng loạn xã hội; trong chăm sóc sức khỏe, có thể dẫn đến chẩn đoán sai, gây nguy hiểm đến tính mạng và làm trầm trọng thêm sự lan truyền của khoa học giả mạo.

Bộ An ninh Quốc gia Trung Quốc cho biết, để tăng cường giám sát việc ngăn chặn ô nhiễm dữ liệu từ nguồn, nước này đã triển khai hệ thống phân loại và xếp loại dữ liệu AI, dựa trên các luật như Luật An ninh mạng, Luật An ninh Dữ liệu và Luật Bảo vệ Thông tin Cá nhân. Mục tiêu là hạn chế việc tạo ra dữ liệu ô nhiễm ngay từ nguồn và giảm thiểu rủi ro bảo mật dữ liệu liên quan đến AI.

Bài viết cho biết, các cơ quan chức năng Trung Quốc hiện đang tăng cường đánh giá rủi ro, đảm bảo an toàn luồng dữ liệu, triển khai các cơ chế hiệu chỉnh đầu cuối và thiết lập khuôn khổ quản trị.