Công ty khởi nghiệp AI Perplexity bị cáo buộc thu thập và sao chép nội dung từ các website mặc dù họ đã chỉ định không muốn bị thu thập dữ liệu, theo nhà cung cấp hạ tầng internet Cloudflare.
Hôm thứ Hai, Cloudflare đã công bố nghiên cứu cho biết họ quan sát thấy startup AI này bỏ qua các lệnh chặn và che giấu các hoạt động thu thập dữ liệu. Gã khổng lồ hạ tầng mạng cáo buộc Perplexity che giấu danh tính khi cố gắng thu thập dữ liệu trang web.
Các sản phẩm AI do Perplexity cung cấp dựa vào việc nuốt chửng một lượng lớn dữ liệu từ internet. Các startup AI từ lâu đã thu thập văn bản, hình ảnh và video từ internet nhiều lần mà không có sự cho phép để làm cho sản phẩm của họ hoạt động. Trong thời gian gần đây, các website đã cố gắng chống lại bằng cách sử dụng tệp Robots.txt tiêu chuẩn web, tệp này cho các công cụ tìm kiếm và công ty AI biết trang nào có thể được lập chỉ mục và trang nào không nên, những nỗ lực đã thấy kết quả hỗn hợp cho đến nay.
Perplexity dường như đang cố ý phá vỡ các lệnh chặn này bằng cách thay đổi “user agent” của bot, có nghĩa là tín hiệu xác định khách truy cập website theo loại thiết bị và phiên bản của họ, cũng như thay đổi mạng hệ thống tự trị hoặc ASN, về cơ bản là một số xác định các mạng lớn trên internet, theo Cloudflare.
“Hoạt động này được quan sát thấy trên hàng chục nghìn tên miền và hàng triệu yêu cầu mỗi ngày. Chúng tôi có thể lấy dấu vân tay của crawler này bằng cách sử dụng kết hợp machine learning và tín hiệu mạng,” theo bài đăng của Cloudflare.
Phát ngôn viên Perplexity Jesse Dwyer bác bỏ bài đăng blog của Cloudflare là “bài thuyết trình bán hàng”, thêm vào trong email gửi TechCrunch rằng các ảnh chụp màn hình trong bài đăng “cho thấy rằng không có nội dung nào được truy cập”. Trong email tiếp theo, Dwyer tuyên bố bot được nêu tên trong blog Cloudflare “thậm chí không phải của chúng tôi”.
Cloudflare cho biết họ lần đầu tiên nhận thấy hành vi này sau khi khách hàng của họ phжалาло rằng Perplexity đang thu thập dữ liệu từ các trang của họ, ngay cả sau khi họ thêm quy tắc vào tệp Robots và để chặn cụ thể các bot đã biết của Perplexity. Cloudflare cho biết sau đó họ đã thực hiện các bài kiểm tra để kiểm tra và xác nhận rằng Perplexity đang phá vỡ các lệnh chặn này.
“Chúng tôi quan sát thấy rằng Perplexity không chỉ sử dụng user-agent đã khai báo của họ, mà còn sử dụng trình duyệt chung được thiết kế để mạo danh Google Chrome trên macOS khi crawler đã khai báo của họ bị chặn,” theo Cloudflare.
Công ty cũng cho biết họ đã loại bỏ các bot của Perplexity khỏi danh sách đã xác minh và thêm các kỹ thuật mới để chặn chúng.
Cloudflare gần đây đã có lập trường công khai chống lại các crawler AI. Tháng trước, Cloudflare đã công bố ra mắt một thị trường cho phép chủ sở hữu website và nhà xuất bản tính phí các scraper AI ghé thăm trang của họ. CEO của Cloudflare Matthew Prince đã cảnh báo vào thời điểm đó, nói rằng AI đang phá vỡ mô hình kinh doanh của internet, đặc biệt là các nhà xuất bản. Năm ngoái, Cloudflare cũng đã ra mắt một công cụ miễn phí để ngăn chặn bot thu thập dữ liệu từ các website để đào tạo AI.
Đây không phải lần đầu tiên Perplexity bị cáo buộc thu thập dữ liệu mà không có ủy quyền. Năm ngoái, các cơ quan báo chí, như Wired, đã cáo buộc Perplexity đạo văn nội dung của họ. Vài tuần sau, CEO của Perplexity Aravind Srinivas không thể trả lời ngay lập tức khi được yêu cầu cung cấp định nghĩa của công ty về đạo văn trong một cuộc phỏng vấn với Devin Coldewey của TechCrunch tại hội nghị Disrupt 2024.
Theo: TechCrunch