Nhiều người bảo vệ Perplexity sau cáo buộc của Cloudflare

Cộng đồng công nghệ chia rẽ về việc AI có nên được phép truy cập website như người dùng thật hay không.

Nhiều người trong cộng đồng công nghệ đã lên tiếng bảo vệ công cụ tìm kiếm AI Perplexity sau khi Cloudflare cáo buộc công ty này bí mật thu thập dữ liệu từ các website đã chặn bot AI vào hôm thứ Hai. Cuộc tranh cãi này nổi bật cuộc tranh luận ngày càng gay gắt về việc liệu AI agent có nên được đối xử như bot hay như con người khi truy cập website.

Cloudflare, công ty chuyên cung cấp dịch vụ bảo mật web cho hàng triệu website, đã tiến hành một thử nghiệm bằng cách tạo ra một website mới với tên miền chưa từng được bot nào thu thập dữ liệu, thiết lập file robots.txt để chặn cụ thể các bot AI đã biết của Perplexity, sau đó hỏi Perplexity về nội dung của website đó. Kết quả cho thấy Perplexity vẫn trả lời được câu hỏi.

Các nhà nghiên cứu của Cloudflare phát hiện công cụ tìm kiếm AI này đã sử dụng “một trình duyệt thông thường được thiết kế để giả mạo Google Chrome trên macOS” khi bot thu thập dữ liệu chính thức của nó bị chặn. CEO Cloudflare Matthew Prince đã đăng tải nghiên cứu này trên X, viết rằng: “Một số công ty AI được coi là ‘có uy tín’ lại hành xử giống như hacker Triều Tiên. Đã đến lúc chỉ tên, làm nhục và chặn cứng chúng.”

Tuy nhiên, nhiều người không đồng ý với đánh giá của Prince rằng đây là hành vi xấu. Những người bảo vệ Perplexity trên các trang như XHacker News chỉ ra rằng những gì Cloudflare ghi nhận có vẻ là AI truy cập một website công khai cụ thể khi người dùng hỏi về website đó.

“Nếu tôi với tư cách là con người yêu cầu truy cập một website, thì tôi nên được hiển thị nội dung,” một người trên Hacker News viết, thêm rằng: “tại sao việc LLM truy cập website thay mặt tôi lại thuộc danh mục pháp lý khác so với trình duyệt Firefox của tôi?”

Phát ngôn viên của Perplexity trước đó đã phủ nhận rằng những bot đó thuộc về công ty và gọi bài đăng blog của Cloudflare là một chiêu thức bán hàng. Hôm thứ Ba, Perplexity đã xuất bản một blog để bảo vệ mình (và tổng thể tấn công Cloudflare), tuyên bố hành vi này đến từ một dịch vụ bên thứ ba mà họ thỉnh thoảng sử dụng.

Cốt lõi của bài đăng của Perplexity đưa ra lời kêu gọi tương tự như những người bảo vệ trực tuyến. “Sự khác biệt giữa thu thập dữ liệu tự động và việc lấy dữ liệu do người dùng điều khiển không chỉ là kỹ thuật – mà còn về việc ai được quyền truy cập thông tin trên web mở,” bài đăng nói. “Cuộc tranh cãi này cho thấy hệ thống của Cloudflare về cơ bản không đủ khả năng phân biệt giữa các trợ lý AI hợp pháp và các mối đe dọa thực sự.”

Tuy nhiên, cáo buộc của Perplexity cũng không hoàn toàn công bằng. Một lập luận mà Prince và Cloudflare sử dụng để chỉ trích phương pháp của Perplexity là OpenAI không hành xử theo cách tương tự. Cloudflare viết: “OpenAI là ví dụ của một công ty AI hàng đầu tuân theo những thực hành tốt nhất này. Họ tôn trọng robots.txt và không cố gắng lẩn tránh chỉ thị robots.txt hoặc chặn ở cấp mạng. Và ChatGPT Agent đang ký các yêu cầu http bằng tiêu chuẩn mở mới được đề xuất Web Bot Auth.”

Web Bot Auth là một tiêu chuẩn được Cloudflare hỗ trợ đang được phát triển bởi Internet Engineering Task Force nhằm tạo ra một phương pháp mã hóa để xác định các yêu cầu web của AI agent.

Cuộc tranh luận này diễn ra trong bối cảnh hoạt động bot đang định hình lại internet. Như thông tin trong bài báo trước đây, các bot tìm cách thu thập khối lượng lớn nội dung để huấn luyện mô hình AI đã trở thành mối đe dọa, đặc biệt đối với các trang web nhỏ.

Lần đầu tiên trong lịch sử internet, hoạt động bot hiện đang vượt qua hoạt động của con người trực tuyến, với lưu lượng AI chiếm hơn 50%, theo báo cáo Bad Bot của Imperva được phát hành tháng trước. Phần lớn hoạt động đó đến từ các LLM. Nhưng báo cáo cũng phát hiện các bot độc hại hiện chiếm 37% tổng lưu lượng internet, bao gồm mọi thứ từ thu thập dữ liệu liên tục đến các nỗ lực đăng nhập trái phép.

Cho đến khi có LLM, internet thường chấp nhận rằng các website có thể và nên chặn hầu hết hoạt động bot do tần suất độc hại cao bằng cách sử dụng CAPTCHA và các dịch vụ khác. Các website cũng có động cơ rõ ràng để làm việc với các tác nhân tốt cụ thể như Googlebot, hướng dẫn nó về những gì không nên lập chỉ mục thông qua robots.txt vì Google lập chỉ mục internet và gửi lưu lượng truy cập đến các trang.

Hiện tại, các LLM đang “ăn” ngày càng nhiều lưu lượng truy cập đó. Gartner dự đoán khối lượng công cụ tìm kiếm sẽ giảm 25% vào năm 2026. Hiện tại con người có xu hướng nhấp vào liên kết website từ LLM tại thời điểm có giá trị nhất đối với website, là khi họ sẵn sàng thực hiện giao dịch.

Nhưng nếu con người áp dụng agents như ngành công nghệ dự đoán – để sắp xếp chuyến đi, đặt bàn ăn tối và mua sắm cho chúng ta – liệu các website có làm tổn hại lợi ích kinh doanh của mình bằng cách chặn chúng không?

Cuộc tranh luận trên X đã nắm bắt được tiến thoái lưỡng nan một cách hoàn hảo: “Tôi MUỐN perplexity truy cập bất kỳ nội dung công khai nào thay mặt tôi khi tôi đưa ra yêu cầu/nhiệm vụ!” một người viết để phản hồi việc Cloudflare chỉ trích Perplexity. “Điều gì sẽ xảy ra nếu chủ sở hữu trang web không muốn điều đó? họ chỉ muốn bạn trực tiếp truy cập trang chủ, xem nội dung của họ” một người khác tranh luận, chỉ ra rằng chủ sở hữu trang web tạo ra nội dung muốn có lưu lượng truy cập và doanh thu quảng cáo tiềm năng, chứ không phải để Perplexity lấy đi.

“Đây là lý do tại sao tôi không thể thấy ‘agentic browsing’ thực sự hoạt động – vấn đề khó hơn nhiều so với mọi người nghĩ. Hầu hết chủ sở hữu website sẽ chỉ chặn,” một người thứ ba dự đoán.