AI lập trình thất bại trong cuộc thi K Prize với 7.5% điểm

Kỹ sư prompt Eduardo Rocha de Andrade từ Brazil đã giành chiến thắng trong cuộc thi lập trình AI K Prize với mức điểm chỉ 7.5% câu trả lời đúng, cho thấy những hạn chế lớn của công nghệ trí tuệ nhân tạo trong lập trình thực tế.

Viện Laude phi lợi nhuận đã công bố kết quả vòng đầu tiên của K Prize vào chiều thứ Tư, một cuộc thi lập trình AI đa vòng do Andy Konwinski – đồng sáng lập Databricks và Perplexity – khởi xướng. Eduardo Rocha de Andrade sẽ nhận được 50.000 USD tiền thưởng cho chiến thắng bất ngờ này.

“Chúng tôi vui mừng vì đã xây dựng được một bài kiểm tra thực sự khó,” Konwinski chia sẻ. “Các bài kiểm tra cần phải khó nếu chúng muốn có ý nghĩa.” Ông giải thích thêm rằng điểm số sẽ khác nếu các phòng thí nghiệm lớn tham gia với những mô hình mạnh nhất của họ, nhưng đó chính là mục đích của K Prize – tạo sân chơi bình đẳng bằng cách chạy offline với tài nguyên tính toán hạn chế.

K Prize được thiết kế như một “phiên bản không bị nhiễm” của hệ thống SWE-Bench nổi tiếng. Trong khi SWE-Bench dựa trên một tập hợp các vấn đề cố định mà các mô hình có thể học trước, K Prize sử dụng hệ thống nộp bài theo thời gian để ngăn chặn việc huấn luyện chuyên biệt cho bài kiểm tra. Đối với vòng một, các mô hình phải được nộp trước ngày 12 tháng 3, sau đó ban tổ chức xây dựng bài kiểm tra chỉ sử dụng các vấn đề GitHub được gắn cờ sau ngày đó.

Mức điểm 7.5% cao nhất này tương phản rõ rệt với chính SWE-Bench, hiện cho thấy điểm cao nhất 75% trên bài kiểm tra ‘Verified’ dễ hơn và 34% trên bài kiểm tra ‘Full’ khó hơn. Konwinski vẫn chưa chắc chắn liệu sự chênh lệch này là do nhiễm dữ liệu trên SWE-Bench hay chỉ là thách thức khi thu thập các vấn đề mới từ GitHub.

“Khi chúng tôi có thêm nhiều lần chạy, chúng tôi sẽ hiểu rõ hơn,” ông nói với TechCrunch, “vì chúng tôi kỳ vọng mọi người sẽ thích ứng với động lực cạnh tranh này vài tháng một lần.”

Dù có vẻ như một khu vực kỳ lạ để thất bại, xét đến phạm vi rộng lớn của các công cụ lập trình AI đã có sẵn công khai, nhiều nhà phê bình xem các dự án như K Prize là bước cần thiết để giải quyết vấn đề đánh giá ngày càng tăng của AI.

“Tôi khá lạc quan về việc xây dựng các bài kiểm tra mới cho các tiêu chuẩn hiện có,” nhà nghiên cứu Princeton Sayash Kapoor chia sẻ, người đã đưa ra ý tưởng tương tự trong một nghiên cứu gần đây. “Không có những thí nghiệm như vậy, chúng ta không thể thực sự biết liệu vấn đề là nhiễm dữ liệu, hay thậm chí chỉ là nhắm vào bảng xếp hạng SWE-Bench với sự can thiệp của con người.”

Đối với Konwinski, đây không chỉ là một bài kiểm tra tốt hơn mà còn là thách thức mở cho toàn ngành. “Nếu bạn nghe theo sự cường điệu, có vẻ như chúng ta nên thấy các bác sĩ AI, luật sư AI và kỹ sư phần mềm AI, nhưng điều đó không đúng,” ông nói. “Nếu chúng ta thậm chí không thể đạt được hơn 10% trên SWE-Bench không bị nhiễm, đó là cái tát cho tôi.”

Konwinski đã cam kết 1 triệu USD cho mô hình mã nguồn mở đầu tiên có thể đạt điểm cao hơn 90% trong bài kiểm tra này.