Các nhà nghiên cứu từ Google DeepMind, OpenAI, Meta và Anthropic đã cảnh báo rằng các hệ thống trí tuệ nhân tạo có thể sớm phát triển khả năng suy nghĩ theo những cách mà con người không thể hiểu được, từ đó tránh né các nỗ lực giám sát và kiểm soát của chúng ta.
Trong nghiên cứu mới được công bố trên máy chủ preprint arXiv, các nhà khoa học đã phát triển những hệ thống AI tiên tiến nhất thế giới lại cảnh báo về chính những công nghệ họ tạo ra. Họ cho rằng việc thiếu giám sát trong quá trình lý luận và ra quyết định của AI có thể khiến chúng ta bỏ lỡ những dấu hiệu của hành vi có hại.
Trọng tâm của nghiên cứu là “chuỗi suy nghĩ” (chains of thought – CoT) – những bước mà các mô hình ngôn ngữ lớn thực hiện khi giải quyết các vấn đề phức tạp. Các mô hình AI sử dụng CoT để phân tách các truy vấn phức tạp thành những bước logic trung gian được thể hiện bằng ngôn ngữ tự nhiên.
“Các hệ thống AI ‘suy nghĩ’ bằng ngôn ngữ con người mang đến cơ hội độc đáo cho an toàn AI. Chúng ta có thể giám sát chuỗi suy nghĩ của chúng để tìm ý định có hại”, các nhà khoa học viết trong nghiên cứu.
Tuy nhiên, việc giám sát quá trình lý luận này có nhiều hạn chế nghiêm trọng. Các nhà nghiên cứu chỉ ra rằng không phải lúc nào quá trình lý luận cũng xảy ra, và một số lý luận diễn ra mà các nhà vận hành con người thậm chí không hề biết. Còn có thể có những lý luận mà con người không thể hiểu được.
Một vấn đề khác là các mô hình AI mới mạnh hơn có thể phát triển đến mức CoT không còn cần thiết. Các mô hình tương lai cũng có thể phát hiện ra rằng CoT của chúng đang bị giám sát và che giấu hành vi không phù hợp.
“Thuộc tính lý luận bên ngoài không đảm bảo khả năng giám sát – nó chỉ nói rằng một số lý luận xuất hiện trong chuỗi suy nghĩ, nhưng có thể có lý luận liên quan khác không xuất hiện”, các nhà khoa học nói. “Do đó, có thể ngay cả đối với các nhiệm vụ khó, chuỗi suy nghĩ chỉ chứa lý luận có vẻ vô hại trong khi lý luận có vấn đề bị che giấu.”
Để giải quyết vấn đề này, các tác giả đề xuất nhiều biện pháp để triển khai và tăng cường giám sát CoT, cải thiện tính minh bạch của AI. Bao gồm việc sử dụng các mô hình khác để đánh giá quá trình CoT của LLM và thậm chí hoạt động trong vai trò đối kháng chống lại mô hình đang cố gắng che giấu hành vi không phù hợp.
Họ cũng đề xuất các nhà phát triển AI tiếp tục tinh chỉnh và tiêu chuẩn hóa các phương pháp giám sát CoT, bao gồm kết quả giám sát trong thẻ hệ thống LLM và xem xét tác động của các phương pháp đào tạo mới đến khả năng giám sát.
“Giám sát CoT mang đến bổ sung có giá trị cho các biện pháp an toàn đối với AI tiên tiến, cung cấp cái nhìn hiếm hoi về cách các tác nhân AI đưa ra quyết định”, các nhà khoa học kết luận. “Tuy nhiên, không có gì đảm bảo rằng mức độ hiển thị hiện tại sẽ tồn tại. Chúng tôi khuyến khích cộng đồng nghiên cứu và các nhà phát triển AI tiên tiến tận dụng tối đa khả năng giám sát CoT và nghiên cứu cách bảo tồn nó.”