DeepMind giới thiệu Genie 3 tiến tới trí tuệ nhân tạo tổng quát

Mô hình thế giới mới có thể tạo môi trường 3D tương tác từ văn bản và huấn luyện AI tổng quát.

Google DeepMind đã công bố Genie 3, mô hình thế giới nền tảng mới nhất có thể được sử dụng để huấn luyện các tác nhân AI đa năng, một khả năng mà phòng thí nghiệm AI này cho biết là bước đệm quan trọng trên con đường hướng tới “trí tuệ nhân tạo tổng quát” hay trí tuệ giống con người.

“Genie 3 là mô hình thế giới tương tác đa năng thời gian thực đầu tiên,” Shlomi Fruchter, giám đốc nghiên cứu tại DeepMind, cho biết trong cuộc họp báo. “Nó vượt xa các mô hình thế giới hẹp đã tồn tại trước đây. Nó không cụ thể cho bất kỳ môi trường nào. Nó có thể tạo ra cả thế giới chân thực và tưởng tượng, và mọi thứ ở giữa.”

Genie 3 vẫn đang trong giai đoạn nghiên cứu xem trước và chưa có sẵn công khai, được xây dựng dựa trên cả phiên bản tiền nhiệm Genie 2 (có thể tạo môi trường mới cho các tác nhân) và mô hình tạo video mới nhất của DeepMind Veo 3 (được cho là có hiểu biết sâu sắc về vật lý).

Với một lời nhắc văn bản đơn giản, Genie 3 có thể tạo ra nhiều phút môi trường 3D tương tác ở độ phân giải 720p với 24 khung hình mỗi giây – một bước nhảy đáng kể từ 10 đến 20 giây mà Genie 2 có thể sản xuất. Mô hình cũng có tính năng “sự kiện thế giới có thể nhắc”, hay khả năng sử dụng lời nhắc để thay đổi thế giới được tạo ra.

Có lẽ quan trọng nhất, các mô phỏng của Genie 3 duy trì tính nhất quán vật lý theo thời gian vì mô hình có thể nhớ những gì nó đã tạo ra trước đó – một khả năng mà DeepMind cho biết các nhà nghiên cứu của họ không lập trình một cách rõ ràng vào mô hình.

Fruchter cho biết trong khi Genie 3 có ý nghĩa đối với trải nghiệm giáo dục, chơi game hoặc tạo mẫu các khái niệm sáng tạo, việc mở khóa thực sự của nó sẽ thể hiện trong việc huấn luyện các tác nhân cho các nhiệm vụ đa năng, điều mà ông cho biết là cần thiết để đạt được AGI.

“Chúng tôi nghĩ các mô hình thế giới là chìa khóa trên con đường tới AGI, cụ thể cho các tác nhân có thể hiện, nơi mà việc mô phỏng các kịch bản thế giới thực đặc biệt khó khăn,” Jack Parker-Holder, một nhà khoa học nghiên cứu trong nhóm tính mở của DeepMind, cho biết trong cuộc họp báo.

Genie 3 được cho là được thiết kế để giải quyết bottleneck đó. Giống như Veo, nó không dựa vào một engine vật lý được mã hóa cứng; thay vào đó, DeepMind cho biết, mô hình tự dạy mình cách thế giới hoạt động – cách các vật thể di chuyển, rơi và tương tác – bằng cách nhớ những gì nó đã tạo ra và suy luận trên các chân trời thời gian dài.

“Mô hình là tự hồi quy, có nghĩa là nó tạo ra từng khung hình một,” Fruchter nói với TechCrunch trong một cuộc phỏng vấn. “Nó phải nhìn lại những gì đã được tạo ra trước đó để quyết định điều gì sẽ xảy ra tiếp theo. Đó là một phần chính của kiến trúc.”

Bộ nhớ đó, công ty cho biết, mang lại tính nhất quán trong các thế giới mô phỏng của Genie 3, điều này cho phép nó phát triển khả năng nắm bắt vật lý, tương tự như cách con người hiểu rằng một ly tách đang lung lay trên mép bàn sắp rơi, hoặc họ nên cúi xuống để tránh một vật thể rơi.

Đáng chú ý, DeepMind cho biết mô hình cũng có tiềm năng đẩy các tác nhân AI đến giới hạn của chúng – buộc chúng học hỏi từ kinh nghiệm của chính mình, tương tự như cách con người học trong thế giới thực.

Làm ví dụ, DeepMind đã chia sẻ thử nghiệm Genie 3 với phiên bản gần đây của Tác nhân Đa thế giới Có thể Hướng dẫn Có thể Mở rộng (SIMA) tổng quát của mình, hướng dẫn nó theo đuổi một tập hợp các mục tiêu. Trong bối cảnh kho hàng, họ yêu cầu tác nhân thực hiện các nhiệm vụ như “tiếp cận máy nén rác màu xanh lá cây sáng” hoặc “đi bộ đến xe nâng đỏ được đóng gói.”

“Trong cả ba trường hợp, tác nhân SIMA đều có thể đạt được mục tiêu,” Parker-Holder cho biết. “Nó chỉ nhận các hành động từ tác nhân. Vì vậy tác nhân nhận mục tiêu, nhìn thấy thế giới được mô phỏng xung quanh nó, và sau đó thực hiện các hành động trong thế giới. Genie 3 mô phỏng về phía trước, và thực tế là nó có thể đạt được điều đó là vì Genie 3 vẫn nhất quán.”

Tuy nhiên, Genie 3 có những hạn chế của nó. Ví dụ, trong khi các nhà nghiên cứu tuyên bố nó có thể hiểu vật lý, demo cho thấy một người trượt tuyết lao xuống núi không phản ánh cách tuyết sẽ di chuyển liên quan đến người trượt tuyết.

Ngoài ra, phạm vi hành động mà một tác nhân có thể thực hiện bị hạn chế. Ví dụ, các sự kiện thế giới có thể nhắc cho phép một loạt các can thiệp môi trường, nhưng chúng không nhất thiết được thực hiện bởi chính tác nhân. Và vẫn khó khăn để mô hình hóa chính xác các tương tác phức tạp giữa nhiều tác nhân độc lập trong một môi trường chung.

Genie 3 cũng chỉ có thể hỗ trợ vài phút tương tác liên tục, khi cần hàng giờ để huấn luyện thích hợp.

Tuy nhiên, mô hình trình bày một bước tiến hấp dẫn trong việc dạy các tác nhân vượt ra ngoài việc phản ứng với đầu vào, cho phép chúng có khả năng lập kế hoạch, khám phá, tìm kiếm sự không chắc chắn và cải thiện thông qua thử và sai – loại học tập có thể hiện tự điều khiển mà nhiều người cho là chìa khóa để tiến tới trí tuệ tổng quát.

“Chúng ta chưa thực sự có một khoảnh khắc Move 37 cho các tác nhân có thể hiện, nơi chúng thực sự có thể thực hiện các hành động mới lạ trong thế giới thực,” Parker-Holder cho biết, đề cập đến khoảnh khắc huyền thoại trong trò chơi cờ vây năm 2016 giữa tác nhân AI AlphaGo của DeepMind và nhà vô địch thế giới Lee Sedol, trong đó Alpha Go đã chơi một nước đi phi truyền thống và xuất sắc trở thành biểu tượng cho khả năng khám phá các chiến lược mới vượt ra ngoài hiểu biết của con người.

“Nhưng bây giờ, chúng ta có thể mở ra một kỷ nguyên mới,” ông nói.