Google đang thành lập một nhóm mới tập trung vào việc xây dựng các mô hình AI có khả năng mô phỏng thế giới thực. Nhóm này sẽ do Tim Brooks lãnh đạo, người trước đây là đồng lãnh đạo của Sora, trình tạo video của OpenAI, trước khi chuyển sang Google DeepMind vào tháng 10.
Theo bài đăng tuyển dụng của Brooks, nhóm mới này sẽ là một phần của Google DeepMind và có kế hoạch đầy tham vọng để tạo ra các mô hình tổng quát khổng lồ mô phỏng thế giới. Nhóm sẽ hợp tác chặt chẽ với các nhóm Gemini, Veo và Genie của Google, đồng thời tận dụng những thành quả nghiên cứu của họ. Gemini là dòng mô hình AI hàng đầu của Google, được sử dụng cho các tác vụ như phân tích hình ảnh và tạo văn bản, trong khi Veo là mô hình tạo video của riêng Google. Genie là mô hình thế giới của Google, một loại AI có thể mô phỏng các trò chơi và môi trường 3D theo thời gian thực. Mô hình Genie mới nhất của Google, được giới thiệu vào tháng 12, có khả năng tạo ra nhiều thế giới 3D có thể chơi được.
Mục tiêu của nhóm là giải quyết các vấn đề mới quan trọng và mở rộng quy mô mô hình lên mức tính toán cao nhất. Họ tin rằng việc mở rộng quy mô huấn luyện AI trên video và dữ liệu đa phương thức là con đường quan trọng để đạt được trí tuệ nhân tạo tổng quát (AGI), một loại AI có thể thực hiện bất kỳ nhiệm vụ nào mà con người có thể làm. Các mô hình thế giới sẽ hỗ trợ nhiều lĩnh vực, như lập luận và mô phỏng trực quan, lập kế hoạch cho các tác nhân cụ thể và giải trí tương tác theo thời gian thực.
Nhóm của Brooks sẽ phát triển các công cụ tạo tương tác theo thời gian thực dựa trên các mô hình họ xây dựng và nghiên cứu cách tích hợp các mô hình này với các mô hình đa phương thức hiện có như Gemini.
Hiện tại, một số công ty khởi nghiệp và công ty công nghệ lớn đang theo đuổi các mô hình thế giới, bao gồm World Labs của nhà nghiên cứu AI có ảnh hưởng Fei-Fei Lee, Decart của Israel và Odyssey. Họ tin rằng các mô hình thế giới một ngày nào đó có thể được sử dụng để tạo ra các phương tiện tương tác, như trò chơi điện tử và phim ảnh, đồng thời chạy các mô phỏng thực tế như môi trường huấn luyện cho robot.
Tuy nhiên, công nghệ này cũng gây ra những lo ngại về việc thay thế các chuyên gia sáng tạo và vấn đề bản quyền. Một số mô hình thế giới dường như được huấn luyện trên các đoạn video chơi trò chơi, điều này có thể khiến các công ty phát triển các mô hình đó trở thành mục tiêu của các vụ kiện nếu các video đó không được cấp phép. Google khẳng định họ có quyền huấn luyện mô hình của mình trên các video YouTube theo điều khoản dịch vụ của nền tảng, nhưng chưa cho biết họ đang sử dụng những video cụ thể nào để huấn luyện.

