Thông tin là cốt lõi của sự tiến bộ nhân loại. Đây là lý do tại sao Google đã tập trung hơn 26 năm vào sứ mệnh tổ chức thông tin thế giới và làm cho thông tin trở nên dễ tiếp cận và hữu ích. Tiếp tục mục tiêu đó, Google luôn nỗ lực mở rộng giới hạn của AI để tổ chức thông tin qua mọi đầu vào và làm cho nó dễ tiếp cận qua bất kỳ đầu ra nào.
Sự phát triển của Gemini
Tầm nhìn này đã được hiện thực hóa khi Gemini 1.0 ra mắt vào tháng 12 năm ngoái. Là mô hình đầu tiên được thiết kế đa phương thức một cách tự nhiên, Gemini 1.0 và 1.5 đã tạo ra những bước tiến lớn với khả năng hiểu thông tin từ văn bản, video, hình ảnh, âm thanh và mã lập trình, đồng thời xử lý khối lượng lớn dữ liệu.
Hiện tại, hàng triệu nhà phát triển đã và đang xây dựng trên nền tảng Gemini. Mô hình này không chỉ tái định hình các sản phẩm của Google mà còn hỗ trợ tạo ra các sản phẩm mới như NotebookLM, được yêu thích nhờ khả năng kết hợp đa phương thức và ngữ cảnh dài.
Sự ra đời của AI Agents
AI Agents (Tác nhân AI/Trợ thủ AI) là một hệ thống AI linh hoạt và thông minh, có khả năng quan sát, xử lý thông tin, và thực hiện hành động độc lập hoặc dưới sự giám sát của con người để hoàn thành các nhiệm vụ cụ thể. Trong năm qua, Google đã đầu tư phát triển các Mô Hình Tác Nhân (AI Agent Models) với khả năng hiểu rõ hơn về thế giới xung quanh, dự đoán trước nhiều bước và thực hiện hành động dưới sự giám sát của người dùng. Cuối 2024, Google giới thiệu Gemini 2.0 – mô hình tiên tiến nhất với các cải tiến về đa phương thức như đầu ra hình ảnh và âm thanh gốc, cùng khả năng sử dụng công cụ một cách tự nhiên, tiến gần hơn tới tầm nhìn về một trợ lý đa năng.
Giới thiệu Gemini 2.0
Trong năm qua, Google đã tiếp tục đạt được những tiến bộ đáng kinh ngạc trong trí tuệ nhân tạo. Giờ đây, họ đang phát hành mô hình đầu tiên trong dòng mô hình Gemini 2.0: phiên bản thử nghiệm của Gemini 2.0 Flash. Đó là mô hình chủ lực của Google với độ trễ thấp và hiệu suất nâng cao ở vị trí tiên tiến nhất của công nghệ, ở quy mô lớn.
Google cũng đang chia sẻ các giới hạn nghiên cứu về tác nhân (agents) của mình bằng cách giới thiệu các nguyên mẫu được kích hoạt bởi các khả năng đa phương thức gốc của Gemini 2.0.
Gemini 2.0 Flash
Gemini 2.0 Flash được xây dựng dựa trên sự thành công của 1.5 Flash, mô hình phổ biến nhất của Google cho đến nay dành cho nhà phát triển, với hiệu suất nâng cao ở thời gian phản hồi nhanh tương tự. Đáng chú ý, 2.0 Flash thậm chí còn vượt trội hơn 1.5 Pro về các điểm chuẩn chính, với tốc độ gấp đôi. 2.0 Flash cũng đi kèm với các khả năng mới. Ngoài việc hỗ trợ đầu vào đa phương thức như hình ảnh, video và âm thanh, 2.0 Flash hiện hỗ trợ đầu ra đa phương thức như hình ảnh được tạo nguyên bản kết hợp với văn bản và âm thanh đa ngôn ngữ chuyển văn bản thành giọng nói (TTS) có thể điều khiển được. Nó cũng có thể gọi nguyên bản các công cụ như Google Tìm kiếm, thực thi mã cũng như các hàm do người dùng xác định của bên thứ ba.
Mục tiêu của Google là đưa mô hình của mình vào tay mọi người một cách an toàn và nhanh chóng. Trong tháng qua, Google đã chia sẻ các phiên bản thử nghiệm ban đầu của Gemini 2.0, nhận được phản hồi tuyệt vời từ các nhà phát triển. Gemini 2.0 Flash hiện có sẵn dưới dạng mô hình thử nghiệm cho các nhà phát triển thông qua API Gemini trong Google AI Studio và Vertex AI với đầu vào đa phương thức và đầu ra văn bản khả dụng cho tất cả các nhà phát triển và chuyển văn bản thành giọng nói và tạo hình ảnh gốc khả dụng cho các đối tác truy cập sớm . Khả dụng chung sẽ theo sau vào tháng 1, cùng với nhiều kích thước mô hình hơn.
Để giúp các nhà phát triển xây dựng các ứng dụng tương tác và năng động, Google cũng đang phát hành API Trực tiếp Đa phương thức mới có âm thanh thời gian thực, đầu vào phát trực tuyến video và khả năng sử dụng nhiều công cụ kết hợp. Thông tin thêm về 2.0 Flash và API Trực tiếp Đa phương thức có thể được tìm thấy trong blog dành cho nhà phát triển của Google.
Gemini 2.0 có sẵn trong ứng dụng Gemini: Cũng bắt đầu từ hôm nay, người dùng Gemini trên toàn cầu có thể truy cập phiên bản thử nghiệm 2.0 Flash được tối ưu hóa trò chuyện bằng cách chọn nó trong menu thả xuống mô hình trên máy tính để bàn và web dành cho thiết bị di động và nó sẽ sớm có sẵn trong ứng dụng Gemini dành cho thiết bị di động. Với mô hình mới này, người dùng có thể trải nghiệm một trợ lý Gemini thậm chí còn hữu ích hơn. Đầu năm sau, Google sẽ mở rộng Gemini 2.0 sang nhiều sản phẩm của Google hơn.
Mở khóa trải nghiệm AI Agents với Gemini 2.0
Các khả năng hành động giao diện người dùng gốc của Gemini 2.0 Flash, cùng với các cải tiến khác như lập luận đa phương thức, hiểu bối cảnh dài, tuân theo hướng dẫn phức tạp và lập kế hoạch, gọi hàm theo bố cục, sử dụng công cụ gốc và độ trễ được cải thiện, tất cả đều hoạt động phối hợp để cho phép một lớp trải nghiệm tác nhân mới.
Ứng dụng thực tế của các tác nhân AI là một lĩnh vực nghiên cứu đầy những khả năng thú vị. Google đang khám phá biên giới mới này với một loạt các nguyên mẫu có thể giúp mọi người hoàn thành nhiệm vụ và hoàn thành công việc. Chúng bao gồm bản cập nhật cho Project Astra, nguyên mẫu nghiên cứu khám phá các khả năng trong tương lai của một trợ lý AI vạn năng; Project Mariner mới, khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu với trình duyệt của bạn; và Jules, một tác nhân mã được hỗ trợ bởi AI có thể giúp các nhà phát triển.
Google vẫn đang trong giai đoạn đầu phát triển, nhưng họ rất vui mừng khi thấy những người thử nghiệm đáng tin cậy sử dụng các khả năng mới này như thế nào và Google có thể học được những bài học gì, để họ có thể cung cấp chúng rộng rãi hơn trong các sản phẩm trong tương lai.
Project Astra: Tác nhân AI sử dụng hiểu biết đa phương thức trong thế giới thực
Kể từ khi Google giới thiệu Project Astra tại Google I/O, họ đã học hỏi được từ những người thử nghiệm đáng tin cậy sử dụng nó trên điện thoại Android. Phản hồi quý giá của họ đã giúp Google hiểu rõ hơn về cách thức hoạt động của một trợ lý AI vạn năng trong thực tế, bao gồm cả ý nghĩa đối với sự an toàn và đạo đức.
Các cải tiến trong phiên bản mới nhất được xây dựng với Gemini 2.0 bao gồm:
- Đối thoại tốt hơn: Project Astra hiện có khả năng trò chuyện bằng nhiều ngôn ngữ và bằng nhiều ngôn ngữ hỗn hợp, với khả năng hiểu giọng và các từ không phổ biến tốt hơn.
- Sử dụng công cụ mới: Với Gemini 2.0, Project Astra có thể sử dụng Google Tìm kiếm, Ống kính và Bản đồ, giúp nó hữu ích hơn như một trợ lý trong cuộc sống hàng ngày của bạn.
- Bộ nhớ tốt hơn: Google đã cải thiện khả năng ghi nhớ mọi thứ của Project Astra trong khi vẫn cho phép bạn kiểm soát. Giờ đây, nó có bộ nhớ trong phiên lên đến 10 phút và có thể ghi nhớ nhiều cuộc trò chuyện hơn mà bạn đã thực hiện với nó trước đây, vì vậy nó được cá nhân hóa tốt hơn cho bạn.
- Độ trễ được cải thiện: Với khả năng phát trực tuyến mới và khả năng hiểu âm thanh gốc, tác nhân có thể hiểu ngôn ngữ ở độ trễ gần bằng cuộc trò chuyện của con người.
Google đang nỗ lực mang những loại khả năng này đến các sản phẩm của Google như ứng dụng Gemini, trợ lý AI của họ và các yếu tố hình thức khác như kính. Và họ đang bắt đầu mở rộng chương trình người thử nghiệm đáng tin cậy của mình cho nhiều người hơn, bao gồm một nhóm nhỏ sẽ sớm bắt đầu thử nghiệm Project Astra trên kính nguyên mẫu.
Project Mariner: Tác nhân AI có thể giúp bạn hoàn thành các nhiệm vụ phức tạp
Project Mariner là một nguyên mẫu nghiên cứu ban đầu được xây dựng với Gemini 2.0, khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu với trình duyệt của bạn. Là một nguyên mẫu nghiên cứu, nó có thể hiểu và lập luận trên các thông tin trong màn hình trình duyệt của bạn, bao gồm cả pixel và các yếu tố web như văn bản, mã, hình ảnh và biểu mẫu, sau đó sử dụng thông tin đó thông qua tiện ích mở rộng Chrome thử nghiệm để hoàn thành nhiệm vụ cho bạn.
Khi được đánh giá dựa trên điểm chuẩn WebVoyager, kiểm tra hiệu suất của tác nhân trên các tác vụ web thực tế từ đầu đến cuối, Project Mariner đã đạt được kết quả tiên tiến là 83,5% khi hoạt động như một thiết lập tác nhân duy nhất.
Vẫn còn sớm, nhưng Project Mariner cho thấy rằng việc điều hướng trong trình duyệt đang trở nên khả thi về mặt kỹ thuật, mặc dù nó không phải lúc nào cũng chính xác và chậm để hoàn thành nhiệm vụ ngày nay, điều này sẽ cải thiện nhanh chóng theo thời gian.
Để xây dựng điều này một cách an toàn và có trách nhiệm, Google đang tiến hành nghiên cứu tích cực về các loại rủi ro và biện pháp giảm thiểu mới, đồng thời giữ con người trong vòng lặp. Ví dụ: Project Mariner chỉ có thể nhập, cuộn hoặc nhấp vào tab đang hoạt động trên trình duyệt của bạn và nó yêu cầu người dùng xác nhận cuối cùng trước khi thực hiện một số hành động nhạy cảm, chẳng hạn như mua thứ gì đó.
Những người thử nghiệm đáng tin cậy đang bắt đầu thử nghiệm Project Mariner bằng cách sử dụng tiện ích mở rộng Chrome thử nghiệm ngay bây giờ và Google đang bắt đầu các cuộc trò chuyện với hệ sinh thái web song song.
Jules: AI Agents dành cho nhà phát triển
Tiếp theo, Google đang khám phá cách các tác nhân AI có thể hỗ trợ các nhà phát triển với Jules – một tác nhân mã được hỗ trợ bởi AI thử nghiệm tích hợp trực tiếp vào quy trình làm việc của GitHub. Nó có thể giải quyết vấn đề, phát triển kế hoạch và thực hiện nó, tất cả đều dưới sự chỉ đạo và giám sát của nhà phát triển. Nỗ lực này là một phần trong mục tiêu dài hạn của Google là xây dựng các tác nhân AI hữu ích trong mọi lĩnh vực, bao gồm cả mã hóa. Thông tin thêm về thử nghiệm đang diễn ra này có thể được tìm thấy trong bài đăng trên blog dành cho nhà phát triển của Google.
Genie 2: AI Agents trong trò chơi và các lĩnh vực khác
Google DeepMind có lịch sử lâu đời trong việc sử dụng trò chơi để giúp các mô hình AI trở nên tốt hơn trong việc tuân thủ các quy tắc, lập kế hoạch và logic. Ví dụ, chỉ mới tuần trước, Google đã giới thiệu Genie 2, mô hình AI có thể tạo ra vô số thế giới 3D có thể chơi được – tất cả chỉ từ một hình ảnh duy nhất.
Dựa trên truyền thống này, Google đã xây dựng các tác nhân sử dụng Gemini 2.0 có thể giúp bạn điều hướng thế giới ảo của trò chơi điện tử. Nó có thể lập luận về trò chơi chỉ dựa trên hành động trên màn hình và đưa ra gợi ý về những việc cần làm tiếp theo trong cuộc trò chuyện thời gian thực.
Google đang hợp tác với các nhà phát triển trò chơi hàng đầu như Supercell để khám phá cách thức hoạt động của các tác nhân này, kiểm tra khả năng diễn giải các quy tắc và thách thức của họ trong một loạt các trò chơi đa dạng, từ các tựa game chiến lược như “Clash of Clans” đến các trò chơi mô phỏng nông trại như “Hay Day”.
Ngoài vai trò là bạn đồng hành chơi trò chơi ảo, các tác nhân này thậm chí có thể khai thác Google Tìm kiếm để kết nối bạn với kho tàng kiến thức về trò chơi trên web.
Ngoài việc khám phá các khả năng của tác nhân trong thế giới ảo, Google đang thử nghiệm các tác nhân có thể hỗ trợ trong thế giới thực bằng cách áp dụng khả năng lập luận không gian của Gemini 2.0 vào robot. Mặc dù vẫn còn sớm, nhưng Google rất vui mừng về tiềm năng của các tác nhân có thể hỗ trợ trong môi trường vật lý.
Phát triển AI một cách có trách nhiệm trong kỷ nguyên AI tự chủ
Gemini 2.0 Flash và các nguyên mẫu nghiên cứu của Google cho phép họ thử nghiệm và lặp lại các khả năng mới ở vị trí tiên phong của nghiên cứu AI, cuối cùng sẽ giúp các sản phẩm của Google hữu ích hơn. Khi Google phát triển những công nghệ mới này, họ nhận thức được trách nhiệm kèm theo đó và nhiều câu hỏi mà các AI Agents mở ra cho sự an toàn và bảo mật. Đó là lý do tại sao Google đang thực hiện phương pháp tiếp cận phát triển theo hướng thăm dò và dần dần, tiến hành nghiên cứu trên nhiều nguyên mẫu, thực hiện lặp đi lặp lại đào tạo an toàn, làm việc với những người thử nghiệm đáng tin cậy và các chuyên gia bên ngoài cũng như thực hiện đánh giá rủi ro và đánh giá an toàn và đảm bảo rộng rãi.
- Là một phần trong quy trình an toàn của mình, Google đã làm việc với Ủy ban Trách nhiệm và An toàn (RSC), nhóm đánh giá nội bộ lâu năm của họ, để xác định và hiểu các rủi ro tiềm ẩn.
- Các khả năng lập luận của Gemini 2.0 đã cho phép những tiến bộ lớn trong phương pháp tổ chức lại màu đỏ được hỗ trợ bởi AI của Google, bao gồm khả năng vượt ra ngoài việc chỉ đơn giản phát hiện ra rủi ro cho đến nay là tự động tạo ra các đánh giá và dữ liệu đào tạo để giảm thiểu chúng. Điều này có nghĩa là Google có thể tối ưu hóa mô hình một cách hiệu quả hơn cho sự an toàn ở quy mô lớn.
- Khi tính đa phương thức của Gemini 2.0 làm tăng độ phức tạp của các đầu ra tiềm năng, Google sẽ tiếp tục đánh giá và đào tạo mô hình trên đầu vào và đầu ra hình ảnh và âm thanh để giúp cải thiện sự an toàn.
- Với Project Astra, Google đang khám phá các biện pháp giảm thiểu tiềm năng chống lại việc người dùng vô tình chia sẻ thông tin nhạy cảm với tác nhân và họ đã tích hợp các biện pháp kiểm soát quyền riêng tư giúp người dùng dễ dàng xóa các phiên. Google cũng đang tiếp tục nghiên cứu các cách để đảm bảo các tác nhân AI hoạt động như những nguồn thông tin đáng tin cậy và không thực hiện các hành động ngoài ý muốn thay mặt bạn.
- Với Project Mariner, Google đang nỗ lực để đảm bảo rằng mô hình học cách ưu tiên các hướng dẫn của người dùng hơn các nỗ lực tiêm nhắc của bên thứ 3, để nó có thể xác định các hướng dẫn có khả năng độc hại từ các nguồn bên ngoài và ngăn chặn việc sử dụng sai mục đích. Điều này ngăn người dùng bị lừa đảo và lừa đảo thông qua những thứ như hướng dẫn độc hại ẩn trong email, tài liệu hoặc trang web.
Google tin chắc rằng cách duy nhất để xây dựng AI là có trách nhiệm ngay từ đầu và họ sẽ tiếp tục ưu tiên biến sự an toàn và trách nhiệm thành yếu tố chính trong quy trình phát triển mô hình của mình khi họ nâng cao mô hình và tác nhân của mình.
Gemini 2.0, tác nhân AI và hơn thế nữa
Các bản phát hành này đánh dấu một chương mới cho mô hình Gemini của Google. Với việc phát hành Gemini 2.0 Flash và loạt nguyên mẫu nghiên cứu khám phá khả năng của tác nhân, Google đã đạt được một cột mốc thú vị trong kỷ nguyên Gemini. Và họ mong muốn tiếp tục khám phá tất cả các khả năng