Gemini, trợ lý AI tiên tiến của Google, tiếp tục khẳng định vị thế của mình trong cuộc đua công nghệ AI với việc ra mắt các tính năng mới đầy ấn tượng. Một trong những điểm nhấn nổi bật nhất là Audio Overview, giờ đây đã được tích hợp trực tiếp vào ứng dụng Gemini, cùng với hàng loạt cập nhật khác giúp nâng cao trải nghiệm người dùng. Hãy cùng tìm hiểu chi tiết về tính năng này và những gì Gemini đã mang đến trong thời gian gần đây!
Audio Overview: Biến Tài Liệu Thành Podcast Thú Vị
Ra mắt lần đầu trên NotebookLM, Audio Overview nhanh chóng trở thành một công cụ được yêu thích nhờ khả năng biến các tài liệu khô khan thành những cuộc hội thoại âm thanh sống động theo phong cách podcast. Kể từ ngày 31 tháng 3 năm 2025, tính năng này đã chính thức có mặt trên ứng dụng Gemini, mở rộng khả năng tiếp cận cho cả người dùng miễn phí lẫn người dùng Gemini Advanced và Gemini trong Google Workspace trên toàn cầu.
Cách hoạt động của Audio Overview rất đơn giản nhưng hiệu quả: bạn chỉ cần tải lên một tài liệu, slide hoặc báo cáo nghiên cứu sâu (Deep Research), và Gemini sẽ tạo ra một đoạn âm thanh mô phỏng cuộc trò chuyện giữa hai “dẫn chương trình” AI. Những AI này sẽ tóm tắt nội dung, làm rõ các điểm chính, kết nối các ý tưởng và thậm chí đưa ra những góc nhìn độc đáo. Thời gian xử lý thường chỉ mất khoảng 3-5 phút, và bạn có thể tải xuống hoặc chia sẻ tệp âm thanh để nghe lại bất cứ lúc nào.
Hiện tại, Audio Overview chỉ hỗ trợ tiếng Anh, nhưng Google đã hứa hẹn sẽ bổ sung thêm các ngôn ngữ khác trong tương lai. Tính năng này đặc biệt hữu ích cho những ai muốn học tập hoặc nắm bắt thông tin nhanh chóng khi đang di chuyển, chẳng hạn như nghe tóm tắt bài giảng, nghiên cứu hoặc email dài trong lúc lái xe hay làm việc nhà.
Những Cập Nhật Gần Đây Của Gemini
Ngoài Audio Overview, Gemini đã nhận được nhiều cải tiến đáng chú ý trong những tháng đầu năm 2025, biến nó thành một công cụ đa năng hơn bao giờ hết. Dưới đây là một số cập nhật nổi bật:
- Canvas – Không Gian Tương Tác Mới
Cùng với Audio Overview, Google đã giới thiệu Canvas vào ngày 18 tháng 3 năm 2025. Đây là một không gian làm việc tương tác, nơi người dùng và Gemini có thể cùng nhau tạo, chỉnh sửa và hoàn thiện tài liệu hoặc mã lập trình trong thời gian thực. Bạn có thể yêu cầu Gemini tạo bản nháp ban đầu, sau đó điều chỉnh giọng điệu, độ dài hoặc định dạng chỉ bằng vài cú nhấp chuột. Đối với lập trình viên, Canvas còn hỗ trợ tạo và xem trước mã HTML/React, giúp đơn giản hóa quá trình phát triển ứng dụng web. Tính năng này hiện đã có mặt trên cả web và ứng dụng di động, mang đến sự linh hoạt tối đa. - Gemini 2.5 Pro – Mô Hình Thông Minh Nhất
Vào ngày 24 tháng 3 năm 2025, Google công bố Gemini 2.5 Pro Experimental, được xem là mô hình AI thông minh nhất của họ từ trước đến nay. Với khả năng “suy nghĩ” trước khi trả lời, mô hình này vượt trội trong các bài kiểm tra về lập luận, lập trình và khoa học. Đặc biệt, nó sở hữu cửa sổ ngữ cảnh lên đến 1 triệu token (sắp tăng lên 2 triệu), cho phép xử lý lượng thông tin khổng lồ như toàn bộ series Chúa Nhẫn trong một lần. Gemini 2.5 Pro hiện đã có sẵn trên Google AI Studio và ứng dụng Gemini cho người dùng Advanced. - Deep Research Nâng Cấp
Tính năng Deep Research, ra mắt từ tháng 12 năm 2024, tiếp tục được cải thiện với sự tích hợp của Gemini 2.0 Flash Thinking Experimental vào ngày 12 tháng 3 năm 2025. Giờ đây, nó không chỉ tìm kiếm và tổng hợp thông tin từ web nhanh chóng mà còn hiển thị quá trình “suy nghĩ” của mình trong thời gian thực, giúp người dùng hiểu rõ cách AI đưa ra kết luận. Deep Research hiện miễn phí cho mọi người dùng với số lần sử dụng giới hạn mỗi tháng, trong khi người dùng Advanced được truy cập mở rộng. - Tích Hợp Ứng Dụng Google và Cá Nhân Hóa
Cũng trong bản cập nhật ngày 12 tháng 3, Gemini đã được kết nối với các ứng dụng và dịch vụ Google như Google Photos, mang đến câu trả lời cá nhân hóa hơn dựa trên dữ liệu của bạn. Ngoài ra, người dùng có thể tạo Gems – các phiên bản tùy chỉnh của Gemini cho các tác vụ cụ thể, chẳng hạn như lập kế hoạch du lịch hay viết mã. - Hiệu Suất và Độ Trễ Cải Thiện
Với sự ra mắt của Gemini 2.0 Flash và Flash-Lite vào đầu tháng 2 năm 2025, Google đã nâng cao hiệu suất và giảm độ trễ, đặc biệt phù hợp cho các tác vụ khối lượng lớn. Các mô hình này cũng hỗ trợ đa phương thức (multimodal), mở đường cho việc tích hợp hình ảnh và âm thanh trong tương lai gần.
Tại Sao Những Cập Nhật Này Quan Trọng?
Sự kết hợp giữa Audio Overview, Canvas và các mô hình AI tiên tiến như Gemini 2.5 Pro cho thấy Google không chỉ muốn Gemini là một chatbot thông thường, mà còn là một trợ thủ đắc lực trong công việc, học tập và sáng tạo. Audio Overview giúp bạn tiếp cận thông tin theo cách mới mẻ, trong khi Canvas và Deep Research tối ưu hóa quy trình làm việc. Với khả năng cá nhân hóa và tích hợp sâu hơn vào hệ sinh thái Google, Gemini đang tiến gần hơn đến mục tiêu trở thành một “người cộng sự” thực thụ.
Kết Luận
Tính năng Audio Overview cùng những cập nhật gần đây của Gemini là minh chứng cho sự phát triển không ngừng của AI trong việc hỗ trợ con người. Dù bạn là sinh viên cần tóm tắt tài liệu, lập trình viên muốn viết mã nhanh hơn, hay chỉ đơn giản là người yêu thích podcast, Gemini đều có thứ gì đó dành cho bạn. Hãy thử ngay các tính năng này tại gemini.google.com hoặc trên ứng dụng di động và khám phá cách chúng có thể thay đổi cách bạn làm việc và học tập!