Gemini 2.5 ra mắt: Google với tham vọng biến AI thành người dùng thật


Ưu Đãi Đổi Điểm Back To School

PV Tech News – Google vừa giới thiệu Gemini 2.5 Computer Use, mô hình AI có khả năng điều hướng và thao tác trực tiếp trên trình duyệt để thực hiện các tác vụ web như click, nhập liệu hay cuộn trang. Động thái này được xem là bước đi mới trong cuộc đua AI.

Google-Gemini-2.5-Duoc-Thong-Bao-Ra-Mat
Google Giới Thiệu Gemini 2.5 Computer Use, Ai Có Khả Năg Lướt Web (Nguồn: Internet)

Xem thêm: Google tặng sinh viên Việt gói Gemini Pro dùng miễn phí 1 năm

Mục lục

1. Gemini 2.5 Computer Use là gì

Google đang thử nghiệm Gemini phiên bản này, một mô hình AI mới có thể “sử dụng” trình duyệt giống con người. Cách tiếp cận này giúp Gemini linh hoạt hơn các mô hình AI truyền thống vốn chỉ dựa trên văn bản. Mô hình này phân tích hình ảnh và giao diện để hiểu yêu cầu, sau đó tự động thực hiện các hành động như điền biểu mẫu, kéo thả hoặc gửi thông tin.

Công nghệ này giúp AI làm việc trong môi trường được thiết kế cho người dùng, mở ra khả năng tự động hóa các quy trình mà trước đây cần thao tác thủ công, chẳng hạn kiểm thử giao diện hoặc điều hướng hệ thống nội bộ không có API.

2. Cách hoạt động và tính năng chính

Gemini 2.5 hoạt động bằng cách phân tích hình ảnh màn hình, yêu cầu văn bản và lịch sử thao tác. Dựa trên đó, mô hình chọn hành động phù hợp như nhấp chuột, nhập dữ liệu hay cuộn trang, rồi lặp lại quy trình cho đến khi hoàn tất nhiệm vụ.

Hiện AI này hỗ trợ 13 hành động cơ bản trong trình duyệt, bao gồm mở tab, gõ văn bản, kéo thả và di chuyển giữa các phần tử web. Google cho biết mô hình mới vượt trội hơn các đối thủ trong các bài kiểm thử dành cho web và di động. Tuy nhiên, Gemini 2.5 hiện chưa thể điều khiển toàn bộ máy tính vì chưa được tối ưu cho các tác vụ ở cấp hệ điều hành.

Google tung video demo AI Gemini 2.5 (Nguồn: Google)

3. Ứng dụng và triển khai

Gemini 2.5 Computer Use hiện có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, đồng thời có bản trình diễn trên Browserbase, nơi người dùng có thể xem AI tự động hoàn thành các nhiệm vụ như chơi game 2048 hay tìm chủ đề thảo luận trên Hacker News. Mô hình này cũng được ứng dụng trong AI Mode và Project Mariner, các dự án thử nghiệm của Google cho phép AI tự thực hiện thao tác trong trình duyệt, chẳng hạn thêm sản phẩm vào giỏ hàng.

Đáng chú ý, việc ra mắt Gemini 2.5 diễn ra chỉ một ngày sau khi OpenAI công bố loạt ứng dụng mới cho ChatGPT trong sự kiện Dev Day 2025, trong đó có tính năng ChatGPT Agent có thể hoàn thành tác vụ phức tạp. Trước đó, Anthropic cũng đã giới thiệu mô hình “computer use” riêng vào năm 2024.

4. Thách thức và triển vọng

Dù còn ở giai đoạn thử nghiệm, Gemini 2.5 vẫn thể hiện tiềm năng đáng kể. Google cho biết mô hình này chưa được tối ưu cho điều khiển ở cấp hệ điều hành và khuyến nghị người dùng nên theo dõi cẩn thận khi áp dụng thực tế.

Dù vậy, công nghệ này mở ra tiềm năng đáng kể cho tương lai của trợ lý AI có khả năng hành động – không chỉ hiểu ngôn ngữ mà còn có thể thao tác trực tiếp trên môi trường web. Đây là bước tiến giúp AI tiến gần hơn đến việc hoạt động như một “người dùng kỹ thuật số” thực thụ.

Theo dõi Phong Vũ Tech News để cập nhật nhanh nhất những đột phá mới về AI, công nghệ và xu hướng số toàn cầu và không bỏ lỡ các phân tích chuyên sâu và tin tức độc quyền nhé.

Nguồn: The Verge, Google Blog

Bài viết liên quan:

  • Opal – Ứng dụng AI của Google mở rộng thêm 15 quốc gia mới
  • Hướng dẫn cách tạo ảnh trung thu cho bé bằng AI Gemini cực dễ và đẹp
  • Gemini hợp tác cùng Google Drive đã có mặt trên Android & iOS

Để lại một bình luận