Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Google Các mô hình của Gemini Robotics đang cung cấp năng lượng cho các robot thông minh hơn

Khám phá cách Google Gemini Robotics cải tiến robot hỗ trợ AI với trí thông minh đa phương thức, tăng cường khả năng thích ứng, sự khéo léo và tương tác liền mạch với con người.

Trong nhiều thập kỷ, robot đã tượng trưng cho tương lai, xuất hiện trong các phòng nghiên cứu, phim khoa học viễn tưởng và các buổi trình diễn nguyên mẫu công nghiệp tiên tiến. Giờ đây, nhờ vào sự tiến bộ gần đây của trí tuệ nhân tạo (AI) , các nguyên mẫu này đang vượt ra khỏi môi trường được kiểm soát để tiến vào các ứng dụng trong thế giới thực. 

Cụ thể, với Gemini Robotics, Google đang tiến gần hơn một bước tới công nghệ cần thiết để chế tạo robot thông minh hơn . Ra mắt vào ngày 12 tháng 3 năm 2025, mô hình Gemini Robotics và mô hình đồng hành của nó, Gemini Robotics-ER (Embodied Reasoning), là Google Những cải tiến mới nhất của DeepMind. 

Chúng được xây dựng trên Gemini 2.0 , một Mô hình ngôn ngữ lớn đa phương thức (LLM) có thể xử lý và tạo ra nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh, âm thanh và video, tạo điều kiện cho các tương tác linh hoạt và tự nhiên hơn. Các mô hình này đưa khả năng đa phương thức của Gemini 2.0 vào thế giới vật lý, cho phép các rô-bốt khéo léo, tương tác và thông minh hơn.

Ví dụ, không giống như các robot truyền thống tuân theo các hướng dẫn cố định, các robot tích hợp với các mô hình Gemini Robotics có thể xử lý thị giác và ngôn ngữ. Điều này giúp chúng có thể đưa ra quyết định theo thời gian thực và thích ứng với các môi trường thay đổi.

Trong bài viết này, chúng ta sẽ khám phá Gemini Robotics và Gemini Robotics-ER, cách thức hoạt động của các mô hình này và các tính năng và ứng dụng chính của chúng. Hãy bắt đầu nào!

Hình 1. Gemini Robotics giúp robot thực hiện nhiều nhiệm vụ một cách hiệu quả.

Giới thiệu Google Công ty Robot Gemini

Google 'Song Tử Robotics là một mô hình AI tiên tiến được thiết kế để cung cấp cho robot khả năng nhận thức, lý luận và tương tác trong thế giới vật lý. Là một mô hình thị giác-ngôn ngữ-hành động (VLA), nó cho phép robot xử lý các hướng dẫn, diễn giải môi trường của chúng và thực hiện các nhiệm vụ phức tạp với độ chính xác cao.

Trong khi đó, mô hình Gemini Robotics-ER cải thiện khả năng hiểu mối quan hệ không gian của các vật thể về cách chúng được định vị, cách chúng di chuyển và cách chúng tương tác. Điều này giúp robot dự đoán hành động và điều chỉnh chuyển động của chúng cho phù hợp. 

Ví dụ, hãy xem xét một nhiệm vụ mà robot cần quấn dây quanh tai nghe. Gemini Robotics-ER giúp robot hiểu được bối cảnh, nhận dạng hình dạng và độ linh hoạt của dây, xác định cấu trúc của tai nghe và dự đoán cách dây sẽ uốn cong khi di chuyển. Sau đó, Gemini Robotics chuyển sự hiểu biết này thành hành động, phối hợp cả hai tay để thao tác dây một cách trơn tru, điều chỉnh độ bám để tránh bị rối và đảm bảo quấn chặt.

Bằng cách kết hợp nhận thức với hành động, Gemini Robotics và Gemini Robotics-ER tạo ra một hệ thống thông minh cho phép robot thực hiện các nhiệm vụ khéo léo một cách hiệu quả trong môi trường năng động.

Hình 2. Tổng quan về dòng sản phẩm Gemini Robotics.

AI trong robot: Khám phá cách thức hoạt động của Gemini Robotics

Tiếp theo, chúng ta hãy xem xét kỹ hơn từng mô hình để hiểu rõ hơn cách Gemini Robotics và Gemini Robotics-ER phối hợp với nhau để cân bằng giữa tính linh hoạt và hành động nhanh chóng. 

Một mặt, Gemini Robotics-ER tận dụng hai cơ chế chính: tạo mã zero-shot và học theo ngữ cảnh few-shot (ICL). Với việc tạo mã zero-shot, mô hình có thể tạo mã để điều khiển robot dựa trên hướng dẫn tác vụ, hình ảnh và dữ liệu thời gian thực mà không cần đào tạo thêm. 

Tương tự như vậy, với phương pháp học ít lần , mô hình thích ứng với các nhiệm vụ mới bằng cách học từ chỉ một vài ví dụ, giảm nhu cầu đào tạo mở rộng. Cùng nhau, các phương pháp này cho phép robot thực hiện các nhiệm vụ phức tạp một cách nhanh chóng và thích ứng với những thách thức mới với nỗ lực tối thiểu.

Mặt khác, Gemini Robotics được xây dựng để đạt được tốc độ và hiệu quả. Nó sử dụng một hệ thống lai bao gồm xương sống dựa trên đám mây và bộ giải mã hành động tích hợp. Xương sống dựa trên đám mây xử lý thông tin nhanh chóng, với độ trễ từ truy vấn đến phản hồi dưới 160 mili giây. 

Sau đó, bộ giải mã trên bo mạch giúp chuyển đổi dữ liệu này thành các hành động theo thời gian thực. Hệ thống kết hợp này đạt được thời gian phản hồi tổng thể khoảng 250 mili giây, với tốc độ điều khiển là 50 hành động mỗi giây.

Hình 3. Hiểu cách Gemini Robotics hỗ trợ điều khiển robot theo thời gian thực.

Khả năng chính của Gemini Robotics 

Sau đây là cái nhìn nhanh về các tính năng chính của Gemini Robotics:

  • Tính tổng quát : Có thể thích ứng với những thay đổi về ánh sáng, bối cảnh và vật thể trong khi vẫn giữ được độ chính xác. Nó cũng hiểu được các lệnh được diễn đạt lại hoặc đa ngôn ngữ và có thể điều chỉnh chuyển động cho các điều kiện khác nhau.

  • Tính tương tác : Mô hình này có thể xử lý nhiều lệnh ngôn ngữ tự nhiên và phản hồi trực quan. Nó cũng điều chỉnh hành động của mình dựa trên những thay đổi theo thời gian thực trong môi trường, khiến nó trở nên lý tưởng cho sự hợp tác giữa người và robot .

  • Khéo léo : Một robot được cung cấp năng lượng bởi mô hình này có thể thực hiện các nhiệm vụ phức tạp, chính xác, chẳng hạn như gấp origami hoặc xử lý các vật thể tinh xảo. Cho dù đó là quy trình từng bước hay hành động nhanh, mô hình có thể giúp thực hiện chúng một cách hiệu quả.
  • Nhiều hiện thân : Hoạt động trên nhiều nền tảng robot khác nhau, như hệ thống hai tay và robot hình người, với ít tinh chỉnh. Nó nhanh chóng thích ứng với các nhiệm vụ mới trong khi vẫn duy trì hiệu suất cao.
Hình 4 . Google Gemini Robotics hoạt động trên nhiều nền tảng robot khác nhau.

Khả năng chính của Gemini Robotics - ER

Sau đây là một số tính năng chính của Gemini Robotics-ER giúp robot hiểu và tương tác với thế giới:

  • Phát hiện và theo dõi đối tượng : Có thể được sử dụng để xác định và theo dõi các đối tượng trong cả không gian 2D và 3D. Bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên, nó giúp robot tìm thấy các đối tượng và dự đoán vị trí của chúng, cho dù dựa trên loại, vị trí hay chức năng.

  • Trỏ : Tính năng này cho phép mô hình xác định chính xác các đối tượng hoặc bộ phận cụ thể trong hình ảnh bằng tọa độ chính xác. Nó có thể được sử dụng để giúp robot xác định vị trí toàn bộ đối tượng, các bộ phận của đối tượng hoặc thậm chí là không gian trống.
  • Dự đoán nắm bắt : Gemini Robotics-ER có thể được sử dụng để xác định cách tốt nhất để nắm bắt các vật thể dựa trên hình dạng và chức năng của chúng. Nó dự đoán nơi cần nắm, cho dù đó là một quả chuối hay một tay cầm cốc, cho phép robot xử lý các vật phẩm một cách cẩn thận.

  • Lý luận quỹ đạo : Mô hình có thể được sử dụng để lập kế hoạch đường di chuyển bằng cách dự đoán trình tự hành động. Ví dụ, nó có thể hướng dẫn tay robot về phía một công cụ hoặc xác định điểm dừng cho một nhiệm vụ cụ thể, giúp robot hoàn thành nhiệm vụ một cách hiệu quả.

  • Tương ứng đa góc nhìn : Tính năng này giúp mô hình hiểu được cấu trúc 3D bằng cách so sánh cách các vật thể xuất hiện từ các góc độ khác nhau. Nó có thể được sử dụng để tăng cường khả năng suy luận không gian, cho phép robot tương tác tốt hơn với các vật thể trong môi trường động.
Hình 5. Gemini Robotics-ER có thể xử lý nhiều nhiệm vụ khác nhau.

Ứng dụng của Google Mô hình Gemini Robotics

Bây giờ chúng ta đã thảo luận về các khả năng chính của Gemini Robotics và Gemini Robotics-ER, hãy cùng tìm hiểu sâu hơn về các ứng dụng thực tế của chúng trong nhiều ngành công nghiệp khác nhau.

Google Gemini Robotics có thể được sử dụng trong sản xuất

Khi nói đến sản xuất , độ chính xác và tốc độ là quan trọng, nhưng khả năng thích ứng mới thực sự làm cho mọi thứ diễn ra suôn sẻ. Ví dụ, một robot công nghiệp chạy bằng Gemini có thể lắp ráp hệ thống ròng rọc bằng cách xác định đúng các thành phần, định vị chúng đúng cách và xử lý dây cao su mềm dẻo với lực chính xác. 

Nó có thể kéo căng dây, quấn quanh ròng rọc và cố định mà không bị đứt hoặc lệch. Nếu thiết lập thay đổi hoặc nhiệm vụ thay đổi, robot có thể thích ứng mà không cần phải lập trình lại nhiều. Tự động hóa thông minh này giúp giảm lỗi, cải thiện hiệu quả và duy trì quy trình sản xuất diễn ra suôn sẻ.

Hình 6. Một rô-bốt công nghiệp hai tay lắp chính xác một sợi dây cao su vào hệ thống ròng rọc.

Nhà thông minh được hỗ trợ bởi Gemini Robotics

Lịch trình bận rộn có thể khiến việc theo kịp các công việc nhà trở nên khó khăn. Robot thông minh có thể vào cuộc để xử lý các công việc như dọn dẹp, phân loại hàng tạp hóa và thậm chí giúp chuẩn bị bữa ăn, giúp cuộc sống hàng ngày dễ dàng hơn. 

Điều này có thể trông giống như một con rô-bốt đang đóng gói túi đựng đồ ăn trưa, cẩn thận lựa chọn và đặt các món ăn vào bên trong trong khi điều chỉnh độ bám để bảo vệ các món đồ dễ vỡ như trái cây hoặc lon. Ngay cả khi sắp xếp thay đổi, rô-bốt vẫn có thể tự thích nghi, giúp công việc hàng ngày dễ dàng hơn với sự giám sát tối thiểu.

Hình 7. Một robot hình người đang cẩn thận đóng gói túi đựng đồ ăn trưa.

Ưu và nhược điểm của việc tận dụng Gemini Robotics 

Gemini Robotics đang mở rộng những gì robot có thể làm, từ sản xuất chính xác đến hỗ trợ nhà thông minh. Sau đây là một số lợi thế chính khi sử dụng Gemini Robotics trên nhiều ứng dụng khác nhau: 

  • Yêu cầu đào tạo tối thiểu : Không giống như robot truyền thống, robot do Gemini Robotics điều khiển có thể học hỏi từ một vài lần trình diễn, giúp giảm chi phí đào tạo và triển khai dễ dàng hơn.

  • Nâng cao tính an toàn: Trong môi trường nguy hiểm, robot tích hợp với Gemini Robotics có thể thực hiện các nhiệm vụ nguy hiểm, giảm nguy cơ thương tích cho người lao động.
  • Các tính năng có thể tùy chỉnh: Tính linh hoạt của Gemini Robotics có nghĩa là nó có thể được điều chỉnh để đáp ứng các nhu cầu cụ thể của các ngành công nghiệp hoặc doanh nghiệp riêng lẻ khác nhau, cho phép ứng dụng chuyên biệt và giải pháp độc đáo.

Mặc dù Gemini Robotics mang lại nhiều lợi ích nhưng cũng cần phải giải quyết những hạn chế sau:

  • Thách thức về mối quan hệ không gian: Các mô hình này có thể gặp khó khăn trong việc theo dõi các mối quan hệ không gian trên các chuỗi video dài, điều này ảnh hưởng đến khả năng theo dõi và hiểu các đối tượng theo thời gian.
  • Thiếu độ chính xác về mặt số: Các dự đoán của mô hình, như điểm và hộp giới hạn, có thể không đủ chính xác cho các nhiệm vụ đòi hỏi khả năng kiểm soát chặt chẽ, chẳng hạn như các nhiệm vụ robot tinh vi.
  • Nhiệm vụ phức tạp : Gemini Robotics có thể gặp khó khăn khi xử lý các nhiệm vụ phức tạp đòi hỏi lý luận nhiều bước và chuyển động chính xác, đặc biệt là trong những tình huống mới hoặc không quen thuộc. 

Tương lai của AI trong ngành robot

Khi AI tiếp tục phát triển, các mô hình như Gemini Robotics và Gemini Robotics-ER đang thúc đẩy tương lai của robot . Những cải tiến trong tương lai có thể sẽ tập trung vào việc tăng cường lý luận nhiều bước, cho phép robot chia nhỏ các nhiệm vụ thành các bước hợp lý để có độ chính xác cao hơn.

Một lĩnh vực phát triển quan trọng khác Google DeepMind có kế hoạch thực hiện đào tạo dựa trên mô phỏng. Bằng cách học trong môi trường ảo trước khi triển khai trong thế giới thực, robot có thể tinh chỉnh quá trình ra quyết định và chuyển động của mình, giảm thiểu lỗi trong các ứng dụng thực tế.

Khi những công nghệ này phát triển, chúng có thể mở đường cho một tương lai mà robot trở nên tự chủ hơn, thích nghi hơn và có khả năng làm việc liền mạch cùng con người trong cuộc sống hàng ngày.

Những điểm chính

Gemini Robotics là một bước tiến lớn trong tự động hóa do AI điều khiển, kết nối trí thông minh kỹ thuật số với các nhiệm vụ vật lý trong thế giới thực. Bằng cách kết hợp tầm nhìn, ngôn ngữ và học tập dựa trên hành động, những robot này có thể xử lý các nhiệm vụ phức tạp với độ chính xác và khả năng thích ứng. 

Khi robot tiếp tục trở nên thông minh hơn, chúng có thể sẽ đóng vai trò lớn hơn trong cuộc sống hàng ngày, thay đổi cách con người và máy móc làm việc cùng nhau. Tiến trình này đang đưa chúng ta đến gần hơn với một thế giới thông minh, kết nối hơn, nơi tự động hóa do AI thúc đẩy nâng cao cả ngành công nghiệp và các nhiệm vụ hàng ngày.

Hãy trở thành một phần trong cộng đồng đang phát triển của chúng tôi! Truy cập kho lưu trữ GitHub của chúng tôi để tìm hiểu sâu hơn về AI. Bạn đang muốn bắt đầu các dự án thị giác máy tính của riêng mình? Hãy xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu thêm về AI trong sản xuấtAI thị giác trong ngành công nghiệp ô tô trên các trang giải pháp của chúng tôi!

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning