Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Cập nhật nghiên cứu AI từ Meta FAIR: SAM 2.1 và CoTracker3

Khám phá các mô hình AI mới nhất của Meta FAIR, SAM 2.1 và CoTracker3, cung cấp khả năng phân đoạn và theo dõi tiên tiến cho nhiều ứng dụng thực tế đa dạng.

Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu gần đây đang sôi động với sự phấn khích và năng lượng, với những cải tiến và đột phá mới xuất hiện nhanh hơn bao giờ hết. Trong vài tuần qua, nhóm Nghiên cứu AI cơ bản (FAIR) của Meta đã công bố một bộ công cụ và mô hình nhằm giải quyết các thách thức trong các lĩnh vực khác nhau của AI. Các bản phát hành này bao gồm các bản cập nhật có thể tác động đến các lĩnh vực đa dạng như chăm sóc sức khỏe , robotthực tế tăng cường .

Ví dụ, bản cập nhật SAM Mô hình 2.1 cải thiện phân đoạn đối tượng , giúp dễ dàng xác định và tách biệt chính xác các đối tượng trong hình ảnh và video. Trong khi đó, CoTracker3 tập trung vào theo dõi điểm, giúp theo dõi các điểm trong khung hình video ngay cả khi đối tượng di chuyển hoặc bị chặn một phần. 

Meta cũng đã giới thiệu các phiên bản nhẹ hơn, nhanh hơn của mô hình ngôn ngữ Llama để sử dụng hiệu quả trên thiết bị , cùng với công nghệ cảm biến xúc giác mới cho robot . Trong bài viết này, chúng tôi sẽ phân tích các bản phát hành mới nhất này từ Meta FAIR, xem xét những gì mỗi công cụ cung cấp. Hãy bắt đầu!

Mô hình bất kỳ phân đoạn nâng cao nào của Meta: SAM 2.1

Phân đoạn đối tượng , một nhiệm vụ quan trọng của thị giác máy tính , giúp xác định và tách biệt các đối tượng riêng biệt trong một hình ảnh hoặc video, giúp phân tích các khu vực quan tâm cụ thể dễ dàng hơn. Kể từ khi phát hành, Mô hình phân đoạn bất kỳ 2 ( SAM 2) của Meta đã được sử dụng để phân đoạn đối tượng trên nhiều lĩnh vực khác nhau như hình ảnh y tếkhí tượng học . Dựa trên phản hồi từ cộng đồng, Meta hiện đã giới thiệu SAM 2.1, phiên bản cải tiến được thiết kế để giải quyết một số thách thức gặp phải ở phiên bản gốc và mang lại hiệu suất tổng thể mạnh mẽ hơn.

Hình 1. SAM 2.1 Đánh giá hiệu suất mô hình.

SAM 2.1 bao gồm các bản cập nhật để xử lý tốt hơn các đối tượng nhỏ hơn và tương tự về mặt thị giác, nhờ vào các kỹ thuật tăng cường dữ liệu mới. Nó cũng cải thiện cách mô hình xử lý hiện tượng che khuất (khi các phần của đối tượng bị ẩn khỏi tầm nhìn) bằng cách đào tạo mô hình trên các chuỗi video dài hơn, cho phép mô hình "ghi nhớ" và nhận dạng các đối tượng theo thời gian, ngay cả khi chúng bị chặn tạm thời. Ví dụ, nếu ai đó đang quay video về một người đi bộ sau một cái cây , SAM 2.1 có thể theo dõi người đó khi họ xuất hiện trở lại ở phía bên kia, sử dụng trí nhớ về vị trí và chuyển động của vật thể để lấp đầy khoảng trống khi tầm nhìn bị gián đoạn trong giây lát.

Cùng với những bản cập nhật này, Meta đã phát hành SAM 2 Developer Suite, cung cấp mã đào tạo nguồn mở và cơ sở hạ tầng demo đầy đủ để các nhà phát triển có thể tinh chỉnh SAM 2.1 với dữ liệu riêng của họ và tích hợp nó vào một loạt các ứng dụng .

CoTracker3: Mô hình theo dõi của Meta và các tính năng cũng như bản cập nhật của nó

Một nhiệm vụ thị giác máy tính thú vị khác là theo dõi điểm. Nó liên quan đến việc theo dõi các điểm hoặc đặc điểm cụ thể trên nhiều khung hình trong video. Hãy xem xét video về một người đi xe đạp chạy dọc theo đường đua - theo dõi điểm cho phép mô hình theo dõi các điểm trên người đi xe đạp, như mũ bảo hiểm hoặc bánh xe, ngay cả khi chúng bị che khuất bởi chướng ngại vật trong một khoảnh khắc.

Theo dõi điểm là điều cần thiết cho các ứng dụng như tái tạo 3D , robot và chỉnh sửa video. Các mô hình truyền thống thường dựa vào các thiết lập phức tạp và bộ dữ liệu tổng hợp lớn, điều này hạn chế hiệu quả của chúng khi áp dụng vào các tình huống thực tế. 

Mô hình theo dõi CoTracker3 của Meta giải quyết những hạn chế này bằng cách đơn giản hóa kiến trúc của mô hình. Nó cũng giới thiệu một kỹ thuật gắn nhãn giả cho phép mô hình học từ các video thực, không có chú thích, giúp CoTracker3 hiệu quả hơn và có khả năng mở rộng hơn để sử dụng thực tế.

Hình 2. So sánh CoTracker3 với các mô hình theo dõi khác.

Một trong những tính năng khiến CoTracker3 nổi bật là nó có thể xử lý tốt các điểm che khuất. Sử dụng sự chú ý theo dõi chéo, một kỹ thuật cho phép mô hình chia sẻ thông tin trên nhiều điểm được theo dõi, CoTracker3 có thể suy ra vị trí của các điểm ẩn bằng cách tham chiếu đến các điểm có thể nhìn thấy. Bằng cách đó, CoTracker3 được thiết kế để có hiệu quả cao trong các môi trường động, chẳng hạn như theo dõi một người qua một cảnh đông đúc. 

CoTracker3 cũng cung cấp cả chế độ trực tuyến và ngoại tuyến. Chế độ trực tuyến cung cấp theo dõi thời gian thực. Trong khi chế độ ngoại tuyến có thể được sử dụng để theo dõi toàn diện hơn trên toàn bộ chuỗi video, lý tưởng cho các tác vụ như chỉnh sửa video hoặc hoạt hình

Các bản cập nhật và nghiên cứu khác từ Meta FAIR

Trong khi SAM 2.1 và CoTracker3 giới thiệu những tiến bộ mới nhất của Meta trong lĩnh vực thị giác máy tính , cũng có những cập nhật thú vị trong các lĩnh vực khác của AI , chẳng hạn như xử lý ngôn ngữ tự nhiên (NLP) và robot . Hãy cùng xem xét một số phát triển gần đây khác từ Meta FAIR.

Meta's Spirit LM: Những đổi mới của AI trong ngôn ngữ và các mô hình đa phương thức

Spirit LM của Meta là một mô hình ngôn ngữ đa phương thức mới kết hợp khả năng văn bản và giọng nói , giúp tương tác với AI trở nên tự nhiên hơn. Không giống như các mô hình truyền thống chỉ xử lý văn bản hoặc giọng nói, Spirit LM có thể chuyển đổi liền mạch giữa hai loại. 

Spirit LM có thể hiểu và tạo ra ngôn ngữ theo cách giống con người hơn. Ví dụ, nó có thể tăng cường trợ lý ảo có thể lắng nghe và phản hồi bằng ngôn ngữ nói hoặc viết, hoặc hỗ trợ các công cụ trợ năng chuyển đổi giữa giọng nói và văn bản. 

Hình 3. Một ví dụ về chuyển văn bản thành giọng nói bằng Meta Spirit LM.

Hơn nữa, Meta đã phát triển các kỹ thuật để làm cho các mô hình ngôn ngữ lớn hiệu quả hơn. Một trong số đó, được gọi là Layer Skip, giúp giảm nhu cầu tính toánchi phí năng lượng bằng cách chỉ kích hoạt các lớp cần thiết cho một tác vụ nhất định. Điều này đặc biệt hữu ích cho các ứng dụng trên các thiết bị có bộ nhớ và công suất hạn chế. 

Đưa nhu cầu triển khai các ứng dụng AI trên các thiết bị như vậy tiến thêm một bước nữa, Meta cũng đã tung ra các phiên bản lượng tử của các mô hình Llama . Các mô hình này được nén để chạy nhanh hơn trên các thiết bị di động mà không làm giảm độ chính xác

Nhìn vào tương lai của tối ưu hóa với Meta Lingua

Khi các mô hình AI phát triển về quy mô và độ phức tạp, việc tối ưu hóa quy trình đào tạo của chúng trở nên quan trọng. Về mặt tối ưu hóa , Meta đã giới thiệu Meta Lingua, một cơ sở mã linh hoạt và hiệu quả giúp việc đào tạo các mô hình ngôn ngữ lớn trở nên dễ dàng hơn. Thiết kế mô-đun của Meta Lingua cho phép các nhà nghiên cứu nhanh chóng tùy chỉnh và mở rộng quy mô các thí nghiệm của họ. 

Các nhà nghiên cứu có thể dành ít thời gian hơn cho việc thiết lập kỹ thuật và nhiều thời gian hơn cho nghiên cứu thực tế. Cơ sở mã cũng nhẹ và dễ tích hợp , làm cho nó phù hợp cho cả các thí nghiệm nhỏ và các dự án quy mô lớn. Bằng cách loại bỏ những rào cản kỹ thuật này, Meta Lingua giúp các nhà nghiên cứu tiến triển nhanh hơn và thử nghiệm các ý tưởng mới dễ dàng hơn.

Hình 4. Tổng quan về Meta Lingua.

Những cải tiến của Meta về bảo mật AI

Khi công nghệ điện toán lượng tử tiến bộ, nó mang đến những thách thức mới cho bảo mật dữ liệu . Không giống như máy tính ngày nay, máy tính lượng tử có khả năng giải quyết các phép tính phức tạp nhanh hơn nhiều. Điều này có nghĩa là chúng có khả năng phá vỡ các phương pháp mã hóa hiện đang được sử dụng để bảo vệ thông tin nhạy cảm. Đó là lý do tại sao nghiên cứu trong lĩnh vực này ngày càng trở nên quan trọng - phát triển các cách mới để bảo vệ dữ liệu là điều cần thiết khi chúng ta chuẩn bị cho tương lai của điện toán lượng tử.

Để giải quyết vấn đề này, Meta đã phát triển Salsa, một công cụ nhằm tăng cường bảo mật mật mã hậu lượng tử. Salsa giúp các nhà nghiên cứu thử nghiệm các cuộc tấn công do AI điều khiển và xác định các điểm yếu tiềm ẩn, cho phép họ hiểu rõ hơn và giải quyết các lỗ hổng trong hệ thống mật mã. Bằng cách mô phỏng các kịch bản tấn công nâng cao, Salsa cung cấp những hiểu biết có giá trị có thể hướng dẫn phát triển các biện pháp bảo mật mạnh mẽ hơn, linh hoạt hơn cho kỷ nguyên lượng tử.

AI tại Meta: Những cải tiến mới nhất trong ngành Robot

Công trình mới nhất của Meta về robot tập trung vào việc giúp AI tương tác tự nhiên hơn với thế giới vật lý bằng cách tăng cường nhận thức về xúc giác, sự khéo léo và sự hợp tác với con người. Đặc biệt, Meta Digit 360 là một cảm biến xúc giác tiên tiến mang lại cho robot cảm giác chạm tinh tế. Các cảm biến giúp robot phát hiện các chi tiết như kết cấu, áp suất và thậm chí cả hình dạng vật thể. Từ những hiểu biết này, robot có thể xử lý các vật thể chính xác hơn; một điều rất quan trọng trong các lĩnh vực như chăm sóc sức khỏesản xuất .

Sau đây là một số tính năng chính của Meta Digit 360:

  • Sản phẩm được trang bị 18 tính năng cảm biến riêng biệt để có thể nắm bắt được nhiều chi tiết xúc giác khác nhau.
  • Cảm biến có thể phát hiện những thay đổi áp suất nhỏ tới 1 millinewton, cho phép robot phản ứng với các kết cấu mịn và chuyển động tinh tế.
  • Nó bao gồm hơn 8 triệu taxel (điểm cảm biến nhỏ) trên bề mặt đầu ngón tay, cung cấp bản đồ thông tin cảm ứng có độ phân giải cao.

Một phần mở rộng của Meta Digit 360 là Meta Digit Plexus, một nền tảng tích hợp nhiều cảm biến cảm ứng khác nhau vào một bàn tay robot duy nhất. Thiết lập này cho phép robot xử lý thông tin cảm ứng từ nhiều điểm cùng một lúc, tương tự như cách bàn tay con người thu thập dữ liệu cảm giác.

Hình 5. Đám rối thần kinh ngón giữa.

Chuẩn bị cho chương tiếp theo của AI

Các bản cập nhật AI mới nhất của Meta, bao gồm những tiến bộ trong thị giác máy tính với SAM 2.1 và CoTracker3 cho đến những phát triển mới trong mô hình ngôn ngữ và robot, cho thấy AI đang dần chuyển từ lý thuyết sang các giải pháp thực tế và có tác động. 

Các công cụ này được thiết kế để giúp AI thích ứng hơn và hữu ích hơn trong nhiều lĩnh vực khác nhau, hỗ trợ mọi thứ, từ phân đoạn hình ảnh phức tạp đến hiểu ngôn ngữ con người và thậm chí làm việc cùng chúng ta trong không gian vật lý. 

Bằng cách ưu tiên khả năng truy cập và ứng dụng thực tế, Meta FAIR đưa chúng ta đến gần hơn với tương lai mà AI có thể giải quyết những thách thức trong thế giới thực và cải thiện cuộc sống hàng ngày của chúng ta theo những cách có ý nghĩa. 

Bạn có tò mò về AI không? Hãy tham gia cộng đồng của chúng tôi để biết những thông tin cập nhật và hiểu biết mới nhất, và hãy xem kho lưu trữ GitHub của chúng tôi. Bạn cũng có thể khám phá cách thị giác máy tính có thể được sử dụng trong các ngành công nghiệp như xe tự láinông nghiệp !

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning