Hãy tham gia cùng chúng tôi khi chúng ta khám phá Mô hình Segment Anything 2 của Meta AI ( SAM 2) và hiểu được những ứng dụng thời gian thực nào có thể được sử dụng trong nhiều ngành công nghiệp khác nhau.
Vào ngày 29 tháng 7 năm 2024, Meta AI đã phát hành phiên bản thứ hai của Mô hình phân khúc bất cứ điều gì, SAM 2. Mô hình mới có thể xác định pixel nào thuộc về đối tượng mục tiêu trong cả hình ảnh và video! Phần tốt nhất là mô hình có thể liên tục theo dõi một đối tượng trên tất cả các khung hình của video trong thời gian thực. SAM 2 mở ra những khả năng thú vị để chỉnh sửa video, trải nghiệm thực tế hỗn hợp và chú thích dữ liệu hình ảnh nhanh hơn để đào tạo các hệ thống thị giác máy tính .
Xây dựng trên sự thành công của bản gốc SAM, đã được sử dụng trong các lĩnh vực như khoa học biển, hình ảnh vệ tinh và y học, SAM 2 giải quyết các thách thức như vật thể chuyển động nhanh và thay đổi ngoại hình. Độ chính xác và hiệu quả được cải thiện của nó làm cho nó trở thành một công cụ linh hoạt cho một loạt các ứng dụng. Trong bài viết này, chúng tôi sẽ tập trung vào nơi SAM 2 có thể được áp dụng và tại sao nó lại quan trọng đối với cộng đồng AI.
Segment Anything Model 2 là một mô hình nền tảng tiên tiến hỗ trợ phân đoạn trực quan hoặc PVS nhanh chóng trong cả hình ảnh và video. PVS là một kỹ thuật trong đó một mô hình có thể phân đoạn hoặc xác định các phần khác nhau của hình ảnh hoặc video dựa trên lời nhắc hoặc đầu vào cụ thể do người dùng đưa ra. Những lời nhắc này có thể ở dạng nhấp chuột, hộp hoặc mặt nạ làm nổi bật khu vực quan tâm. Mô hình sau đó tạo ra một mặt nạ phân đoạn phác thảo khu vực được chỉ định.
Các SAM 2 Kiến trúc được xây dựng trên bản gốc SAM bằng cách mở rộng từ phân đoạn hình ảnh sang bao gồm cả phân đoạn video. Nó có bộ giải mã mặt nạ nhẹ sử dụng dữ liệu hình ảnh và lời nhắc để tạo mặt nạ phân đoạn. Đối với video, SAM 2 giới thiệu hệ thống bộ nhớ giúp nó ghi nhớ thông tin từ các khung hình trước đó, đảm bảo theo dõi chính xác theo thời gian. Hệ thống bộ nhớ bao gồm các thành phần lưu trữ và nhớ lại chi tiết về các đối tượng được phân đoạn. SAM 2 cũng có thể xử lý tắc nghẽn, theo dõi các đối tượng thông qua nhiều khung hình và quản lý các lời nhắc không rõ ràng bằng cách tạo một số mặt nạ có thể. SAM Kiến trúc tiên tiến của 2 làm cho nó có khả năng cao trong cả môi trường hình ảnh tĩnh và động.
Cụ thể, đối với phân đoạn video, SAM 2 đạt được độ chính xác cao hơn với tương tác người dùng ít hơn ba lần so với các phương pháp trước đây. Đối với phân đoạn hình ảnh, SAM 2 vượt trội so với bản gốc Mô hình phân khúc bất cứ thứ gì (SAM), nhanh hơn và chính xác hơn sáu lần. Cải tiến này đã được giới thiệu trong SAM 2 tài liệu nghiên cứu trên 37 bộ dữ liệu khác nhau, trong đó có 23 bộ dữ liệu SAM đã được thử nghiệm trước đó.
Điều thú vị là Meta AI của SAM 2 được phát triển bằng cách tạo bộ dữ liệu phân đoạn video lớn nhất cho đến nay, bộ dữ liệu SA-V. Bộ dữ liệu mở rộng bao gồm hơn 50.000 video và 35,5 triệu mặt nạ phân đoạn và được thu thập thông qua đóng góp tương tác của người dùng. Chú thích cung cấp lời nhắc và chỉnh sửa để giúp mô hình học hỏi từ nhiều kịch bản và loại đối tượng khác nhau.
Nhờ khả năng tiên tiến trong phân đoạn hình ảnh và video, SAM 2 có thể được sử dụng trên các ngành công nghiệp khác nhau. Hãy cùng khám phá một số ứng dụng này.
Mô hình phân khúc mới của Meta AI có thể được sử dụng cho các ứng dụng Thực tế tăng cường (AR) và Thực tế ảo (VR). Chẳng hạn SAM 2 có thể xác định và phân đoạn chính xác các đối tượng trong thế giới thực và làm cho việc tương tác với các đối tượng ảo cảm thấy thực tế hơn. Nó có thể hữu ích trong các lĩnh vực khác nhau như chơi game, giáo dục và đào tạo, trong đó sự tương tác thực tế giữa các yếu tố ảo và thực là điều cần thiết.
Với các thiết bị như kính AR trở nên tiên tiến hơn, SAM Khả năng của 2 có thể sớm được tích hợp vào chúng. Hãy tưởng tượng đeo kính và nhìn xung quanh phòng khách của bạn. Khi kính của bạn phân đoạn và chú ý đến bát nước của của bạn, nó có thể nhắc nhở bạn đổ đầy nó, như thể hiện trong hình dưới đây. Hoặc, nếu bạn đang nấu một công thức nấu ăn mới, kính có thể xác định các thành phần trên mặt bàn của bạn và cung cấp hướng dẫn và mẹo từng bước, cải thiện trải nghiệm nấu ăn của bạn và đảm bảo bạn có tất cả các vật dụng cần thiết trong tay.
Nghiên cứu sử dụng mô hình SAM đã chỉ ra rằng nó có thể được ứng dụng trong các lĩnh vực chuyên biệt như hình ảnh sonar. Hình ảnh sonar đi kèm với những thách thức độc đáo do độ phân giải thấp, độ nhiễu cao và hình dạng phức tạp của các vật thể trong hình ảnh. Bằng cách tinh chỉnh SAM Đối với hình ảnh sonar, các nhà nghiên cứu đã chứng minh khả năng phân đoạn chính xác các vật thể dưới nước khác nhau như mảnh vụn biển, thành tạo địa chất và các vật phẩm quan tâm khác. Hình ảnh dưới nước chính xác và đáng tin cậy có thể được sử dụng trong nghiên cứu biển, khảo cổ học dưới nước, quản lý nghề cá và giám sát cho các nhiệm vụ như lập bản đồ môi trường sống, khám phá hiện vật và phát hiện mối đe dọa.
Từ SAM 2 Xây dựng và cải thiện nhiều thách thức SAM Khuôn mặt, nó có khả năng cải thiện việc phân tích hình ảnh sonar hơn nữa. Khả năng phân khúc chính xác của nó có thể hỗ trợ trong các ứng dụng biển khác nhau, bao gồm nghiên cứu khoa học và thủy sản. Chẳng hạn SAM 2 có thể phác thảo hiệu quả các cấu trúc dưới nước, phát hiện các mảnh vỡ biển và xác định các vật thể trong hình ảnh sonar hướng tới tương lai, góp phần thăm dò và giám sát dưới nước chính xác và hiệu quả hơn.
Dưới đây là những lợi ích tiềm năng của việc sử dụng SAM 2 Để phân tích hình ảnh sonar:
Bằng cách tích hợp SAM 2 Trong các quá trình chụp ảnh sonar, ngành công nghiệp hàng hải có thể đạt được hiệu quả, độ chính xác và độ tin cậy cao hơn trong thăm dò và phân tích dưới nước, cuối cùng dẫn đến kết quả tốt hơn trong nghiên cứu biển.
Một ứng dụng khác của SAM 2 là trong xe tự hành. SAM 2 có thể xác định chính xác các đối tượng như người đi bộ, các phương tiện khác, biển báo đường và chướng ngại vật trong thời gian thực. Mức độ chi tiết SAM 2 có thể cung cấp là điều cần thiết để đưa ra quyết định điều hướng và tránh va chạm an toàn. Bằng cách xử lý dữ liệu trực quan một cách chính xác, SAM 2 giúp tạo ra một bản đồ chi tiết và đáng tin cậy về môi trường và dẫn đến việc ra quyết định tốt hơn.
SAM Khả năng hoạt động tốt trong các điều kiện ánh sáng khác nhau, thay đổi thời tiết và môi trường năng động của 2 khiến nó trở nên đáng tin cậy cho các phương tiện tự hành. Cho dù đó là một con phố đô thị bận rộn hay một đường cao tốc sương mù, SAM 2 có thể liên tục xác định và phân đoạn các đối tượng một cách chính xác để chiếc xe có thể phản ứng chính xác với các tình huống khác nhau.
Tuy nhiên, có một số hạn chế cần lưu ý. Đối với các đối tượng phức tạp, chuyển động nhanh, SAM 2 đôi khi có thể bỏ lỡ các chi tiết nhỏ và dự đoán của nó có thể trở nên không ổn định trên các khung hình. Cũng SAM 2 đôi khi có thể nhầm lẫn nhiều đối tượng trông giống nhau trong các cảnh đông đúc. Những thách thức này là lý do tại sao việc tích hợp các cảm biến và công nghệ bổ sung là mấu chốt trong các ứng dụng lái xe tự động.
Giám sát môi trường bằng thị giác máy tính có thể phức tạp, đặc biệt là khi thiếu dữ liệu chú thích, nhưng đó cũng là điều làm cho nó trở thành một ứng dụng thú vị SAM 2. SAM 2 có thể được sử dụng để theo dõi và phân tích những thay đổi trong cảnh quan thiên nhiên bằng cách phân đoạn và xác định chính xác các đặc điểm môi trường khác nhau như rừng, vùng nước, khu vực đô thị và đất nông nghiệp từ hình ảnh vệ tinh hoặc máy bay không người lái. Cụ thể, phân khúc chính xác giúp giám sát nạn phá rừng, đô thị hóa và thay đổi sử dụng đất theo thời gian để cung cấp dữ liệu có giá trị cho việc bảo tồn và lập kế hoạch môi trường.
Dưới đây là một số lợi ích của việc sử dụng một mô hình như SAM 2 Để phân tích những thay đổi môi trường theo thời gian:
Segment Anything 2 Demo là một cách tuyệt vời để thử mô hình trên video. Sử dụng khả năng PVS củaSAM 2, chúng tôi lấy một cái cũ Ultralytics Video YouTube và có thể phân đoạn ba đối tượng hoặc người trong video và pixel hóa chúng. Theo truyền thống, việc chỉnh sửa ba cá nhân trong một video như thế sẽ tốn thời gian và tẻ nhạt và yêu cầu tạo mặt nạ từng khung hình thủ công. Tuy nhiên SAM 2 đơn giản hóa quá trình này. Với một vài cú nhấp chuột vào bản demo, bạn có thể bảo vệ danh tính của ba đối tượng quan tâm chỉ trong vài giây.
Bản demo cũng cho phép bạn thử một vài hiệu ứng hình ảnh khác nhau, như đặt dấu ấn vào các đối tượng bạn chọn để theo dõi và xóa các đối tượng đang được theo dõi. Nếu bạn thích bản demo và sẵn sàng bắt đầu đổi mới với SAM 2, kiểm tra Ultralytics SAM 2 trang tài liệu mô hình để được hướng dẫn chi tiết về cách thực hành với mô hình. Khám phá các tính năng, bước cài đặt và ví dụ để tận dụng tối đa SAM 2 tiềm năng trong các dự án của bạn!
Phân khúc của Meta AI Anything Model 2 (SAM 2) đang chuyển đổi phân đoạn video và hình ảnh. Khi các nhiệm vụ như theo dõi đối tượng được cải thiện, chúng tôi đang khám phá những cơ hội mới trong chỉnh sửa video, thực tế hỗn hợp, nghiên cứu khoa học và hình ảnh y tế. Bằng cách làm cho các tác vụ phức tạp trở nên dễ dàng hơn và tăng tốc độ chú thích, SAM 2 đều được thiết lập để trở thành một công cụ quan trọng đối với cộng đồng AI. Khi chúng tôi tiếp tục khám phá và đổi mới với các mô hình như SAM 2, chúng ta có thể dự đoán nhiều ứng dụng và tiến bộ đột phá hơn nữa trên các lĩnh vực khác nhau!
Tìm hiểu thêm về AI bằng cách khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Kiểm tra các trang giải pháp của chúng tôi để biết thông tin chi tiết về AI trong sản xuất và chăm sóc sức khỏe. 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning