Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Nâng cao ước tính điểm chính của bàn tay với Ultralytics YOLO11

Khám phá ước tính điểm chính của bàn tay do AI điều khiển với Ultralytics YOLO11 hỗ trợ ước tính tư thế trong các ứng dụng như nhận dạng cử chỉ thời gian thực.

Gần đây, các phiên dịch viên ngôn ngữ ký hiệu tại Super Bowl đã thu hút được rất nhiều sự chú ý. Khi bạn xem họ hát bài hát của nghệ sĩ yêu thích của mình trên TV, bạn có thể hiểu họ nếu bạn biết ngôn ngữ ký hiệu vì não của bạn xử lý các chuyển động tay của họ. Nhưng nếu máy tính có thể làm như vậy thì sao? Nhờ các giải pháp theo dõi bàn tay do AI điều khiển, máy móc có thể theo dõi và diễn giải các chuyển động tay với độ chính xác ấn tượng.

Cốt lõi của các giải pháp này là thị giác máy tính , một lĩnh vực con của AI cho phép máy móc xử lý và hiểu thông tin trực quan. Bằng cách phân tích hình ảnh và video, Vision AI giúp chúng phát hiện các vật thể, theo dõi chuyển động và nhận dạng các cử chỉ phức tạp với độ chính xác đáng kinh ngạc.

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được đào tạo để phát hiện và phân tích các điểm chính của bàn tay theo thời gian thực bằng cách ước tính tư thế. Bằng cách đó, các mô hình này có thể được sử dụng cho các ứng dụng như nhận dạng cử chỉ, dịch ngôn ngữ ký hiệu và tương tác AR/VR. 

Trong bài viết này, chúng ta sẽ khám phá cách YOLO11 cho phép theo dõi bàn tay dựa trên AI, các tập dữ liệu được sử dụng để đào tạo và cách đào tạo tùy chỉnh một mô hình để ước tính tư thế bàn tay. Chúng ta cũng sẽ xem xét các ứng dụng trong thế giới thực. Hãy bắt đầu!

Hiểu về phát hiện điểm chính của bàn tay dựa trên AI

AI có thể được sử dụng để nhận dạng và theo dõi chuyển động của bàn tay trong dữ liệu trực quan bằng cách xác định các điểm chính như cổ tay, đầu ngón tay và khớp ngón tay. Một cách tiếp cận, được gọi là ước tính tư thế , giúp máy tính hiểu chuyển động của con người bằng cách lập bản đồ các điểm chính và phân tích cách chúng thay đổi theo thời gian. Điều này cho phép các hệ thống AI diễn giải tư thế cơ thể, cử chỉ và các kiểu chuyển động với độ chính xác cao.

Các mô hình thị giác máy tính giúp thực hiện điều này bằng cách phân tích hình ảnh hoặc video để xác định các điểm chính trên bàn tay và theo dõi chuyển động của chúng. Sau khi lập bản đồ các điểm này, AI có thể nhận dạng cử chỉ bằng cách phân tích mối quan hệ không gian giữa các điểm chính và cách chúng thay đổi theo thời gian. 

Ví dụ, nếu khoảng cách giữa ngón cái và ngón trỏ giảm, AI có thể diễn giải nó thành chuyển động véo. Tương tự, theo dõi cách các điểm chính di chuyển theo trình tự giúp xác định các cử chỉ tay phức tạp và thậm chí dự đoán các chuyển động trong tương lai.

Hình 1. Một ví dụ về việc nhận dạng các điểm chính trên bàn tay bằng công nghệ thị giác máy tính.

Điều thú vị là ước tính tư thế để theo dõi bàn tay đã mở ra những khả năng thú vị, từ việc điều khiển rảnh tay các thiết bị thông minh đến cải thiện độ chính xác của robot và hỗ trợ trong các ứng dụng chăm sóc sức khỏe. Khi AI và thị giác máy tính tiếp tục phát triển, theo dõi bàn tay có thể sẽ đóng vai trò lớn hơn trong việc làm cho công nghệ tương tác hơn, dễ tiếp cận hơn và trực quan hơn trong cuộc sống hàng ngày.

Khám phá YOLO11 để ước tính tư thế

Trước khi đi sâu vào cách tạo ra giải pháp theo dõi bàn tay dựa trên AI, chúng ta hãy xem xét kỹ hơn về ước tính tư thế và cách YOLO11 hỗ trợ nhiệm vụ thị giác máy tính này. Không giống như phát hiện đối tượng tiêu chuẩn, xác định toàn bộ đối tượng, ước tính tư thế tập trung vào việc phát hiện các điểm mốc chính - chẳng hạn như khớp, chân tay hoặc cạnh - để phân tích chuyển động và tư thế. 

Cụ thể, Ultralytics YOLO11 được thiết kế để ước tính tư thế theo thời gian thực. Bằng cách tận dụng cả phương pháp từ trên xuống và từ dưới lên, nó phát hiện hiệu quả mọi người và ước tính các điểm chính trong một bước, vượt trội hơn các mô hình trước đây về tốc độ và độ chính xác.

Ra khỏi hộp, YOLO11 được đào tạo trước trên bộ dữ liệu COCO-Pose và có thể nhận dạng các điểm chính trên cơ thể con người, bao gồm đầu, vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. 

Hình 2. Sử dụng YOLO11 để ước tính tư thế của con người.

Ngoài ước tính tư thế của con người, YOLO11 có thể được đào tạo tùy chỉnh để phát hiện các điểm chính trên nhiều đối tượng, cả động và tĩnh. Tính linh hoạt này làm cho YOLO11 một lựa chọn tuyệt vời cho nhiều ứng dụng khác nhau.

Tổng quan về tập dữ liệu Hand Keypoints

Bước đầu tiên trong việc đào tạo tùy chỉnh một mô hình là thu thập dữ liệu và chú thích hoặc tìm một tập dữ liệu hiện có phù hợp với nhu cầu của dự án. Ví dụ, tập dữ liệu Hand Keypoints là điểm khởi đầu tốt để đào tạo các mô hình Vision AI để theo dõi bàn tay và ước tính tư thế. Với 26.768 hình ảnh được chú thích, nó loại bỏ nhu cầu dán nhãn thủ công. 

Nó có thể được sử dụng để đào tạo các mô hình như Ultralytics YOLO11 để nhanh chóng học cách phát hiện và theo dõi chuyển động của bàn tay. Bộ dữ liệu bao gồm 21 điểm chính trên mỗi bàn tay, bao gồm cổ tay, ngón tay và khớp. Ngoài ra, các chú thích của bộ dữ liệu được tạo bằng Google MediaPipe, một công cụ phát triển các giải pháp hỗ trợ AI để xử lý phương tiện theo thời gian thực, đảm bảo phát hiện điểm chính chính xác và đáng tin cậy. 

Hình 3. 21 điểm chính có trong tập dữ liệu Hand Keypoints.

Sử dụng một tập dữ liệu có cấu trúc như thế này giúp tiết kiệm thời gian và cho phép các nhà phát triển tập trung vào việc đào tạo và tinh chỉnh các mô hình của họ thay vì thu thập và dán nhãn dữ liệu. Trên thực tế, tập dữ liệu đã được chia thành các tập con đào tạo (18.776 hình ảnh) và xác thực (7.992 hình ảnh), giúp dễ dàng đánh giá hiệu suất của mô hình. 

Cách luyện tập YOLO11 để ước tính tư thế tay

Đào tạo YOLO11 để ước tính tư thế bàn tay là một quá trình đơn giản, đặc biệt là với gói Ultralytics Python , giúp thiết lập và đào tạo mô hình dễ dàng hơn. Vì bộ dữ liệu Hand Keypoints đã được hỗ trợ trong quy trình đào tạo, nên có thể sử dụng ngay mà không cần định dạng thêm, giúp tiết kiệm thời gian và công sức.

Quá trình đào tạo diễn ra như sau:

  • Thiết lập môi trường : Bước đầu tiên là cài đặt Ultralytics Python bưu kiện.
  • Tải tập dữ liệu Hand Keypoints : YOLO11 hỗ trợ bộ dữ liệu này một cách tự nhiên, do đó có thể tải xuống và chuẩn bị tự động.
  • Sử dụng mô hình được đào tạo trước: Bạn có thể bắt đầu với một mô hình được đào tạo trước YOLO11 mô hình ước tính tư thế, giúp cải thiện độ chính xác và tăng tốc quá trình đào tạo.
  • Huấn luyện mô hình: Mô hình học cách phát hiện và theo dõi các điểm chính của bàn tay bằng cách trải qua nhiều chu kỳ huấn luyện.
  • Giám sát hiệu suất: Ultralytics Gói này cũng cung cấp các công cụ tích hợp để theo dõi các số liệu quan trọng như độ chính xác và tổn thất, giúp đảm bảo mô hình được cải thiện theo thời gian.
  • Lưu và triển khai: Sau khi được đào tạo, mô hình có thể được xuất và sử dụng cho các ứng dụng theo dõi bàn tay theo thời gian thực.

Đánh giá mô hình được đào tạo tùy chỉnh của bạn

Khi thực hiện các bước tạo mô hình tùy chỉnh, bạn sẽ nhận thấy rằng việc theo dõi hiệu suất là điều cần thiết. Cùng với việc theo dõi tiến trình trong quá trình đào tạo, việc đánh giá mô hình sau đó là rất quan trọng để đảm bảo mô hình phát hiện và theo dõi chính xác các điểm chính của bàn tay. 

Các số liệu hiệu suất chính như độ chính xác, giá trị mất mát và độ chính xác trung bình (mAP) giúp đánh giá mức độ hiệu quả của mô hình. Ultralytics Python Gói này cung cấp các công cụ tích hợp để trực quan hóa kết quả và so sánh các dự đoán với chú thích thực tế, giúp dễ dàng xác định các khu vực cần cải thiện.

Để hiểu rõ hơn về hiệu suất của mô hình, bạn có thể kiểm tra các biểu đồ đánh giá như đường cong mất mát, biểu đồ thu hồi chính xác và ma trận nhầm lẫn, được tạo tự động trong nhật ký đào tạo. 

Các biểu đồ này giúp xác định các vấn đề như quá khớp (khi mô hình ghi nhớ dữ liệu đào tạo nhưng gặp khó khăn với dữ liệu mới) hoặc quá khớp (khi mô hình không học được các mẫu đủ tốt để thực hiện chính xác) và hướng dẫn điều chỉnh để cải thiện độ chính xác. Ngoài ra, việc thử nghiệm mô hình trên hình ảnh hoặc video mới rất quan trọng để xem mô hình hoạt động tốt như thế nào trong các tình huống thực tế.

Ứng dụng của các giải pháp theo dõi bàn tay do AI điều khiển

Tiếp theo, chúng ta hãy cùng tìm hiểu một số ứng dụng có tác động lớn nhất của việc ước tính điểm chính của bàn tay với Ultralytics YOLO11 .

Nhận dạng cử chỉ thời gian thực với YOLO11

Giả sử bạn có thể điều chỉnh âm lượng trên TV chỉ bằng cách vẫy tay hoặc điều khiển hệ thống nhà thông minh bằng một cú vuốt đơn giản trong không khí. Nhận dạng cử chỉ theo thời gian thực được hỗ trợ bởi YOLO11 giúp thực hiện những tương tác không cần chạm bằng cách phát hiện chính xác chuyển động của tay theo thời gian thực. 

Điều này hoạt động bằng cách sử dụng camera AI để theo dõi các điểm chính trên bàn tay của bạn và diễn giải cử chỉ thành lệnh. Camera cảm biến độ sâu, cảm biến hồng ngoại hoặc thậm chí cả webcam thông thường sẽ ghi lại chuyển động của bàn tay, trong khi YOLO11 có thể xử lý dữ liệu để nhận dạng các cử chỉ khác nhau. Ví dụ, một hệ thống như vậy có thể phân biệt giữa thao tác vuốt để thay đổi bài hát, chụm để phóng to hoặc chuyển động tròn để điều chỉnh âm lượng.

Phát hiện điểm chính của bàn tay dựa trên AI để nhận dạng ngôn ngữ ký hiệu

Các giải pháp AI để theo dõi bàn tay có thể hỗ trợ giao tiếp liền mạch giữa người khiếm thính và người không biết ngôn ngữ ký hiệu. Ví dụ, các thiết bị thông minh tích hợp với máy ảnh và YOLO11 có thể được sử dụng để dịch ngay lập tức ngôn ngữ ký hiệu thành văn bản hoặc lời nói. 

Nhờ những tiến bộ như YOLO11 , các công cụ dịch ngôn ngữ ký hiệu đang trở nên chính xác và dễ tiếp cận hơn. Điều này tác động đến các ứng dụng như công nghệ hỗ trợ, dịch vụ dịch thuật trực tiếp và nền tảng giáo dục. AI có thể giúp thu hẹp khoảng cách giao tiếp và thúc đẩy tính toàn diện tại nơi làm việc, trường học và không gian công cộng.

Tầm nhìn máy tính để theo dõi bàn tay: Cải thiện trải nghiệm AR và VR

Bạn đã bao giờ chơi trò chơi thực tế ảo (VR) mà bạn có thể cầm nắm đồ vật mà không cần dùng bộ điều khiển chưa? Theo dõi bằng tay được hỗ trợ bởi thị giác máy tính giúp điều này trở nên khả thi bằng cách cho phép người dùng tương tác tự nhiên trong môi trường thực tế tăng cường (AR) và VR. 

Hình 4. Theo dõi bàn tay là một phần quan trọng của các ứng dụng AR và VR.

Với ước tính điểm chính bằng tay sử dụng các mô hình như Ultralytics YOLO11 , AI theo dõi chuyển động theo thời gian thực, cho phép thực hiện các cử chỉ như véo, nắm và vuốt. Điều này nâng cao khả năng chơi game, đào tạo ảo và cộng tác từ xa, giúp tương tác trực quan hơn. Khi công nghệ theo dõi bàn tay được cải thiện, AR và VR sẽ trở nên sống động và chân thực hơn. 

Những điểm chính

Ước tính điểm chính bằng tay Ultralytics YOLO11 đang làm cho các giải pháp theo dõi bàn tay do AI điều khiển dễ tiếp cận và đáng tin cậy hơn. Từ nhận dạng cử chỉ thời gian thực đến diễn giải ngôn ngữ ký hiệu và các ứng dụng AR/VR, thị giác máy tính đang mở ra những khả năng mới trong tương tác giữa người và máy tính.

Ngoài ra, quá trình đào tạo tùy chỉnh hợp lý và tinh chỉnh đang giúp các nhà phát triển xây dựng các mô hình hiệu quả cho nhiều mục đích sử dụng thực tế khác nhau. Khi công nghệ thị giác máy tính phát triển, chúng ta có thể mong đợi nhiều cải tiến hơn nữa trong các lĩnh vực như chăm sóc sức khỏe, robot, trò chơi và bảo mật.

Tham gia cộng đồng của chúng tôi và khám phá những tiến bộ về AI trên kho lưu trữ GitHub của chúng tôi. Khám phá tác động của AI trong sản xuấtthị giác máy tính trong chăm sóc sức khỏe thông qua các trang giải pháp của chúng tôi. Khám phá các kế hoạch cấp phép của chúng tôi và bắt đầu hành trình AI của bạn ngay hôm nay!

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning