Hãy tham gia cùng chúng tôi khi chúng tôi xem lại David Scott YOLO Bài phát biểu quan trọng tại Vision 2024 về phân tích hành vi dựa trên AI và các ứng dụng thực tế của nó trong các lĩnh vực như chăn nuôi.
Trong nhiều năm, những đổi mới về thị giác máy tính đã tập trung vào các nhiệm vụ như phát hiện đối tượng - xác định các đối tượng như chó hoặc ô tô trong hình ảnh và video. Những cách tiếp cận này đã cho phép ứng dụng trong các lĩnh vực như xe tự hành, sản xuất và chăm sóc sức khỏe.
Tuy nhiên, những nhiệm vụ này thường chỉ tập trung vào việc xác định đối tượng là gì. Sẽ thế nào nếu hệ thống Vision AI có thể tiến xa hơn một bước? Ví dụ, thay vì chỉ phát hiện một con chó, hãy nói rằng nó có thể hiểu rằng con chó đang đuổi theo một quả bóng hoặc một chiếc ô tô đang phanh gấp vì một người đi bộ đang băng qua. Sự thay đổi này từ nhận dạng cơ bản sang hiểu biết theo ngữ cảnh đại diện cho một sự thay đổi lớn hướng tới AI hành vi thông minh hơn, nhận thức theo ngữ cảnh.
Tại YOLO Vision 2024 (YV24) , Ultralytics 'sự kiện kết hợp thường niên tôn vinh những tiến bộ trong Vision AI , khái niệm phân tích hành vi do AI điều khiển đã trở thành tâm điểm trong bài phát biểu thú vị của David Scott , Giám đốc điều hành của The Main Branch.
Trong bài nói chuyện của mình, David đã khám phá quá trình chuyển đổi từ các tác vụ thị giác máy tính cơ bản sang theo dõi hành vi. Với hơn 25 năm kinh nghiệm trong việc xây dựng các ứng dụng công nghệ tiên tiến, ông đã trình bày tác động của bước nhảy vọt này. Ông nhấn mạnh cách giải mã các mô hình và hành vi đang định hình lại các ngành công nghiệp như nông nghiệp và phúc lợi động vật.
Trong bài viết này, chúng ta sẽ xem xét những điểm nổi bật trong bài nói chuyện của David và khám phá cách theo dõi hành vi giúp AI trở nên thiết thực hơn.
David Scott bắt đầu bài phát biểu quan trọng của mình bằng một sự kiểm tra thực tế táo bạo và nói rằng, “Một đồng nghiệp của tôi thường nói, 'Khoa học không bán được', điều này hơi xúc phạm đến nhiều người trong chúng tôi ở đây vì chúng tôi thực sự thích khoa học. AI thực sự tuyệt vời - tại sao mọi người lại không mua nó? Nhưng thực tế là, mọi người không muốn mua nó chỉ vì chúng tôi nghĩ nó tuyệt vời; họ cần một lý do để mua nó.”
Ông tiếp tục giải thích rằng tại công ty của ông, The Main Branch, trọng tâm luôn là giải quyết các vấn đề thực tế bằng AI, không chỉ là thể hiện khả năng của nó. Rất nhiều khách hàng đến đây muốn nói về cách họ có thể sử dụng AI nói chung, nhưng ông coi đó là một cách tiếp cận ngược - giống như có một giải pháp mà không có vấn đề. Thay vào đó, họ làm việc với những khách hàng mang đến những thách thức cụ thể để họ có thể tạo ra các giải pháp AI thực sự tạo nên sự khác biệt.
David cũng chia sẻ rằng công việc của họ thường vượt xa việc chỉ nhận dạng các vật thể trong một cảnh. Phát hiện ra những gì có ở đó chỉ là bước đầu tiên. Giá trị thực sự đến từ việc tìm ra cách xử lý thông tin đó và biến nó thành hữu ích trong chuỗi giá trị lớn hơn.
Một bước quan trọng trong việc biến AI thực sự hữu ích là vượt ra ngoài các tác vụ thị giác máy tính cơ bản như phát hiện đối tượng và sử dụng những hiểu biết đó để theo dõi hành vi. David nhấn mạnh rằng AI hành vi tập trung vào việc hiểu các hành động và mô hình, không chỉ xác định đối tượng. Điều này giúp AI có khả năng nhận ra các sự kiện có ý nghĩa và cung cấp những hiểu biết có thể hành động.
Ông đưa ra ví dụ về một con vật lăn trên sàn, có thể chỉ ra bệnh tật. Trong khi con người không thể theo dõi một con vật suốt ngày đêm, các hệ thống giám sát do AI điều khiển với khả năng theo dõi hành vi có thể. Các giải pháp như vậy có thể theo dõi các đối tượng liên tục, phát hiện các hành vi cụ thể, gửi cảnh báo và cho phép hành động kịp thời. Điều này biến dữ liệu thô thành thứ gì đó thiết thực và có giá trị.
David cũng cho thấy cách tiếp cận này không chỉ khiến AI trở nên thú vị mà còn thực sự có tác động. Bằng cách giải quyết các vấn đề thực tế, như giám sát hành vi và hành động theo chúng, theo dõi hành vi có thể trở thành một phần quan trọng của các giải pháp AI hiệu quả trong nhiều ngành công nghiệp khác nhau.
Sau đó, David Scott minh họa cách Ultralytics YOLOv8 , một mô hình thị giác máy tính, là một bước đột phá cho các dự án theo dõi hành vi của nhóm ông. Nó cung cấp cho họ một nền tảng vững chắc để phát hiện, phân loại và theo dõi các đối tượng. Nhóm của ông cũng tiến thêm một bước nữa và đào tạo riêng YOLOv8 để tập trung vào việc theo dõi hành vi theo thời gian, khiến nó trở nên thiết thực và hữu ích hơn cho các tình huống thực tế.
Thật thú vị, với việc phát hành Ultralytics YOLO11 , các giải pháp như giải pháp do The Main Branch tạo ra có thể trở nên đáng tin cậy và chính xác hơn nữa. Mô hình mới nhất này cung cấp các tính năng như độ chính xác được cải thiện và xử lý nhanh hơn giúp tăng cường khả năng theo dõi hành vi. Chúng ta sẽ thảo luận chi tiết hơn về vấn đề này sau khi hiểu rõ hơn về các ứng dụng mà AI hành vi có thể được sử dụng.
Tiếp theo, chúng ta hãy cùng khám phá các giải pháp mà David đã đề cập và cách công nghệ theo dõi hành vi đang được sử dụng trong các ứng dụng thực tế để giải quyết những thách thức hàng ngày và tạo ra tác động có ý nghĩa.
Đầu tiên, David chia sẻ một thử thách thú vị mà họ đã giải quyết bằng một dự án có tên HerdSense, bao gồm việc theo dõi sức khỏe của hàng nghìn con bò trên một bãi chăn nuôi lớn. Mục tiêu là theo dõi hành vi của từng con bò để xác định các vấn đề sức khỏe tiềm ẩn. Điều này có nghĩa là phải theo dõi hàng chục nghìn con vật cùng một lúc và đó không phải là một nhiệm vụ đơn giản.
Để bắt đầu giải quyết vấn đề xác định từng con bò và theo dõi hành vi của chúng, nhóm của David đã tiến hành một hội thảo kéo dài hai ngày để phác thảo mọi hành vi có thể mà họ cần theo dõi. Họ đã xác định được tổng cộng hơn 200 hành vi.
Mỗi một trong 200 hành vi phụ thuộc vào khả năng nhận dạng chính xác từng con bò, vì tất cả dữ liệu phải được liên kết với các loài động vật cụ thể. Một mối quan tâm lớn là theo dõi những con bò khi chúng tụ tập thành từng nhóm, khiến việc nhìn thấy từng con vật trở nên khó khăn.
Nhóm của David đã phát triển một hệ thống thị giác máy tính để đảm bảo mỗi con bò được nhận dạng nhất quán, ngay cả trong những tình huống khó khăn. Họ có thể xác nhận rằng cùng một con bò sẽ luôn được gán cùng một ID, ngay cả khi nó biến mất khỏi tầm nhìn, hòa lẫn với những con khác hoặc xuất hiện trở lại sau đó.
Tiếp tục, David giới thiệu một dự án hấp dẫn khác, trong đó họ áp dụng các kỹ thuật theo dõi hành vi tương tự để theo dõi ngựa. Trong dự án này, nhóm của David không cần theo dõi ID của từng con ngựa chặt chẽ như họ đã làm với bò. Thay vào đó, họ tập trung vào các hành vi cụ thể và theo dõi các chi tiết như thói quen ăn uống và mức độ hoạt động chung để phát hiện sớm mọi vấn đề sức khỏe. Việc xác định những thay đổi nhỏ trong hành vi có thể dẫn đến các biện pháp can thiệp nhanh hơn để chăm sóc tốt hơn và ngăn ngừa các vấn đề trước khi chúng trở nên nghiêm trọng.
David cũng thảo luận về sự phức tạp của việc theo dõi hành vi thông qua một ví dụ thú vị. Trong khi nghiên cứu các cách để cải thiện phân tích hành vi, nhóm của ông đã tình cờ gặp một công ty tuyên bố phát hiện hành vi trộm cắp vặt bằng cách phân tích các tư thế cụ thể, chẳng hạn như ai đó đang đút tay vào túi quần. Lúc đầu, điều này có vẻ là một ý tưởng thông minh - một số chuyển động nhất định có thể gợi ý hành vi đáng ngờ, đúng không?
Tuy nhiên, khi David khám phá sâu hơn, anh nhận ra những hạn chế của phương pháp này. Một tư thế đơn lẻ, chẳng hạn như một bàn tay trong túi, không nhất thiết có nghĩa là ai đó đang ăn cắp vặt. Nó chỉ có thể chỉ ra rằng họ đang thư giãn, suy nghĩ hoặc thậm chí là lạnh. Vấn đề khi tập trung vào các tư thế riêng lẻ là nó bỏ qua bối cảnh lớn hơn. Hành vi không chỉ là một hành động đơn lẻ - đó là một mô hình hành động theo thời gian, được định hình bởi bối cảnh và ý định.
David nhấn mạnh rằng việc theo dõi hành vi thực sự phức tạp hơn nhiều và đòi hỏi một cách tiếp cận toàn diện. Đó là về việc phân tích các chuỗi hành động và hiểu ý nghĩa của chúng trong bức tranh toàn cảnh. Trong khi ngành công nghiệp AI đang có những bước tiến, ông lưu ý rằng vẫn còn nhiều việc phải làm để thúc đẩy việc theo dõi hành vi nhằm cung cấp những hiểu biết có ý nghĩa và chính xác.
Sau đó, David đã đưa khán giả vào hậu trường để cho họ thấy cách nhóm của anh ấy xây dựng giải pháp thị giác máy tính để theo dõi sức khỏe của bò với sự trợ giúp của YOLOv8 và khả năng ước tính tư thế của nó.
Họ bắt đầu bằng cách tạo một tập dữ liệu tùy chỉnh để ước tính tư thế của một con bò, tăng số lượng điểm chính tiêu chuẩn từ 17 lên 145 để giúp mô hình phân tích chuyển động tốt hơn. Sau đó, mô hình được đào tạo trên một tập dữ liệu khổng lồ gồm hơn 2 triệu hình ảnh và 110 triệu ví dụ về hành vi.
Sử dụng cơ sở hạ tầng phần cứng tiên tiến, nhóm của David đã có thể đào tạo mô hình chỉ trong hai ngày thay vì mất nhiều tuần như phần cứng thông thường. Sau đó, mô hình đã được đào tạo được tích hợp với trình theo dõi hành vi tùy chỉnh phân tích nhiều khung hình video cùng lúc để phát hiện các mẫu trong hành động của bò.
Kết quả là một giải pháp AI tầm nhìn có thể phát hiện và theo dõi tám hành vi khác nhau của bò như ăn, uống và nằm xuống để phát hiện những thay đổi nhỏ về hành vi có thể báo hiệu các vấn đề về sức khỏe. Điều này cho phép người nông dân hành động nhanh chóng và cải thiện việc quản lý đàn.
David kết thúc bài nói chuyện của mình bằng cách chia sẻ một bài học quan trọng với khán giả: "Nếu bạn không cho AI cơ hội để thất bại, bạn đang tự chuốc lấy thất bại vì, xét cho cùng, đó là thống kê". Ông chỉ ra rằng AI, mặc dù có nhiều điểm mạnh, nhưng không hoàn hảo. Đây là một công cụ học hỏi từ các mô hình, và sẽ luôn có những lúc nó không làm đúng mọi việc. Thay vì sợ những sai lầm đó, chìa khóa là xây dựng các hệ thống có thể xử lý chúng và tiếp tục cải thiện theo thời gian.
Điều này cũng đúng khi nói đến các mô hình thị giác máy tính . Ví dụ, Ultralytics YOLO11 , phiên bản mới nhất của Ultralytics YOLO các mô hình, đã được xây dựng với mục đích hướng đến nhu cầu đưa mọi thứ lên tầm cao mới so với YOLOv8 .
Đặc biệt, YOLO11 cung cấp hiệu suất tốt hơn, đặc biệt là đối với các ứng dụng thời gian thực, nơi độ chính xác là chìa khóa, như nông nghiệp và chăm sóc sức khỏe. Với các tính năng tiên tiến của nó, YOLO11 đang định nghĩa lại cách các ngành công nghiệp sử dụng AI bằng cách cung cấp thông tin chi tiết sáng tạo theo thời gian thực và giúp họ giải quyết các thách thức hiệu quả hơn.
Bài phát biểu quan trọng của David tại YV24 là lời nhắc nhở rằng AI không chỉ là một sáng kiến thú vị - mà còn là một công cụ mạnh mẽ để giải quyết các vấn đề thực tế và cải thiện cách chúng ta sống và làm việc. Bằng cách tập trung vào hành vi, AI đã tạo ra tác động trong các lĩnh vực như theo dõi sức khỏe động vật và nhận ra các mô hình có ý nghĩa trong các hành động hàng ngày.
Tiềm năng của AI hành vi rất thú vị và chúng ta chỉ mới ở giai đoạn đầu. Bằng cách chuyển đổi dữ liệu thô thành thông tin chi tiết có thể hành động, AI hành vi chuyển từ giám sát thụ động sang giải quyết vấn đề chủ động. Khi phát triển hơn nữa, AI hành vi được thiết lập để đưa ra các quyết định thông minh hơn, hợp lý hóa quy trình và mang lại những cải tiến có ý nghĩa cho cuộc sống của chúng ta.
Hãy kết nối với cộng đồng của chúng tôi để tìm hiểu thêm về AI và các ứng dụng thực tế của nó. Truy cập kho lưu trữ GitHub của chúng tôi để khám phá những đổi mới trong các lĩnh vực như AI trong nông nghiệp và thị giác máy tính trong sản xuất .
Bắt đầu hành trình của bạn với tương lai của machine learning