Hãy cùng chúng tôi nhìn lại quá trình phát triển của phát hiện đối tượng. Chúng tôi sẽ tập trung vào cách YOLO Các mô hình (Bạn chỉ nhìn một lần) đã có những tiến bộ trong những năm gần đây.
Thị giác máy tính là một lĩnh vực con của trí tuệ nhân tạo (AI) tập trung vào việc dạy máy móc cách nhìn và hiểu hình ảnh và video, tương tự như cách con người cảm nhận thế giới thực. Mặc dù nhận dạng vật thể hoặc xác định hành động là bản chất thứ hai của con người, nhưng những nhiệm vụ này đòi hỏi các kỹ thuật thị giác máy tính cụ thể và chuyên biệt khi nói đến máy móc. Ví dụ, một nhiệm vụ chính trong thị giác máy tính là phát hiện vật thể , bao gồm việc xác định và định vị các vật thể trong hình ảnh hoặc video.
Từ những năm 1960, các nhà nghiên cứu đã làm việc để cải thiện cách máy tính có thể phát hiện các vật thể . Các phương pháp ban đầu, như khớp mẫu , liên quan đến việc trượt một mẫu được xác định trước trên một hình ảnh để tìm các kết quả khớp. Mặc dù mang tính sáng tạo, nhưng các phương pháp này gặp khó khăn với những thay đổi về kích thước, hướng và ánh sáng của vật thể . Ngày nay, chúng ta có các mô hình tiên tiến như Ultralytics YOLO11 có thể phát hiện ngay cả những vật thể nhỏ và ẩn một phần, được gọi là vật thể bị che khuất, với độ chính xác ấn tượng.
Khi thị giác máy tính tiếp tục phát triển, điều quan trọng là phải nhìn lại cách các công nghệ này đã phát triển. Trong bài viết này, chúng ta sẽ khám phá sự phát triển của phát hiện đối tượng và làm sáng tỏ sự chuyển đổi của các mô hình YOLO (Bạn chỉ nhìn một lần) . Hãy bắt đầu!
Trước khi đi sâu vào phát hiện đối tượng , chúng ta hãy xem xét cách thị giác máy tính bắt đầu. Nguồn gốc của thị giác máy tính bắt nguồn từ cuối những năm 1950 và đầu những năm 1960 khi các nhà khoa học bắt đầu khám phá cách não bộ xử lý thông tin thị giác. Trong các thí nghiệm với mèo , các nhà nghiên cứu David Hubel và Torsten Wiesel đã phát hiện ra rằng não bộ phản ứng với các mẫu đơn giản như cạnh và đường. Điều này hình thành cơ sở cho ý tưởng đằng sau việc trích xuất đặc điểm - khái niệm rằng các hệ thống thị giác phát hiện và nhận dạng các đặc điểm cơ bản trong hình ảnh, chẳng hạn như cạnh, trước khi chuyển sang các mẫu phức tạp hơn.
Cùng thời điểm đó, công nghệ mới xuất hiện có thể biến hình ảnh vật lý thành định dạng kỹ thuật số, khơi dậy sự quan tâm đến cách máy móc có thể xử lý thông tin trực quan. Năm 1966, Dự án Summer Vision của Viện Công nghệ Massachusetts (MIT) đã thúc đẩy mọi thứ tiến xa hơn. Mặc dù dự án không hoàn toàn thành công, nhưng nó hướng đến mục tiêu tạo ra một hệ thống có thể tách biệt tiền cảnh khỏi hậu cảnh trong hình ảnh . Đối với nhiều người trong cộng đồng Vision AI , dự án này đánh dấu sự khởi đầu chính thức của thị giác máy tính như một lĩnh vực khoa học.
Khi thị giác máy tính phát triển vào cuối những năm 1990 và đầu những năm 2000, các phương pháp phát hiện đối tượng đã chuyển từ các kỹ thuật cơ bản như khớp mẫu sang các phương pháp tiên tiến hơn. Một phương pháp phổ biến là Haar Cascade, được sử dụng rộng rãi cho các tác vụ như phát hiện khuôn mặt . Nó hoạt động bằng cách quét hình ảnh bằng cửa sổ trượt, kiểm tra các đặc điểm cụ thể như cạnh hoặc kết cấu trong từng phần của hình ảnh, sau đó kết hợp các đặc điểm này để phát hiện các đối tượng như khuôn mặt. Haar Cascade nhanh hơn nhiều so với các phương pháp trước đó.
Bên cạnh đó, các phương pháp như Histogram of Oriented Gradients (HOG) và Support Vector Machines (SVM) cũng được giới thiệu. HOG sử dụng kỹ thuật cửa sổ trượt để phân tích cách ánh sáng và bóng tối thay đổi trong các phần nhỏ của hình ảnh, giúp xác định các đối tượng dựa trên hình dạng của chúng. Sau đó, SVM phân loại các đặc điểm này để xác định danh tính của đối tượng. Các phương pháp này cải thiện độ chính xác nhưng vẫn gặp khó khăn trong môi trường thực tế và chậm hơn so với các kỹ thuật hiện nay.
Vào những năm 2010, sự phát triển của học sâu và Mạng nơ-ron tích chập (CNN) đã mang đến sự thay đổi lớn trong việc phát hiện đối tượng . CNN giúp máy tính có thể tự động học các tính năng quan trọng từ lượng dữ liệu lớn, giúp việc phát hiện trở nên chính xác hơn nhiều.
Các mô hình ban đầu như R-CNN (Mạng nơ-ron tích chập theo vùng) đã có sự cải thiện lớn về độ chính xác , giúp xác định đối tượng chính xác hơn so với các phương pháp cũ.
Tuy nhiên, các mô hình này chậm vì chúng xử lý hình ảnh theo nhiều giai đoạn, khiến chúng không thực tế cho các ứng dụng thời gian thực trong các lĩnh vực như xe tự lái hoặc giám sát video .
Tập trung vào việc tăng tốc mọi thứ, các mô hình hiệu quả hơn đã được phát triển. Các mô hình như Fast R-CNN và Faster R-CNN đã giúp tinh chỉnh cách các vùng quan tâm được chọn và cắt giảm số bước cần thiết để phát hiện. Mặc dù điều này giúp phát hiện đối tượng nhanh hơn, nhưng vẫn chưa đủ nhanh đối với nhiều ứng dụng trong thế giới thực cần kết quả ngay lập tức. Nhu cầu ngày càng tăng đối với phát hiện thời gian thực đã thúc đẩy sự phát triển của các giải pháp thậm chí còn nhanh hơn và hiệu quả hơn, có thể cân bằng cả tốc độ và độ chính xác.
YOLO là một mô hình phát hiện đối tượng định nghĩa lại thị giác máy tính bằng cách cho phép phát hiện nhiều đối tượng trong hình ảnh và video theo thời gian thực, khiến nó trở nên khá độc đáo so với các phương pháp phát hiện trước đây. Thay vì phân tích từng đối tượng được phát hiện riêng lẻ, kiến trúc của YOLO coi việc phát hiện đối tượng là một nhiệm vụ duy nhất, dự đoán cả vị trí và loại đối tượng cùng một lúc bằng cách sử dụng CNN.
Mô hình hoạt động bằng cách chia hình ảnh thành lưới, mỗi phần chịu trách nhiệm phát hiện các đối tượng trong khu vực tương ứng của nó. Nó đưa ra nhiều dự đoán cho mỗi phần và lọc ra các kết quả kém tin cậy hơn, chỉ giữ lại những kết quả chính xác.
Sự giới thiệu của YOLO cho các ứng dụng thị giác máy tính giúp phát hiện đối tượng nhanh hơn và hiệu quả hơn nhiều so với các mô hình trước đó. Do tốc độ và độ chính xác của nó, YOLO nhanh chóng trở thành sự lựa chọn phổ biến cho các giải pháp thời gian thực trong các ngành công nghiệp như sản xuất , chăm sóc sức khỏe và robot .
Một điểm quan trọng khác cần lưu ý là vì YOLO là mã nguồn mở , các nhà phát triển và nhà nghiên cứu có thể liên tục cải tiến nó, tạo ra các phiên bản tiên tiến hơn nữa.
YOLO Các mô hình đã được cải thiện liên tục theo thời gian, dựa trên những tiến bộ của từng phiên bản. Cùng với hiệu suất tốt hơn, những cải tiến này đã giúp các mô hình dễ sử dụng hơn đối với những người có trình độ kỹ thuật khác nhau.
Ví dụ, khi Ultralytics YOLOv5 được giới thiệu, việc triển khai các mô hình trở nên đơn giản hơn với PyTorch , cho phép nhiều người dùng hơn làm việc với AI tiên tiến. Nó kết hợp độ chính xác và khả năng sử dụng, giúp nhiều người có khả năng triển khai phát hiện đối tượng mà không cần phải là chuyên gia lập trình.
Ultralytics YOLOv8 tiếp tục tiến trình này bằng cách thêm hỗ trợ cho các tác vụ như phân đoạn phiên bản và làm cho các mô hình linh hoạt hơn. Nó trở nên dễ sử dụng hơn YOLO cho cả các ứng dụng cơ bản và phức tạp hơn, hữu ích trong nhiều tình huống khác nhau.
Với mô hình mới nhất, Ultralytics YOLO11 , các tối ưu hóa hơn nữa đã được thực hiện. Bằng cách giảm số lượng tham số trong khi cải thiện độ chính xác, giờ đây nó hiệu quả hơn cho các tác vụ thời gian thực. Cho dù bạn là nhà phát triển có kinh nghiệm hay mới làm quen với AI, YOLO11 cung cấp phương pháp tiếp cận tiên tiến để phát hiện đối tượng và dễ dàng truy cập.
YOLO11 , được ra mắt tại Ultralytics ' sự kiện kết hợp thường niên , YOLO Vision 2024 (YV24) , hỗ trợ các tác vụ thị giác máy tính giống như YOLOv8 , như phát hiện đối tượng, phân đoạn trường hợp, phân loại hình ảnh và ước tính tư thế . Vì vậy, người dùng có thể dễ dàng chuyển sang mô hình mới này mà không cần phải điều chỉnh quy trình làm việc của họ. Ngoài ra, YOLO11 Kiến trúc nâng cấp của 'làm cho các dự đoán chính xác hơn nữa. Trên thực tế, YOLO11m đạt được độ chính xác trung bình cao hơn (mAP) trên tập dữ liệu COCO với ít hơn 22% tham số so với YOLOv8m .
YOLO11 cũng được xây dựng để chạy hiệu quả trên nhiều nền tảng , từ điện thoại thông minh và các thiết bị biên khác đến các hệ thống đám mây mạnh mẽ hơn. Tính linh hoạt này đảm bảo hiệu suất mượt mà trên các thiết lập phần cứng khác nhau cho các ứng dụng thời gian thực. Trên hết, YOLO11 nhanh hơn và hiệu quả hơn, cắt giảm chi phí tính toán và tăng tốc thời gian suy luận. Cho dù bạn đang sử dụng gói Ultralytics Python hay Ultralytics HUB không cần mã , bạn vẫn có thể dễ dàng tích hợp YOLO11 vào quy trình làm việc hiện tại của mình.
Tác động của phát hiện đối tượng tiên tiến đối với các ứng dụng thời gian thực và AI biên đã được cảm nhận trên khắp các ngành công nghiệp. Khi các ngành như dầu khí , chăm sóc sức khỏe và bán lẻ ngày càng phụ thuộc vào AI, nhu cầu phát hiện đối tượng nhanh chóng và chính xác tiếp tục tăng. YOLO11 nhằm mục đích đáp ứng nhu cầu này bằng cách cho phép phát hiện hiệu suất cao ngay cả trên các thiết bị có công suất tính toán hạn chế.
Khi AI biên phát triển, có khả năng các mô hình phát hiện đối tượng như YOLO11 sẽ trở nên thiết yếu hơn nữa đối với việc ra quyết định theo thời gian thực trong các môi trường mà tốc độ và độ chính xác là rất quan trọng. Với những cải tiến liên tục về thiết kế và khả năng thích ứng, tương lai của phát hiện đối tượng có vẻ sẽ mang lại nhiều cải tiến hơn nữa trên nhiều ứng dụng khác nhau.
Công nghệ phát hiện đối tượng đã có nhiều tiến bộ, từ những phương pháp đơn giản đến các kỹ thuật học sâu tiên tiến mà chúng ta thấy ngày nay. YOLO Các mô hình đóng vai trò cốt lõi trong tiến trình này, mang lại khả năng phát hiện nhanh hơn và chính xác hơn theo thời gian thực trong nhiều ngành công nghiệp khác nhau. YOLO11 xây dựng trên di sản này, cải thiện hiệu quả, cắt giảm chi phí tính toán và tăng cường độ chính xác, khiến nó trở thành lựa chọn đáng tin cậy cho nhiều ứng dụng thời gian thực. Với những tiến bộ liên tục trong AI và thị giác máy tính, tương lai của phát hiện đối tượng có vẻ tươi sáng, với nhiều chỗ để cải thiện hơn nữa về tốc độ, độ chính xác và khả năng thích ứng.
Bạn có tò mò về AI không? Hãy kết nối với cộng đồng của chúng tôi để tiếp tục học hỏi! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành công nghiệp như sản xuất và chăm sóc sức khỏe . 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning