Hãy tham gia cùng chúng tôi khi chúng tôi xem lại bài phát biểu quan trọng từ YOLO Tầm nhìn 2024 tập trung vào việc khám phá cách Hugging Face Các công cụ nguồn mở của 'đang thúc đẩy sự phát triển AI.
Việc lựa chọn đúng thuật toán chỉ là một phần trong việc xây dựng các giải pháp thị giác máy tính có tác động. Các kỹ sư AI thường làm việc với các tập dữ liệu lớn, tinh chỉnh các mô hình cho các tác vụ cụ thể và tối ưu hóa các hệ thống AI để có hiệu suất thực tế. Khi các ứng dụng AI được áp dụng nhanh hơn, nhu cầu về các công cụ đơn giản hóa các quy trình này cũng tăng lên.
Tại YOLO Vision 2024 (YV24) , sự kiện kết hợp thường niên được hỗ trợ bởi Ultralytics , Các chuyên gia AI và những người đam mê công nghệ đã cùng nhau khám phá những cải tiến mới nhất trong thị giác máy tính. Sự kiện đã khơi dậy các cuộc thảo luận về nhiều chủ đề, chẳng hạn như các cách để tăng tốc phát triển ứng dụng AI.
Điểm nhấn quan trọng của sự kiện là bài phát biểu quan trọng về Hugging Face , một nền tảng AI nguồn mở giúp hợp lý hóa việc đào tạo, tối ưu hóa và triển khai mô hình. Pavel Lakubovskii , một Kỹ sư học máy tại Hugging Face , đã chia sẻ cách các công cụ của mình cải thiện quy trình làm việc cho các tác vụ thị giác máy tính như phát hiện đối tượng trong hình ảnh, phân loại hình ảnh thành các nhóm khác nhau và đưa ra dự đoán mà không cần đào tạo trước về các ví dụ cụ thể (học không cần thực hiện).
Hugging Face Hub lưu trữ và cung cấp quyền truy cập vào nhiều mô hình AI và thị giác máy tính như Ultralytics YOLO11 . Trong bài viết này, chúng tôi sẽ tóm tắt những nội dung chính từ bài nói chuyện của Pavel và xem các nhà phát triển có thể sử dụng như thế nào Hugging Face Các công cụ nguồn mở để xây dựng và triển khai các mô hình AI một cách nhanh chóng.
Pavel bắt đầu bài nói chuyện của mình bằng cách giới thiệu Hugging Face là một nền tảng AI nguồn mở cung cấp các mô hình được đào tạo trước cho nhiều ứng dụng khác nhau. Các mô hình này được thiết kế cho nhiều nhánh AI khác nhau, bao gồm xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và AI đa phương thức, cho phép các hệ thống xử lý các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh và âm thanh.
Pavel đã đề cập rằng Hugging Face Hub hiện đã lưu trữ hơn 1 triệu mô hình và các nhà phát triển có thể dễ dàng tìm thấy các mô hình phù hợp với dự án cụ thể của mình. Hugging Face nhằm mục đích đơn giản hóa quá trình phát triển AI bằng cách cung cấp các công cụ để đào tạo mô hình, tinh chỉnh và triển khai. Khi các nhà phát triển có thể thử nghiệm với các mô hình khác nhau, điều này sẽ đơn giản hóa quá trình tích hợp AI vào các ứng dụng trong thế giới thực.
Trong khi Hugging Face ban đầu được biết đến với NLP, sau đó đã mở rộng sang thị giác máy tính và AI đa phương thức, cho phép các nhà phát triển giải quyết nhiều nhiệm vụ AI hơn. Nó cũng có một cộng đồng mạnh mẽ nơi các nhà phát triển có thể cộng tác, chia sẻ hiểu biết và nhận hỗ trợ thông qua diễn đàn, Discord và GitHub.
Đi sâu hơn vào chi tiết, Pavel giải thích cách Hugging Face Các công cụ của 's giúp xây dựng các ứng dụng thị giác máy tính dễ dàng hơn. Các nhà phát triển có thể sử dụng chúng cho các tác vụ như phân loại hình ảnh, phát hiện đối tượng và các ứng dụng ngôn ngữ thị giác.
Ông cũng chỉ ra rằng nhiều nhiệm vụ thị giác máy tính này có thể được xử lý bằng các mô hình được đào tạo trước có sẵn trên Hugging Face Hub, tiết kiệm thời gian bằng cách giảm nhu cầu đào tạo từ đầu. Trên thực tế, Hugging Face cung cấp hơn 13.000 mô hình được đào tạo sẵn cho các tác vụ phân loại hình ảnh, bao gồm phân loại thực phẩm, phân loại vật nuôi và phát hiện cảm xúc.
Nhấn mạnh tính dễ tiếp cận của các mô hình này, ông cho biết: "Bạn thậm chí có thể không cần phải đào tạo một mô hình cho dự án của mình - bạn có thể tìm thấy một mô hình trên Hub đã được ai đó trong cộng đồng đào tạo".
Đưa ra một ví dụ khác, Pavel đã giải thích chi tiết về cách Hugging Face có thể giúp phát hiện đối tượng , một chức năng chính trong thị giác máy tính được sử dụng để xác định và định vị các đối tượng trong hình ảnh. Ngay cả với dữ liệu được gắn nhãn hạn chế, các mô hình được đào tạo trước có sẵn trên Hugging Face Hub có thể giúp phát hiện đối tượng hiệu quả hơn.
Ông cũng đưa ra một cái nhìn tổng quan nhanh về một số mô hình được xây dựng cho nhiệm vụ này mà bạn có thể tìm thấy trên Hugging Face :
Sau đó, Pavel chuyển trọng tâm sang việc thực hành với Hugging Face mô hình, giải thích ba cách mà các nhà phát triển có thể tận dụng chúng: khám phá các mô hình, nhanh chóng thử nghiệm chúng và tùy chỉnh chúng hơn nữa.
Ông đã chứng minh cách các nhà phát triển có thể duyệt các mô hình trực tiếp trên Hugging Face Hub mà không cần viết bất kỳ mã nào, giúp bạn dễ dàng kiểm tra các mô hình ngay lập tức thông qua giao diện tương tác. "Bạn có thể thử mà không cần viết một dòng mã nào hoặc tải mô hình xuống máy tính của mình", Pavel nói thêm. Vì một số mô hình có kích thước lớn, nên việc chạy chúng trên Hub giúp tránh được các hạn chế về lưu trữ và xử lý.
Ngoài ra, Hugging Face API suy luận cho phép các nhà phát triển chạy các mô hình AI với các lệnh gọi API đơn giản. Nó rất tuyệt vời cho việc thử nghiệm nhanh, các dự án chứng minh khái niệm và tạo mẫu nhanh mà không cần thiết lập phức tạp.
Đối với các trường hợp sử dụng nâng cao hơn, các nhà phát triển có thể sử dụng Hugging Face Khung Transformers, một công cụ nguồn mở cung cấp các mô hình được đào tạo trước cho các tác vụ văn bản, hình ảnh và âm thanh trong khi hỗ trợ cả hai PyTorch Và TensorFlow . Pavel giải thích rằng chỉ với hai dòng mã, các nhà phát triển có thể lấy một mô hình từ Hugging Face Hub và liên kết nó với một công cụ xử lý trước, chẳng hạn như bộ xử lý hình ảnh, để phân tích dữ liệu hình ảnh cho các ứng dụng Vision AI.
Tiếp theo, Pavel giải thích cách Hugging Face có thể hợp lý hóa quy trình làm việc của AI. Một chủ đề chính mà ông đề cập là tối ưu hóa cơ chế chú ý trong Transformers, một tính năng cốt lõi của các mô hình học sâu giúp tập trung vào các phần có liên quan nhất của dữ liệu đầu vào. Điều này cải thiện độ chính xác của các tác vụ liên quan đến xử lý ngôn ngữ và thị giác máy tính. Tuy nhiên, nó có thể tốn nhiều tài nguyên.
Tối ưu hóa cơ chế chú ý có thể giảm đáng kể việc sử dụng bộ nhớ trong khi cải thiện tốc độ. Pavel chỉ ra, "Ví dụ, bằng cách chuyển sang triển khai chú ý hiệu quả hơn, bạn có thể thấy hiệu suất nhanh hơn tới 1,8 lần."
Hugging Face cung cấp hỗ trợ tích hợp cho việc triển khai sự chú ý hiệu quả hơn trong khuôn khổ Transformers. Các nhà phát triển có thể kích hoạt các tối ưu hóa này bằng cách chỉ định một triển khai sự chú ý thay thế khi tải một mô hình.
Ông cũng nói về lượng tử hóa, một kỹ thuật làm cho các mô hình AI nhỏ hơn bằng cách giảm độ chính xác của các con số mà chúng sử dụng mà không ảnh hưởng quá nhiều đến hiệu suất. Điều này giúp các mô hình sử dụng ít bộ nhớ hơn và chạy nhanh hơn, khiến chúng phù hợp hơn với các thiết bị có sức mạnh xử lý hạn chế, như điện thoại thông minh và hệ thống nhúng.
Để nâng cao hiệu quả hơn nữa, Pavel đã giới thiệu Hugging Face Thư viện Optimum, một bộ công cụ được thiết kế để tối ưu hóa và triển khai các mô hình. Chỉ với một vài dòng mã, các nhà phát triển có thể áp dụng các kỹ thuật lượng tử hóa và chuyển đổi các mô hình thành các định dạng hiệu quả như ONNX (Open Neural Network Exchange) , cho phép chúng chạy trơn tru trên các loại phần cứng khác nhau, bao gồm máy chủ đám mây và thiết bị biên.
Cuối cùng, Pavel đã đề cập đến những lợi ích của Torch Biên dịch, một tính năng trong PyTorch giúp tối ưu hóa cách các mô hình AI xử lý dữ liệu, giúp chúng chạy nhanh hơn và hiệu quả hơn. Hugging Face tích hợp Torch Biên dịch trong các thư viện Transformers và Optimum, cho phép các nhà phát triển tận dụng những cải tiến về hiệu suất này với những thay đổi tối thiểu về mã.
Bằng cách tối ưu hóa cấu trúc tính toán của mô hình, Torch Biên dịch có thể tăng tốc thời gian suy luận và tăng tốc độ khung hình từ 29 lên 150 khung hình mỗi giây mà không ảnh hưởng đến độ chính xác hoặc chất lượng.
Tiếp theo, Pavel đã đề cập ngắn gọn về cách các nhà phát triển có thể mở rộng và triển khai các mô hình Vision AI bằng cách sử dụng Hugging Face công cụ sau khi chọn đúng mô hình và chọn phương pháp phát triển tốt nhất.
Ví dụ, các nhà phát triển có thể triển khai các ứng dụng AI tương tác bằng Gradio và Streamlit. Gradio cho phép các nhà phát triển tạo giao diện dựa trên web cho các mô hình học máy, trong khi Streamlit giúp xây dựng các ứng dụng dữ liệu tương tác với Python kịch bản.
Pavel cũng chỉ ra rằng, “Bạn không cần phải bắt đầu viết mọi thứ từ đầu”, ám chỉ đến các hướng dẫn, sổ tay đào tạo và các kịch bản mẫu Hugging Face cung cấp. Các tài nguyên này giúp các nhà phát triển bắt đầu nhanh chóng mà không cần phải xây dựng mọi thứ từ đầu.
Kết thúc bài phát biểu quan trọng của mình, Pavel đã tóm tắt những lợi thế của việc sử dụng Hugging Face Hub. Ông nhấn mạnh cách nó đơn giản hóa việc quản lý và cộng tác mô hình. Ông cũng lưu ý đến tính khả dụng của các hướng dẫn, sổ tay và hướng dẫn, có thể giúp cả người mới bắt đầu và chuyên gia hiểu và triển khai các mô hình AI.
"Đã có rất nhiều không gian thú vị trên Hub. Bạn có thể tìm những không gian tương tự, sao chép mã được chia sẻ, sửa đổi một vài dòng, thay thế mô hình bằng mô hình của riêng bạn và đẩy nó trở lại", ông giải thích, đồng thời khuyến khích các nhà phát triển tận dụng tính linh hoạt của nền tảng.
Trong bài phát biểu của mình tại YV24, Pavel đã chia sẻ cách Hugging Face cung cấp các công cụ hỗ trợ đào tạo, tối ưu hóa và triển khai mô hình AI. Ví dụ, các cải tiến như Transformers, Optimum và Torch Biên dịch có thể giúp các nhà phát triển nâng cao hiệu suất mô hình.
Khi các mô hình AI trở nên hiệu quả hơn, những tiến bộ trong lượng tử hóa và triển khai biên đang giúp việc chạy chúng trên các thiết bị có tài nguyên hạn chế trở nên dễ dàng hơn. Những cải tiến này, kết hợp với các công cụ như Hugging Face và các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11 , là chìa khóa để xây dựng các ứng dụng Vision AI có khả năng mở rộng và hiệu suất cao.
Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu về AI và xem các giấy phép yolo của chúng tôi để bắt đầu các dự án Vision AI của bạn. Bạn có quan tâm đến các sáng kiến như thị giác máy tính trong chăm sóc sức khỏe hoặc thị giác máy tính trong nông nghiệp không? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm!
Bắt đầu hành trình của bạn với tương lai của machine learning