Cung cấp năng lượng cho các dự án CV với Hugging Face công cụ mã nguồn mở của

Hãy tham gia cùng chúng tôi khi chúng tôi xem lại bài phát biểu quan trọng từ YOLO Tầm nhìn 2024 tập trung vào việc khám phá cách Hugging Face Các công cụ nguồn mở của 'đang thúc đẩy sự phát triển AI.

Viết bởi

Abirami Vina

phút đọc

Ngày 11 tháng 2 năm 2025

Ngày 3 tháng 4 năm 2025

Hugging Face Hub hỗ trợ phát triển AI nhanh hơn

Khám phá Hugging Face mô hình cho các ứng dụng thị giác máy tính

Hugging Face mô hình phát hiện đối tượng

Làm thế nào để sử dụng Hugging Face mô hình

Tối ưu hóa quy trình làm việc AI với Hugging Face

Tối ưu và Torch Biên dịch

Triển khai các mô hình với Hugging Face công cụ

Lợi ích của Hugging Face Trung tâm

Những điểm chính

Việc lựa chọn đúng thuật toán chỉ là một phần trong việc xây dựng các giải pháp thị giác máy tính có tác động. Các kỹ sư AI thường làm việc với các tập dữ liệu lớn, tinh chỉnh các mô hình cho các tác vụ cụ thể và tối ưu hóa các hệ thống AI để có hiệu suất thực tế. Khi các ứng dụng AI được áp dụng nhanh hơn, nhu cầu về các công cụ đơn giản hóa các quy trình này cũng tăng lên.

Tại YOLO Vision 2024 (YV24) , sự kiện kết hợp thường niên được hỗ trợ bởi Ultralytics , Các chuyên gia AI và những người đam mê công nghệ đã cùng nhau khám phá những cải tiến mới nhất trong thị giác máy tính. Sự kiện đã khơi dậy các cuộc thảo luận về nhiều chủ đề, chẳng hạn như các cách để tăng tốc phát triển ứng dụng AI.

Điểm nhấn quan trọng của sự kiện là bài phát biểu quan trọng về Hugging Face , một nền tảng AI nguồn mở giúp hợp lý hóa việc đào tạo, tối ưu hóa và triển khai mô hình. Pavel Lakubovskii , một Kỹ sư học máy tại Hugging Face , đã chia sẻ cách các công cụ của mình cải thiện quy trình làm việc cho các tác vụ thị giác máy tính như phát hiện đối tượng trong hình ảnh, phân loại hình ảnh thành các nhóm khác nhau và đưa ra dự đoán mà không cần đào tạo trước về các ví dụ cụ thể (học không cần thực hiện).

Hugging Face Hub lưu trữ và cung cấp quyền truy cập vào nhiều mô hình AI và thị giác máy tính như Ultralytics YOLO11 . Trong bài viết này, chúng tôi sẽ tóm tắt những nội dung chính từ bài nói chuyện của Pavel và xem các nhà phát triển có thể sử dụng như thế nào Hugging Face Các công cụ nguồn mở để xây dựng và triển khai các mô hình AI một cách nhanh chóng.

‍

Hugging Face Hub hỗ trợ phát triển AI nhanh hơn

Pavel bắt đầu bài nói chuyện của mình bằng cách giới thiệu Hugging Face là một nền tảng AI nguồn mở cung cấp các mô hình được đào tạo trước cho nhiều ứng dụng khác nhau. Các mô hình này được thiết kế cho nhiều nhánh AI khác nhau, bao gồm xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và AI đa phương thức, cho phép các hệ thống xử lý các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh và âm thanh.

Pavel đã đề cập rằng Hugging Face Hub hiện đã lưu trữ hơn 1 triệu mô hình và các nhà phát triển có thể dễ dàng tìm thấy các mô hình phù hợp với dự án cụ thể của mình. Hugging Face nhằm mục đích đơn giản hóa quá trình phát triển AI bằng cách cung cấp các công cụ để đào tạo mô hình, tinh chỉnh và triển khai. Khi các nhà phát triển có thể thử nghiệm với các mô hình khác nhau, điều này sẽ đơn giản hóa quá trình tích hợp AI vào các ứng dụng trong thế giới thực.

Trong khi Hugging Face ban đầu được biết đến với NLP, sau đó đã mở rộng sang thị giác máy tính và AI đa phương thức, cho phép các nhà phát triển giải quyết nhiều nhiệm vụ AI hơn. Nó cũng có một cộng đồng mạnh mẽ nơi các nhà phát triển có thể cộng tác, chia sẻ hiểu biết và nhận hỗ trợ thông qua diễn đàn, Discord và GitHub.

Khám phá Hugging Face mô hình cho các ứng dụng thị giác máy tính

Đi sâu hơn vào chi tiết, Pavel giải thích cách Hugging Face Các công cụ của 's giúp xây dựng các ứng dụng thị giác máy tính dễ dàng hơn. Các nhà phát triển có thể sử dụng chúng cho các tác vụ như phân loại hình ảnh, phát hiện đối tượng và các ứng dụng ngôn ngữ thị giác.

Ông cũng chỉ ra rằng nhiều nhiệm vụ thị giác máy tính này có thể được xử lý bằng các mô hình được đào tạo trước có sẵn trên Hugging Face Hub, tiết kiệm thời gian bằng cách giảm nhu cầu đào tạo từ đầu. Trên thực tế, Hugging Face cung cấp hơn 13.000 mô hình được đào tạo sẵn cho các tác vụ phân loại hình ảnh, bao gồm phân loại thực phẩm, phân loại vật nuôi và phát hiện cảm xúc.

Nhấn mạnh tính dễ tiếp cận của các mô hình này, ông cho biết: "Bạn thậm chí có thể không cần phải đào tạo một mô hình cho dự án của mình - bạn có thể tìm thấy một mô hình trên Hub đã được ai đó trong cộng đồng đào tạo".

Hugging Face mô hình phát hiện đối tượng

Đưa ra một ví dụ khác, Pavel đã giải thích chi tiết về cách Hugging Face có thể giúp phát hiện đối tượng , một chức năng chính trong thị giác máy tính được sử dụng để xác định và định vị các đối tượng trong hình ảnh. Ngay cả với dữ liệu được gắn nhãn hạn chế, các mô hình được đào tạo trước có sẵn trên Hugging Face Hub có thể giúp phát hiện đối tượng hiệu quả hơn.

Ông cũng đưa ra một cái nhìn tổng quan nhanh về một số mô hình được xây dựng cho nhiệm vụ này mà bạn có thể tìm thấy trên Hugging Face :

Các mô hình phát hiện đối tượng theo thời gian thực : Đối với các môi trường động, nơi tốc độ là yếu tố quan trọng, các mô hình như Detection Transformer (DETR) cung cấp khả năng phát hiện đối tượng theo thời gian thực. DETR được đào tạo trên tập dữ liệu COCO và được thiết kế để xử lý các tính năng đa thang đo một cách hiệu quả, phù hợp với các ứng dụng nhạy cảm với thời gian.
‍
Mô hình ngôn ngữ thị giác : Các mô hình này kết hợp xử lý hình ảnh và văn bản, giúp hệ thống AI có thể khớp hình ảnh với mô tả hoặc nhận dạng các đối tượng ngoài dữ liệu đào tạo của chúng. Ví dụ bao gồm CLIP và SigLIP, cải thiện tìm kiếm hình ảnh bằng cách liên kết văn bản với hình ảnh và cho phép các giải pháp AI xác định các đối tượng mới bằng cách hiểu ngữ cảnh của chúng.
‍
Các mô hình phát hiện vật thể Zero-shot: Chúng có thể xác định các vật thể mà chúng chưa từng thấy trước đây bằng cách hiểu mối quan hệ giữa hình ảnh và văn bản. Ví dụ bao gồm OwlVit, GroundingDINO và OmDet, sử dụng phương pháp học zero-shot để phát hiện các vật thể mới mà không cần dữ liệu đào tạo có nhãn.

Làm thế nào để sử dụng Hugging Face mô hình

Sau đó, Pavel chuyển trọng tâm sang việc thực hành với Hugging Face mô hình, giải thích ba cách mà các nhà phát triển có thể tận dụng chúng: khám phá các mô hình, nhanh chóng thử nghiệm chúng và tùy chỉnh chúng hơn nữa.

Ông đã chứng minh cách các nhà phát triển có thể duyệt các mô hình trực tiếp trên Hugging Face Hub mà không cần viết bất kỳ mã nào, giúp bạn dễ dàng kiểm tra các mô hình ngay lập tức thông qua giao diện tương tác. "Bạn có thể thử mà không cần viết một dòng mã nào hoặc tải mô hình xuống máy tính của mình", Pavel nói thêm. Vì một số mô hình có kích thước lớn, nên việc chạy chúng trên Hub giúp tránh được các hạn chế về lưu trữ và xử lý.

Hình 2. Cách sử dụng Hugging Face mô hình.

‍

Ngoài ra, Hugging Face API suy luận cho phép các nhà phát triển chạy các mô hình AI với các lệnh gọi API đơn giản. Nó rất tuyệt vời cho việc thử nghiệm nhanh, các dự án chứng minh khái niệm và tạo mẫu nhanh mà không cần thiết lập phức tạp.

Đối với các trường hợp sử dụng nâng cao hơn, các nhà phát triển có thể sử dụng Hugging Face Khung Transformers, một công cụ nguồn mở cung cấp các mô hình được đào tạo trước cho các tác vụ văn bản, hình ảnh và âm thanh trong khi hỗ trợ cả hai PyTorch Và TensorFlow . Pavel giải thích rằng chỉ với hai dòng mã, các nhà phát triển có thể lấy một mô hình từ Hugging Face Hub và liên kết nó với một công cụ xử lý trước, chẳng hạn như bộ xử lý hình ảnh, để phân tích dữ liệu hình ảnh cho các ứng dụng Vision AI.

Tối ưu hóa quy trình làm việc AI với Hugging Face

Tiếp theo, Pavel giải thích cách Hugging Face có thể hợp lý hóa quy trình làm việc của AI. Một chủ đề chính mà ông đề cập là tối ưu hóa cơ chế chú ý trong Transformers, một tính năng cốt lõi của các mô hình học sâu giúp tập trung vào các phần có liên quan nhất của dữ liệu đầu vào. Điều này cải thiện độ chính xác của các tác vụ liên quan đến xử lý ngôn ngữ và thị giác máy tính. Tuy nhiên, nó có thể tốn nhiều tài nguyên.

Tối ưu hóa cơ chế chú ý có thể giảm đáng kể việc sử dụng bộ nhớ trong khi cải thiện tốc độ. Pavel chỉ ra, "Ví dụ, bằng cách chuyển sang triển khai chú ý hiệu quả hơn, bạn có thể thấy hiệu suất nhanh hơn tới 1,8 lần."

Hugging Face cung cấp hỗ trợ tích hợp cho việc triển khai sự chú ý hiệu quả hơn trong khuôn khổ Transformers. Các nhà phát triển có thể kích hoạt các tối ưu hóa này bằng cách chỉ định một triển khai sự chú ý thay thế khi tải một mô hình.

Tối ưu và Torch Biên dịch

Ông cũng nói về lượng tử hóa, một kỹ thuật làm cho các mô hình AI nhỏ hơn bằng cách giảm độ chính xác của các con số mà chúng sử dụng mà không ảnh hưởng quá nhiều đến hiệu suất. Điều này giúp các mô hình sử dụng ít bộ nhớ hơn và chạy nhanh hơn, khiến chúng phù hợp hơn với các thiết bị có sức mạnh xử lý hạn chế, như điện thoại thông minh và hệ thống nhúng.

Để nâng cao hiệu quả hơn nữa, Pavel đã giới thiệu Hugging Face Thư viện Optimum, một bộ công cụ được thiết kế để tối ưu hóa và triển khai các mô hình. Chỉ với một vài dòng mã, các nhà phát triển có thể áp dụng các kỹ thuật lượng tử hóa và chuyển đổi các mô hình thành các định dạng hiệu quả như ONNX (Open Neural Network Exchange) , cho phép chúng chạy trơn tru trên các loại phần cứng khác nhau, bao gồm máy chủ đám mây và thiết bị biên.

Hình 3. Pavel nói về thư viện Optimum và các tính năng của nó.

‍

Cuối cùng, Pavel đã đề cập đến những lợi ích của Torch Biên dịch, một tính năng trong PyTorch giúp tối ưu hóa cách các mô hình AI xử lý dữ liệu, giúp chúng chạy nhanh hơn và hiệu quả hơn. Hugging Face tích hợp Torch Biên dịch trong các thư viện Transformers và Optimum, cho phép các nhà phát triển tận dụng những cải tiến về hiệu suất này với những thay đổi tối thiểu về mã.

Bằng cách tối ưu hóa cấu trúc tính toán của mô hình, Torch Biên dịch có thể tăng tốc thời gian suy luận và tăng tốc độ khung hình từ 29 lên 150 khung hình mỗi giây mà không ảnh hưởng đến độ chính xác hoặc chất lượng.

Triển khai các mô hình với Hugging Face công cụ

Tiếp theo, Pavel đã đề cập ngắn gọn về cách các nhà phát triển có thể mở rộng và triển khai các mô hình Vision AI bằng cách sử dụng Hugging Face công cụ sau khi chọn đúng mô hình và chọn phương pháp phát triển tốt nhất.

Ví dụ, các nhà phát triển có thể triển khai các ứng dụng AI tương tác bằng Gradio và Streamlit. Gradio cho phép các nhà phát triển tạo giao diện dựa trên web cho các mô hình học máy, trong khi Streamlit giúp xây dựng các ứng dụng dữ liệu tương tác với Python kịch bản.

Pavel cũng chỉ ra rằng, “Bạn không cần phải bắt đầu viết mọi thứ từ đầu”, ám chỉ đến các hướng dẫn, sổ tay đào tạo và các kịch bản mẫu Hugging Face cung cấp. Các tài nguyên này giúp các nhà phát triển bắt đầu nhanh chóng mà không cần phải xây dựng mọi thứ từ đầu.

Hình 4. Pavel thảo luận về khả năng của Hugging Face tại YV24.

‍

Lợi ích của Hugging Face Trung tâm

Kết thúc bài phát biểu quan trọng của mình, Pavel đã tóm tắt những lợi thế của việc sử dụng Hugging Face Hub. Ông nhấn mạnh cách nó đơn giản hóa việc quản lý và cộng tác mô hình. Ông cũng lưu ý đến tính khả dụng của các hướng dẫn, sổ tay và hướng dẫn, có thể giúp cả người mới bắt đầu và chuyên gia hiểu và triển khai các mô hình AI.

"Đã có rất nhiều không gian thú vị trên Hub. Bạn có thể tìm những không gian tương tự, sao chép mã được chia sẻ, sửa đổi một vài dòng, thay thế mô hình bằng mô hình của riêng bạn và đẩy nó trở lại", ông giải thích, đồng thời khuyến khích các nhà phát triển tận dụng tính linh hoạt của nền tảng.

Những điểm chính

Trong bài phát biểu của mình tại YV24, Pavel đã chia sẻ cách Hugging Face cung cấp các công cụ hỗ trợ đào tạo, tối ưu hóa và triển khai mô hình AI. Ví dụ, các cải tiến như Transformers, Optimum và Torch Biên dịch có thể giúp các nhà phát triển nâng cao hiệu suất mô hình.

Khi các mô hình AI trở nên hiệu quả hơn, những tiến bộ trong lượng tử hóa và triển khai biên đang giúp việc chạy chúng trên các thiết bị có tài nguyên hạn chế trở nên dễ dàng hơn. Những cải tiến này, kết hợp với các công cụ như Hugging Face và các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11 , là chìa khóa để xây dựng các ứng dụng Vision AI có khả năng mở rộng và hiệu suất cao.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu về AI và xem các giấy phép yolo của chúng tôi để bắt đầu các dự án Vision AI của bạn. Bạn có quan tâm đến các sáng kiến như thị giác máy tính trong chăm sóc sức khỏe hoặc thị giác máy tính trong nông nghiệp không? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm!

Cung cấp năng lượng cho các dự án CV với Hugging Face công cụ mã nguồn mở của

Hugging Face Hub hỗ trợ phát triển AI nhanh hơn

Khám phá Hugging Face mô hình cho các ứng dụng thị giác máy tính

Hugging Face mô hình phát hiện đối tượng

Làm thế nào để sử dụng Hugging Face mô hình

Tối ưu hóa quy trình làm việc AI với Hugging Face

Tối ưu và Torch Biên dịch

Triển khai các mô hình với Hugging Face công cụ

Lợi ích của Hugging Face Trung tâm

Những điểm chính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Cung cấp năng lượng cho các dự án CV với Hugging Face công cụ mã nguồn mở của

Hugging Face Hub hỗ trợ phát triển AI nhanh hơn

Khám phá Hugging Face mô hình cho các ứng dụng thị giác máy tính

Hugging Face mô hình phát hiện đối tượng

Làm thế nào để sử dụng Hugging Face mô hình

Tối ưu hóa quy trình làm việc AI với Hugging Face

Tối ưu và Torch Biên dịch

Triển khai các mô hình với Hugging Face công cụ

Lợi ích của Hugging Face Trung tâm

Những điểm chính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai của AI cùng nhau!

Hãy xây dựng tương lai
của AI cùng nhau!