Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Hãy thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính

Xem cách bạn có thể thực hành với Google Gemini 2.5 dành cho các tác vụ về thị giác máy tính như phát hiện đối tượng, chú thích hình ảnh và OCR cho các giải pháp AI về thị giác.

Những tiến bộ của AI đang diễn ra nhanh chóng, với những cải tiến mới được đưa tin gần như hàng ngày. Một trong những đột phá gần đây là Gemini 2.5, mô hình đa phương thức mới nhất từ Google DeepMind, ra mắt vào ngày 26 tháng 3. Trong khi các Mô hình ngôn ngữ lớn (LLM) truyền thống có thể học từ lượng dữ liệu khổng lồ để tạo ra văn bản giống con người, Gemini 2.5 còn vượt xa hơn thế. 

Nó được thiết kế như một "mô hình tư duy" có thể xử lý hình ảnh, âm thanh và video. Nó có các kỹ năng lập luận và mã hóa nâng cao. Điều thú vị là nó cũng hoạt động cực kỳ tốt đối với các tác vụ thị giác máy tính , trong đó máy móc diễn giải và phân tích dữ liệu trực quan, chẳng hạn như phát hiện đối tượng, chú thích hình ảnh và nhận dạng ký tự quang học (OCR).

Hình 1. Ví dụ về việc sử dụng Gemini 2.5 để hiểu nội dung của hình ảnh.

Trong bài viết này, chúng tôi sẽ hướng dẫn một trong những Ultralytics 'sổ tay có thể giúp bạn thực hành với khả năng thị giác máy tính của Gemini 2.5. Chúng tôi cũng sẽ xem xét kỹ hơn các tính năng chính của Gemini 2.5 và giới thiệu cách sử dụng để xây dựng các giải pháp thị giác máy tính cho các ứng dụng thực tế. Hãy bắt đầu nào!

Tổng quan về Gemini 2.5: các tính năng và khả năng

Phiên bản đầu tiên trong loạt mô hình Gemini 2.5 vừa được phát hành là bản phát hành thử nghiệm của Gemini 2.5 Pro. Nó được thiết kế để xử lý các vấn đề phức tạp bằng cách suy nghĩ kỹ các phản hồi trước khi đưa ra câu trả lời. Nó sử dụng các phương pháp như học tăng cường (trong đó mô hình học từ phản hồi) và nhắc nhở chuỗi suy nghĩ (một cách tiếp cận từng bước để giải quyết vấn đề).

Một trong những tính năng chính của nó là cửa sổ ngữ cảnh lớn, có thể chứa 1 triệu mã thông báo (khoảng một triệu từ hoặc phần từ) và dự kiến sẽ tăng lên 2 triệu. Điều này có nghĩa là mô hình có thể tiếp nhận nhiều thông tin cùng một lúc, dẫn đến kết quả chi tiết và chính xác hơn.

Ngoài khả năng xử lý ngôn ngữ, Gemini 2.5 có thể được sử dụng cho các tác vụ thị giác máy tính sau:

  • Phát hiện đối tượng : Đây là quá trình xác định và định vị các đối tượng trong một hình ảnh. Nó có thể được sử dụng trong các ứng dụng như giám sát hoặc xe tự lái.
  • Chú thích hình ảnh : Nhiệm vụ này liên quan đến việc tạo văn bản mô tả cho hình ảnh. Nó làm cho nội dung trực quan dễ tiếp cận và dễ hiểu hơn.
  • Nhận dạng ký tự quang học : Công nghệ này chuyển đổi văn bản tìm thấy trong hình ảnh thành văn bản có thể chỉnh sửa và đọc được bằng máy. Công nghệ này hữu ích cho việc số hóa tài liệu và tự động nhập dữ liệu.

Đánh giá chuẩn và so sánh Google Gemini 2.5 với các mô hình khác

Có một số mô hình đa phương thức có sẵn trong không gian AI ngày nay, vì vậy điều quan trọng là phải hiểu Gemini 2.5 Pro so sánh với chúng như thế nào. Dựa trên kết quả đánh giá chuẩn được chia sẻ bởi Google Gemini 2.5 Pro của DeepMind cho thấy hiệu suất ấn tượng trong nhiều tác vụ. 

Ví dụ, trong bài kiểm tra có tên Humanity's Last Exam, mô phỏng một bài kiểm tra đầy thử thách bao gồm nhiều môn học và kiểm tra khả năng lý luận nâng cao cũng như kiến thức chung, Gemini 2.5 Pro đạt khoảng 18,8%, vượt trội hơn các mô hình như o3-mini của OpenAI, đạt khoảng 14%. 

Hình 2. Tổng quan về hiệu suất chuẩn của Gemini 2.5 Pro.

Nó cũng hoạt động rất tốt trong các thử thách toán học và mã hóa, thường ngang bằng hoặc vượt trội hơn hiệu suất của các mô hình như OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta và DeepSeek R1, chứng minh khả năng xử lý các tác vụ phức tạp và lượng dữ liệu lớn.

Thực hành với Gemini 2.5: Cách sử dụng Google API Song Tử

Gemini 2.5 Pro có sẵn trên nhiều nền tảng. Bạn có thể thử nghiệm nó trong Google AI Studio và truy cập thông qua ứng dụng Gemini dành cho người dùng Gemini Advanced. Trong thông báo ra mắt, Google DeepMind cũng đề cập rằng mô hình sẽ sớm được hỗ trợ trên Vertex AI. Các điểm truy cập này giúp các nhà phát triển dễ dàng sử dụng Gemini 2.5 Pro cho các ứng dụng AI trong thế giới thực. 

Tuy nhiên, nếu bạn muốn sử dụng Google Gemini API và bắt đầu chỉ trong vài phút mà không cần thiết lập phức tạp và muốn hiểu rõ hơn về khả năng thị giác máy tính của nó, bạn có thể xem sổ tay Ultralytics giới thiệu các tác vụ như phát hiện đối tượng và chú thích hình ảnh bằng Gemini 2.5 Pro. Hãy cùng xem xét chi tiết những gì bạn có thể mong đợi trong sổ tay này.

Thiết lập suy luận với Google Sổ tay Gemini 2.5

Để bắt đầu với Ultralytics sổ tay và sử dụng Google Gemini 2.5, trước tiên bạn cần tạo khóa API thông qua Google AI Studio . Khóa này cho phép bạn truy cập vào Gemini API để bạn có thể sử dụng mô hình.

Sau khi có khóa API, hãy đảm bảo môi trường của bạn đã cài đặt các thư viện cần thiết - bao gồm các gói từ Ultralytics và Google Bộ công cụ AI của. Bước này được nêu rõ trong sổ tay, do đó bạn có thể dễ dàng làm theo hướng dẫn để thiết lập không gian làm việc của mình.

Với mọi thứ đã được cấu hình, bạn có thể kết nối với Gemini API bằng cách nhập khóa API của mình (như hiển thị bên dưới), tạo liên kết giữa không gian làm việc và mô hình của bạn. Sau đó, bạn sẽ sẵn sàng gửi hình ảnh và lời nhắc văn bản đến Gemini 2.5.

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

Về cơ bản, bạn có thể cung cấp một hình ảnh và một hướng dẫn đơn giản (như "phát hiện các đối tượng trong hình ảnh này" hoặc "mô tả những gì bạn nhìn thấy") cho mô hình và nó sẽ trả về kết quả bạn cần. Quy trình đơn giản này giúp bạn dễ dàng bắt đầu khám phá các khả năng thị giác máy tính của Gemini 2.5.

Phát hiện đối tượng với Google Song Tử 2.5

Một trong những ví dụ chính trong sổ tay là phát hiện đối tượng bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và lời nhắc đơn giản để phát hiện đối tượng. 

Mô hình xử lý hình ảnh và trả về một tập hợp các tọa độ và nhãn cho mỗi đối tượng mà nó tìm thấy; các tọa độ này được đưa ra ở dạng chuẩn hóa. Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các giá trị chuẩn hóa này để khớp với kích thước thực tế của hình ảnh và vẽ các hộp giới hạn rõ ràng xung quanh mỗi đối tượng, như được hiển thị bên dưới.

Hình 3. Sử dụng Google Gemini 2.5 để phát hiện vật thể.

Chú thích hình ảnh bằng Gemini 2.5

Một ví dụ thú vị khác trong sổ tay là chú thích hình ảnh bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và lời nhắc yêu cầu mô hình tạo chú thích chi tiết mô tả nội dung trong hình ảnh. 

Sau đó, mô hình phân tích nội dung trực quan và trả về một câu chuyện, thường được định dạng thành nhiều câu, nắm bắt cả nội dung và bối cảnh của hình ảnh. Tính năng này hữu ích để cải thiện khả năng truy cập, tóm tắt thông tin trực quan và thậm chí nâng cao khả năng kể chuyện sáng tạo.

Nâng cao độ chính xác của OCR với Google Mô hình Song Tử

Một tác vụ thị giác máy tính sử dụng khả năng đọc văn bản trong hình ảnh của Gemini 2.5 Pro là OCR. Trong sổ tay, bạn có thể cung cấp cho mô hình một hình ảnh có chứa văn bản cùng với lời nhắc trích xuất văn bản đó. Mô hình xử lý hình ảnh và trả về cả văn bản được phát hiện và tọa độ nơi văn bản được đặt, như được hiển thị bên dưới.

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

Các chức năng từ Ultralytics Python gói sau đó được sử dụng để chuyển đổi các tọa độ chuẩn hóa này thành các kích thước thực tế của hình ảnh và vẽ các hộp giới hạn xung quanh các vùng văn bản. Đầu ra có chú thích này làm rõ vị trí của văn bản, hữu ích cho việc số hóa tài liệu, tự động hóa nhập dữ liệu và cải thiện khả năng truy cập.

Hình 4. Trích xuất dữ liệu văn bản trong hình ảnh bằng cách sử dụng Google Song Tử 2.5.

Ứng dụng thực tế của Google Song Tử 2.5

Bây giờ chúng ta đã đi qua cách Google Gemini 2.5 Pro có thể được sử dụng cho nhiều tác vụ thị giác máy tính khác nhau, chúng ta hãy cùng khám phá một số ứng dụng thực tế có thể sử dụng những khả năng này.

Ví dụ, khả năng phát hiện đối tượng của Gemini 2.5 Pro có thể giúp tự động dán nhãn và sắp xếp các tập hợp hình ảnh lớn, giúp các tác vụ như tạo tập dữ liệu hoặc quản lý nội dung nhanh hơn nhiều. Nó cũng có thể được sử dụng để phân tích hình ảnh trong các lĩnh vực như bán lẻ và nông nghiệp - ví dụ, phát hiện sản phẩm trên kệ hoặc xác định dấu hiệu căng thẳng của cây trồng trong ảnh trang trại.

Hình 5. Gemini 2.5 Pro đang phân tích sức khỏe của cây.

Trong khi đó, tính năng chú thích hình ảnh của mô hình có thể giúp người dùng khiếm thị hiểu được những gì có trong hình ảnh. Ví dụ, nếu bạn có ảnh chụp một con phố đông đúc, mô hình có thể tạo chú thích mô tả chi tiết cảnh đó, đề cập đến các loại phương tiện, hoạt động của người đi bộ và thậm chí cả thời gian trong ngày dựa trên tín hiệu đèn. 

Ngoài ra, chức năng OCR của Gemini 2.5 có thể được sử dụng trong nhiều ứng dụng khác nhau. Ví dụ, bạn có thể số hóa các tài liệu đã in bằng cách quét các trang hoặc biên lai. Khả năng này lý tưởng để tự động hóa các tác vụ nhập dữ liệu, xử lý biểu mẫu hoặc thậm chí đọc văn bản từ danh thiếp và biển báo. 

Tổng thể, Google Gemini 2.5 Pro mở ra cánh cửa cho nhiều ứng dụng AI thực tế.

Những điểm chính

Vượt ra ngoài việc tạo ra và phân tích văn bản, Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính như phát hiện đối tượng, chú thích hình ảnh và OCR. Với cửa sổ ngữ cảnh lớn và khả năng suy luận nâng cao, nó tạo ra các kết quả chi tiết, nhận biết ngữ cảnh hoạt động tốt trong các tình huống thực tế. 

Khi các mô hình AI tiếp tục phát triển, các công cụ như Gemini 2.5 Pro giúp giải quyết các vấn đề phức tạp trong nhiều ngành dễ dàng hơn. Có khả năng chúng ta sẽ thấy AI được áp dụng rộng rãi hơn nữa khi nhiều tổ chức tìm kiếm các giải pháp linh hoạt, đa phương thức có thể xử lý nhiều tác vụ, từ hiểu trực quan đến xử lý ngôn ngữ.

Hãy trở thành một phần trong cộng đồng của chúng tôi và tìm hiểu về các dự án AI tiên tiến trên kho lưu trữ GitHub của chúng tôi. Xem các ứng dụng của Vision AI trong nông nghiệp và vai trò của AI trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các kế hoạch cấp phép của chúng tôi và xây dựng các giải pháp thị giác máy tính ngay hôm nay!

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning