X
Ultralytics YOLOv8.2 Phát hànhUltralytics YOLOv8.2 Phát hành di độngUltralytics YOLOv8.2 Mũi tên thả
Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Tìm hiểu sâu về khả năng của OpenAI GPT-4o Mini

Khám phá các tính năng và ứng dụng của GPT-4o Mini. Mô hình mới nhất, tiết kiệm chi phí nhất của OpenAI cung cấp khả năng AI tiên tiến với giá rẻ hơn 60% so với GPT-3.5 Turbo.

Vào tháng 5 năm 2024, OpenAI đã phát hành GPT-4o và bây giờ, chỉ ba tháng sau, họ đã trở lại với một mô hình ấn tượng khác: GPT-4o Mini. Vào ngày 18 tháng 7 năm 2024, OpenAI đã giới thiệu GPT-4o Mini. Họ gọi đó là "mô hình tiết kiệm chi phí nhất" của họ! GPT-4o Mini là một mô hình nhỏ gọn được xây dựng dựa trên khả năng của các mô hình trước đó và nhằm mục đích làm cho AI tiên tiến dễ tiếp cận hơn và giá cả phải chăng hơn.

GPT-4o Mini hiện hỗ trợ tương tác văn bản và tầm nhìn, với các bản cập nhật trong tương lai dự kiến sẽ bổ sung khả năng xử lý hình ảnh, video và âm thanh. Trong bài viết này, chúng ta sẽ khám phá GPT-4o Mini là gì, các tính năng nổi bật của nó, cách sử dụng, sự khác biệt giữa GPT-4 và GPT-4o Mini và cách nó có thể được sử dụng trong các trường hợp sử dụng thị giác máy tính khác nhau. Hãy đi sâu vào và xem những gì GPT-4o Mini cung cấp!

GPT-4o Mini là gì?

GPT-4o Mini là sự bổ sung mới nhất cho dòng sản phẩm mô hình AI của OpenAI, được thiết kế để tiết kiệm chi phí và dễ tiếp cận hơn. Đó là một mô hình ngôn ngữ lớn đa phương thức (LLM), có nghĩa là nó có thể xử lý và tạo ra các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh, video và âm thanh. Mô hình được xây dựng dựa trên thế mạnh của các mô hình trước đó như GPT-4 và GPT-4o để cung cấp các khả năng mạnh mẽ trong một gói nhỏ gọn. 

GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo, có giá 15 xu trên một triệu mã thông báo đầu vào (đơn vị văn bản hoặc dữ liệu mà mô hình xử lý) và 60 xu trên một triệu mã thông báo đầu ra (đơn vị mà mô hình tạo ra để đáp ứng). Để đưa điều đó vào viễn cảnh, một triệu mã thông báo tương đương với việc xử lý 2.500 trang văn bản. Với cửa sổ ngữ cảnh gồm 128K mã thông báo và khả năng xử lý mã thông báo đầu ra lên đến 16K cho mỗi yêu cầu, GPT-4o Mini được thiết kế để vừa hiệu quả vừa có giá cả phải chăng.

Hình 1. GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo.

Các tính năng chính của GPT-4o Mini 

GPT-4o Mini hỗ trợ một loạt các tác vụ làm cho nó trở thành một lựa chọn tuyệt vời cho các ứng dụng khác nhau. Nó có thể được sử dụng khi chạy một số hoạt động cùng một lúc, chẳng hạn như gọi nhiều API, xử lý một lượng lớn dữ liệu như cơ sở mã đầy đủ hoặc lịch sử hội thoại và cung cấp phản hồi nhanh, thời gian thực trong chatbot hỗ trợ khách hàng.

Dưới đây là một số tính năng chính khác:

  • Cập nhật cơ sở kiến thức: Mô hình chứa thông tin đến tháng 10/2023.
  • Cải thiện Tokenizer: GPT-4o Mini làm cho việc xử lý khôngEnglish văn bản tiết kiệm chi phí hơn.
  • Các biện pháp an toàn mạnh mẽ: Các biện pháp này bao gồm lọc nội dung độc hại và bảo vệ chống lại các vấn đề bảo mật như tiêm nhanh và thao tác hệ thống.

Bắt đầu với GPT-4o Mini 

Bạn có thể thử sử dụng GPT-4o Mini thông qua ChatGPT giao diện. Người dùng Miễn phí, Plus và Nhóm có thể truy cập được, thay thế GPT-3.5 như hình dưới đây. Người dùng doanh nghiệp cũng sẽ sớm có quyền truy cập, phù hợp với mục tiêu của OpenAI là cung cấp lợi ích AI cho tất cả mọi người. GPT-4o Mini cũng có sẵn thông qua API cho các nhà phát triển muốn tích hợp khả năng của nó vào các ứng dụng của họ. Hiện tại, khả năng tầm nhìn chỉ có thể truy cập được thông qua API.

Hình 2. Tùy chọn mô hình trong ChatGPT.

Sự khác biệt giữa GPT-4o và GPT-4o Mini 

GPT-4o Mini và GPT-4o đều hoạt động ấn tượng trên các điểm chuẩn khác nhau. Trong khi GPT-4o thường vượt trội hơn GPT-4o Mini, GPT-4o Mini vẫn là một giải pháp hiệu quả về chi phí cho các công việc hàng ngày. Các điểm chuẩn bao gồm các nhiệm vụ lý luận, toán học và trình độ mã hóa, và lý luận đa phương thức. Như thể hiện trong hình dưới đây, điểm chuẩn GPT-4o Mini khá cao khi so sánh với các mẫu phổ biến khác.

Hình 3. So sánh GPT-4o Mini với các mô hình phổ biến khác.

Thực hành với GPT-4o và GPT-4o Mini

Một lời nhắc thú vị đã được tranh luận trực tuyến liên quan đến các LLM phổ biến so sánh số thập phân không chính xác. Khi chúng tôi đưa GPT-4o và GPT-4o Mini vào thử nghiệm, khả năng suy luận của chúng cho thấy sự khác biệt rõ ràng. Trong hình ảnh dưới đây, chúng tôi đã hỏi cả hai mô hình nào lớn hơn: 9.11 hoặc 9.9, và sau đó yêu cầu họ giải thích lý do của họ.

Hình 4. Thử nghiệm GPT-4o và GPT-4o Mini.

Cả hai mô hình ban đầu trả lời không chính xác và tuyên bố rằng 9.11 là lớn hơn. Tuy nhiên, GPT-4o có thể lý luận theo cách của mình để trả lời đúng và nói rằng 9.9 là lớn hơn. Nó cung cấp một lời giải thích chi tiết và so sánh các số thập phân một cách chính xác. Ngược lại, GPT-4o Mini ngoan cố duy trì câu trả lời sai ban đầu mặc dù đã tìm ra lý do đằng sau 9.9 là chính xác hơn.

Cả hai mô hình đều cho thấy kỹ năng suy luận mạnh mẽ. Khả năng tự điều chỉnh của GPT-4o làm cho nó vượt trội và hữu ích cho các nhiệm vụ phức tạp hơn. GPT-4o Mini, mặc dù ít thích ứng hơn, vẫn cung cấp lý do rõ ràng và chính xác cho các nhiệm vụ đơn giản hơn. 

Sử dụng GPT-4o Mini cho các trường hợp sử dụng thị giác máy tính khác nhau

Nếu bạn muốn khám phá khả năng tầm nhìn của GPT-4o Mini mà không cần đi sâu vào mã, bạn có thể dễ dàng kiểm tra API trên OpenAI Playground. Chúng tôi đã tự mình thử để xem GPT-4o Mini có thể xử lý các trường hợp sử dụng liên quan đến thị giác máy tính khác nhau tốt như thế nào.

Phân loại hình ảnh bằng GPT-4o Mini

Chúng tôi đã yêu cầu GPT-4o Mini phân loại hai hình ảnh: một của một con bướm và một của một bản đồ. Mô hình AI đã xác định thành công con bướm và bản đồ. Đây là một nhiệm vụ khá đơn giản vì hình ảnh rất khác nhau.

Hình 5. Phân loại hình ảnh với sự trợ giúp của GPT-4o Mini.

Chúng tôi tiếp tục và chạy thêm hai hình ảnh nữa thông qua mô hình: một cho thấy một con bướm đang nghỉ ngơi trên cây và một hình khác cho thấy một con bướm đang nghỉ ngơi trên mặt đất. AI đã làm một công việc tuyệt vời một lần nữa, phát hiện chính xác con bướm trên cây và con trên mặt đất. Vì vậy, chúng tôi đã tiến thêm một bước nữa.

Hình 6. Phân loại hình ảnh tương tự với sự trợ giúp của GPT-4o Mini.

Sau đó, chúng tôi yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh cho thấy một con bướm ăn hoa của một bông hoa sữa đầm lầy và hình còn lại cho thấy một con bướm ăn một bông hoa Zinnia. Thật đáng kinh ngạc khi mô hình có thể phân loại một nhãn rất cụ thể mà không cần tinh chỉnh thêm. Những ví dụ nhanh này cho thấy GPT-4o Mini có thể được sử dụng cho các tác vụ phân loại hình ảnh mà không cần đào tạo tùy chỉnh.

Hình 7. Phân loại hình ảnh chi tiết với sự trợ giúp của GPT-4o Mini.

Hiểu tư thế sử dụng GPT-4o Mini

Hiện tại, các tác vụ thị giác máy tính như phát hiện đối tượngphân đoạn phiên bản không thể được xử lý bằng GPT-4o Mini. GPT-4o đấu tranh cho độ chính xác, nhưng có thể được sử dụng cho các nhiệm vụ như vậy. Theo những dòng này, liên quan đến việc hiểu các tư thế, chúng ta không thể phát hiện hoặc ước tính tư thế trong ảnh, nhưng chúng ta có thể phân loại và hiểu tư thế.

Hình 8. Sử dụng GPT-4o Mini để hiểu các tư thế trong ảnh. 

Hình ảnh trên cho thấy cách GPT-4o Mini có thể phân loại và hiểu các tư thế, mặc dù không thể phát hiện hoặc ước tính tọa độ chính xác của tư thế. Điều này có thể hữu ích trong các ứng dụng khác nhau. Ví dụ, trong phân tích thể thao, nó có thể đánh giá rộng rãi các chuyển động của vận động viên và giúp ngăn ngừa chấn thương. Tương tự, trong vật lý trị liệu, nó có thể hỗ trợ theo dõi các bài tập để đảm bảo các chuyển động chính xác được thực hiện bởi bệnh nhân trong quá trình phục hồi chức năng. Ngoài ra để giám sát, nó có thể giúp xác định các hoạt động đáng ngờ bằng cách phân tích ngôn ngữ cơ thể nói chung. Mặc dù GPT-4o Mini không thể phát hiện các điểm chính cụ thể, nhưng khả năng phân loại các tư thế chung của nó làm cho nó hữu ích trong các lĩnh vực này và các lĩnh vực khác.

Các ứng dụng GPT-4o Mini phù hợp với

Chúng tôi đã xem xét những gì GPT-4o Mini có thể làm. Bây giờ, hãy thảo luận về các ứng dụng tối ưu nhất để sử dụng GPT-4o Mini.

GPT-4o Mini rất phù hợp cho các ứng dụng yêu cầu hiểu ngôn ngữ tự nhiên nâng cao và cần một dấu chân tính toán nhỏ. Nó cho phép tích hợp AI vào các ứng dụng mà thông thường nó sẽ quá đắt. Trên thực tế, một phân tích chi tiết của Phân tích nhân tạo cho thấy GPT-4o Mini cung cấp phản hồi chất lượng cao với tốc độ cực nhanh so với hầu hết các mẫu khác.

Hình 9. Chất lượng so với tốc độ đầu ra của GPT-4o Mini.

Dưới đây là một số lĩnh vực chính mà nó có thể tỏa sáng trong tương lai:

  • Trợ lý ảo và Chatbot: GPT-4o Mini có thể cung cấp phản hồi nhanh chóng và thông minh để cải thiện tương tác của người dùng.
  • Công cụ giáo dục: Mô hình có thể được sử dụng để xây dựng các công cụ để cung cấp dịch vụ dạy kèm và tạo nội dung được cá nhân hóa.
  • Công cụ năng suất: Nó có thể cải thiện các nhiệm vụ như tóm tắt tài liệu, soạn thảo email và dịch ngôn ngữ để tăng hiệu quả.
  • Dịch thuật ngôn ngữ: Phiên bản mới nhất của GPT có thể được sử dụng để phát triển các dịch giả cung cấp bản dịch ngôn ngữ chính xác và thời gian thực để giao tiếp tốt hơn trên các ngôn ngữ khác nhau.

GPT-4o Mini mở ra cánh cửa mới

GPT-4o Mini đang tạo ra những cơ hội mới cho tương lai của AI đa phương thức. Chi phí xử lý từng đoạn văn bản hoặc dữ liệu, được gọi là chi phí cho mỗi mã thông báo, đã giảm đáng kể - gần 99% - kể từ năm 2022, khi text-davinci-003, mô hình GPT-3, được phát hành. Việc giảm chi phí cho thấy một xu hướng rõ ràng đối với việc làm cho AI tiên tiến có giá cả phải chăng hơn. Khi các mô hình AI tiếp tục được cải thiện, ngày càng có nhiều khả năng việc tích hợp AI vào mọi ứng dụng và trang web sẽ có hiệu quả kinh tế!

Bạn muốn thực hành với AI? Truy cập kho lưu trữ GitHub của chúng tôi để xem những đổi mới của chúng tôi và trở thành một phần của cộng đồng tích cực của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong sản xuấtnông nghiệp trên các trang giải pháp của chúng tôi.

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning