Khám phá GPT-4o mới của OpenAI, có AI tiên tiến với các tương tác giống như thật giúp thay đổi cách chúng ta giao tiếp với công nghệ. Khám phá các tính năng đột phá của nó!
Vào thứ Hai, ngày 13 tháng 5 năm 2024, OpenAI đã công bố ra mắt mẫu flagship mới của mình, GPT-4o, trong đó 'o' là viết tắt của 'omni'. GPT-4o là một mô hình AI đa phương thức tiên tiến cho các tương tác văn bản, âm thanh và thị giác thời gian thực, cung cấp khả năng xử lý nhanh hơn, hỗ trợ đa ngôn ngữ và tăng cường an toàn.
Nó mang đến những khả năng AI tạo ra chưa từng thấy trước đây. Xây dựng dựa trên thế mạnh đàm thoại của ChatGPT, các tính năng của GPT-4o đánh dấu một bước tiến đáng kể trong cách mọi người nhận thức về AI. Bây giờ chúng ta có thể nói chuyện với GPT-4o như thể đó là một người thật. Hãy đi sâu vào và xem chính xác những gì GPT-4o có khả năng!
Tại bản cập nhật mùa xuân của OpenAI, người ta đã tiết lộ rằng trong khi GPT-4o cũng thông minh như GPT-4, nó có thể xử lý dữ liệu nhanh hơn và được trang bị tốt hơn để xử lý văn bản, hình ảnh và âm thanh. Không giống như các bản phát hành trước tập trung vào việc làm cho các mô hình thông minh hơn, bản phát hành này đã được thực hiện để ghi nhớ sự cần thiết phải làm cho AI dễ sử dụng hơn bởi khán giả nói chung.
ChatGPTChế độ giọng nói của Voice, được phát hành vào cuối năm ngoái, liên quan đến ba mô hình khác nhau kết hợp với nhau để phiên âm đầu vào giọng nói, hiểu và tạo câu trả lời bằng văn bản và chuyển đổi văn bản thành giọng nói để người dùng có thể nghe thấy phản hồi. Chế độ này xử lý các vấn đề về độ trễ và không cảm thấy rất tự nhiên. GPT-4o có thể xử lý nguyên bản văn bản, tầm nhìn và âm thanh trong một lần để tạo cho người dùng ấn tượng rằng họ đang tham gia vào một cuộc trò chuyện tự nhiên.
Ngoài ra, không giống như trong chế độ giọng nói, giờ đây bạn có thể làm gián đoạn GPT-4o trong khi nó đang nói chuyện và nó sẽ phản ứng giống như một người. Nó sẽ tạm dừng và lắng nghe, sau đó đưa ra phản hồi theo thời gian thực dựa trên những gì bạn nói. Nó cũng có thể thể hiện cảm xúc thông qua giọng nói của nó và hiểu giọng điệu của bạn.
Đánh giá mô hình của GPT-4o cho thấy nó tiên tiến như thế nào. Một trong những kết quả thú vị nhất được tìm thấy là GPT-4o cải thiện đáng kể khả năng nhận dạng giọng nói so với Whisper-v3 trong tất cả các ngôn ngữ, đặc biệt là những ngôn ngữ ít được sử dụng hơn.
Hiệu suất ASR âm thanh (Nhận dạng giọng nói tự động) đo lường mức độ chính xác của mô hình phiên âm ngôn ngữ nói thành văn bản. Hiệu suất của GPT-4o được theo dõi bởi Tỷ lệ lỗi từ (WER), cho thấy tỷ lệ phần trăm các từ được phiên âm không chính xác (WER thấp hơn có nghĩa là chất lượng tốt hơn). Biểu đồ dưới đây cho thấy WER thấp hơn của GPT-4o trên các khu vực khác nhau, chứng minh hiệu quả của nó trong việc cải thiện nhận dạng giọng nói cho các ngôn ngữ có nguồn lực thấp hơn.
Dưới đây là một số tính năng độc đáo của GPT-4o:
Bây giờ bạn có thể rút GPT-4o trên điện thoại, bật máy ảnh và yêu cầu GPT-4o, giống như bạn làm với một người bạn, để đoán tâm trạng của bạn dựa trên nét mặt của bạn. GPT-4o có thể xem bạn qua máy ảnh và trả lời.
Bạn thậm chí có thể sử dụng nó để giúp bạn giải quyết các vấn đề toán học bằng cách hiển thị GPT-4o những gì bạn đang viết qua video. Ngoài ra, bạn có thể chia sẻ màn hình của mình và nó có thể trở thành một gia sư hữu ích trên Khan Academy, yêu cầu bạn chỉ ra các phần khác nhau của một hình tam giác trong hình học, như hình dưới đây.
Ngoài việc giúp trẻ em làm toán, các nhà phát triển có thể trò chuyện với GPT-4o để gỡ lỗi mã của chúng. Điều này có thể thực hiện được nhờ sự ra đời của ChatGPT dưới dạng ứng dụng dành cho máy tính để bàn. Nếu bạn đánh dấu và sao chép mã của mình bằng CTRL "C" trong khi nói chuyện với ứng dụng thoại GPT-4o trên máy tính để bàn, nó sẽ có thể đọc mã của bạn. Hoặc, bạn có thể sử dụng nó để dịch các cuộc hội thoại giữa các nhà phát triển nói các ngôn ngữ khác nhau.
Khả năng với GPt-4o dường như vô tận. Một trong những bản demo thú vị nhất từ OpenAI đã sử dụng hai điện thoại để hiển thị GPt-4o nói chuyện với các trường hợp khác nhau của chính nó và hát cùng nhau.
Như thể hiện trong một bản demo, GPT-4o có thể làm cho thế giới dễ tiếp cận hơn đối với những người khiếm thị. Nó có thể giúp họ tương tác và di chuyển xung quanh một cách an toàn và độc lập hơn. Ví dụ: người dùng có thể bật video của họ và hiển thị GPT-4o chế độ xem đường phố. GPT-4o sau đó có thể cung cấp các mô tả thời gian thực về môi trường, chẳng hạn như xác định chướng ngại vật, đọc biển báo đường phố hoặc hướng dẫn chúng đến một vị trí cụ thể. Nó thậm chí có thể giúp họ gọi taxi bằng cách cảnh báo họ khi taxi đang đến gần.
Tương tự, GPT-4o có thể biến đổi các ngành công nghiệp khác nhau với các khả năng tiên tiến của nó. Trong bán lẻ, nó có thể cải thiện dịch vụ khách hàng bằng cách cung cấp hỗ trợ thời gian thực, trả lời các truy vấn và giúp khách hàng tìm thấy sản phẩm cả trực tuyến và tại cửa hàng. Giả sử bạn đang xem kệ sản phẩm và không thể chọn ra sản phẩm bạn đang tìm kiếm, GPT-4o có thể giúp bạn.
Trong chăm sóc sức khỏe, GPT-4o có thể hỗ trợ chẩn đoán bằng cách phân tích dữ liệu bệnh nhân, đề xuất các điều kiện có thể dựa trên các triệu chứng và đưa ra hướng dẫn về các lựa chọn điều trị. Nó cũng có thể hỗ trợ các chuyên gia y tế bằng cách tóm tắt hồ sơ bệnh nhân, cung cấp quyền truy cập nhanh vào tài liệu y khoa và thậm chí cung cấp bản dịch ngôn ngữ thời gian thực để giao tiếp với bệnh nhân nói các ngôn ngữ khác nhau. Đây chỉ là một vài ví dụ. Các ứng dụng của GPT-4o làm cho cuộc sống hàng ngày dễ dàng hơn bằng cách cung cấp hỗ trợ phù hợp, nhận thức ngữ cảnh và phá vỡ các rào cản đối với thông tin và truyền thông.
Cũng giống như các phiên bản trước của GPT, đã ảnh hưởng đến hàng trăm triệu cuộc sống, GPT-4o có thể sẽ tương tác với âm thanh và video thời gian thực trên toàn cầu, làm cho an toàn trở thành một yếu tố quan trọng trong các ứng dụng này. OpenAI đã rất cẩn thận để xây dựng GPT-4o với trọng tâm là giảm thiểu rủi ro tiềm ẩn.
Để đảm bảo an toàn và độ tin cậy, OpenAI đã thực hiện các biện pháp an toàn nghiêm ngặt. Chúng bao gồm lọc dữ liệu đào tạo, tinh chỉnh hành vi của mô hình sau khi đào tạo và kết hợp các hệ thống an toàn mới để quản lý đầu ra giọng nói. Hơn nữa, GPT-4o đã được thử nghiệm rộng rãi bởi hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý học xã hội, thiên vị và công bằng, và thông tin sai lệch. Thử nghiệm bên ngoài đảm bảo rằng mọi rủi ro do các tính năng mới đưa ra hoặc khuếch đại đều được xác định và giải quyết.
Để duy trì các tiêu chuẩn an toàn cao, OpenAI sẽ phát hành các tính năng của GPT-4o dần dần trong vài tuần tới. Triển khai theo từng giai đoạn cho phép OpenAI giám sát hiệu suất, giải quyết mọi vấn đề và thu thập phản hồi của người dùng. Thực hiện một cách tiếp cận cẩn thận đảm bảo rằng GPT-4o cung cấp các khả năng tiên tiến trong khi vẫn duy trì các tiêu chuẩn cao nhất về an toàn và sử dụng đạo đức.
GPT-4o có sẵn để truy cập miễn phí. Để thử các khả năng trò chuyện thời gian thực được đề cập ở trên, bạn có thể tải xuống ChatGPT ứng dụng từ Google Play Store hoặc Apple App Store trực tiếp lên điện thoại của bạn.
Sau khi đăng nhập, bạn sẽ có thể chọn GPT-4o từ danh sách hiển thị bằng cách nhấn vào ba dấu chấm ở góc trên bên phải của màn hình. Sau khi điều hướng đến cuộc trò chuyện được bật bằng GPT-4o, nếu bạn nhấn vào dấu cộng ở góc dưới bên trái của màn hình, bạn sẽ thấy nhiều tùy chọn nhập. Ở góc dưới bên phải của màn hình, bạn sẽ thấy biểu tượng tai nghe. Khi chọn biểu tượng tai nghe, bạn sẽ được hỏi có muốn trải nghiệm phiên bản GPT-4o rảnh tay hay không. Sau khi đồng ý, bạn sẽ có thể dùng thử GPT-4o, như hình dưới đây.
Nếu bạn muốn tích hợp các khả năng nâng cao của GPT-4o vào các dự án của riêng mình, nó có sẵn dưới dạng API cho các nhà phát triển. Nó cho phép bạn kết hợp nhận dạng giọng nói mạnh mẽ của GPT-4o, hỗ trợ đa ngôn ngữ và khả năng đàm thoại thời gian thực vào các ứng dụng của bạn. Bằng cách sử dụng API, bạn có thể nâng cao trải nghiệm người dùng, xây dựng các ứng dụng thông minh hơn và đưa công nghệ AI tiên tiến vào các lĩnh vực khác nhau.
Mặc dù GPT-4o tiên tiến hơn nhiều so với các mô hình AI trước đây, nhưng điều quan trọng cần nhớ là GPT-4o đi kèm với những hạn chế riêng. OpenAI đã đề cập rằng đôi khi nó có thể chuyển đổi ngẫu nhiên ngôn ngữ trong khi nói chuyện, đi từ English sang tiếng Pháp. Họ cũng đã thấy GPT-4o dịch không chính xác giữa các ngôn ngữ. Khi nhiều người dùng thử mô hình, chúng tôi sẽ hiểu GPT-4o vượt trội ở đâu và nó cần cải thiện hơn nữa.
GPT-4o của OpenAI mở ra cánh cửa mới cho AI với khả năng xử lý văn bản, tầm nhìn và âm thanh tiên tiến, cung cấp các tương tác tự nhiên, giống như con người. Nó vượt trội về tốc độ, hiệu quả chi phí và hỗ trợ đa ngôn ngữ. GPT-4o là một công cụ linh hoạt cho giáo dục, khả năng tiếp cận và hỗ trợ thời gian thực. Khi người dùng khám phá khả năng của GPT-4o, phản hồi sẽ thúc đẩy sự phát triển của nó. GPT-4o chứng minh rằng AI đang thực sự thay đổi thế giới của chúng ta và trở thành một phần trong cuộc sống hàng ngày của chúng ta.
Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu sâu hơn về AI. Truy cập các trang giải pháp của chúng tôi để xem AI đang chuyển đổi các ngành công nghiệp như sản xuất và nông nghiệp như thế nào.
Bắt đầu hành trình của bạn với tương lai của machine learning