Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

xAI Ra mắt Grok 2.0 với Tích hợp FLUX.1

Tìm hiểu về Grok 2.0 từ xAI của Elon Musk và sự tích hợp của nó với FLUX.1. Khám phá các chi tiết như tính năng, điểm chuẩn, so sánh mô hình và cách dùng thử.

Vào ngày 14 tháng 8, công ty AI của Elon Musk, xAI, đã công bố phát hành Grok 2.0, một chatbot được tích hợp với FLUX.1, một mô hình tạo hình ảnh của Black Forest Labs, trên X (trước đây là Twitter). FLUX.1 là một mô hình tiên tiến có khả năng tạo ra hình ảnh cực kỳ chân thực , bao gồm cả những hình ảnh có thể được coi là nhạy cảm hoặc có khả năng gây hiểu lầm.

Không giống như nhiều trình tạo hình ảnh phổ biến chặn hoặc lọc một số loại nội dung nhất định, chẳng hạn như hình ảnh bạo lực, khiêu dâm hoặc lừa dối, FLUX.1 có ít hạn chế hơn. Một số người coi đây là chiến thắng cho quyền tự do ngôn luận, trong khi những người khác lại ấn tượng với khả năng tiên tiến của nó. Tuy nhiên, cũng có những lo ngại về những tác động về mặt đạo đức và khả năng sử dụng sai mục đích của công nghệ mạnh mẽ như vậy. Hãy cùng tìm hiểu sâu hơn và khám phá những gì Grok 2.0 mang lại, điều gì làm cho FLUX.1 nổi bật và cách bạn có thể tự mình thử những công cụ sáng tạo này.

Tìm hiểu về FLUX.1: Trình tạo hình ảnh AI

FLUX.1 là trình tạo hình ảnh AI mã nguồn mở tiên tiến được Black Forest Labs ra mắt vào ngày 1 tháng 8 năm 2024. Black Forest Labs là một công ty khởi nghiệp được thành lập bởi cựu Stability AI các kỹ sư nổi tiếng với công trình của họ về các mô hình Stable Diffusion được sử dụng rộng rãi. FLUX.1 được thiết kế để cạnh tranh trực tiếp với các đối thủ đã thành danh như MidJourney và DALL-E 3 và mang đến một cấp độ mới về chất lượng và tính linh hoạt cho hình ảnh do AI tạo ra. Ví dụ, FLUX.1 thực hiện rất tốt việc xử lý các chi tiết phức tạp mà nhiều mô hình gặp khó khăn, như tạo ra bàn tay người trông giống thật hoặc văn bản dễ đọc trên biển báo.

Black Forest Labs cung cấp ba biến thể khác nhau của FLUX.1 có thể được sử dụng cho các ứng dụng khác nhau. Sau đây là cái nhìn sâu hơn về các biến thể:

  • FLUX.1 [pro] : Mẫu sản phẩm chủ lực dành cho mục đích thương mại và được thiết kế để mang lại chất lượng đầu ra cao nhất.
  • FLUX.1 [dev] : Phiên bản open-weight có thể sử dụng cho mục đích phi thương mại. Phiên bản này lý tưởng cho mục đích nghiên cứu và phát triển.
  • FLUX.1 [schnell] : Một mô hình được tối ưu hóa tốc độ theo giấy phép Apache 2.0, hoàn hảo cho các dự án cá nhân và phát triển cục bộ khi cần tạo hình ảnh nhanh chóng.
Hình 1. Hiểu các biến thể của FLUX.1

FLUX.1 hoạt động như thế nào?

FLUX.1 sử dụng kiến trúc mô hình lai kết hợp các kỹ thuật biến đổi và khuếch tán với kích thước mô hình là 12 tỷ tham số (các phần có thể điều chỉnh của mạng nơ-ron giúp nó học từ dữ liệu). Biến đổi là một loại mạng nơ-ron có thể hiểu các chuỗi như văn bản và hình ảnh bằng cách nhận dạng các mẫu và mối quan hệ trong dữ liệu. Các mô hình khuếch tán hoạt động bằng cách bắt đầu với nhiễu ngẫu nhiên và tinh chỉnh từng bước cho đến khi hình thành được hình ảnh rõ nét. Bằng cách kết hợp hai phương pháp này, FLUX.1 có thể sử dụng điểm mạnh của cả hai kiến trúc để tạo ra hình ảnh chất lượng cao phù hợp với các lời nhắc văn bản được đưa ra. 

FLUX.1 cũng sử dụng các kỹ thuật tiên tiến như nhúng vị trí quay và khớp luồng. Nhúng vị trí quay giúp mô hình hiểu thứ tự và vị trí của các thành phần trong văn bản và hình ảnh để đảm bảo rằng mọi thứ đều có ý nghĩa với nhau. Khớp luồng là một kỹ thuật được sử dụng trong các mô hình tạo ra để làm cho quá trình tạo hình ảnh từ nhiễu ngẫu nhiên mượt mà hơn và hiệu quả hơn.

Đánh giá chuẩn FLUX.1

Khi so sánh FLUX.1 với các mô hình phổ biến khác như MidJourney v6.0, DALL·E 3 (HD) và SD3-Ultra, FLUX.1 thiết lập một chuẩn mực mới trong việc tạo hình ảnh AI. Nó vượt trội ở các lĩnh vực chính như chất lượng hình ảnh, mức độ tuân thủ lời nhắc, nhiều đầu ra và hỗ trợ nhiều kích thước và tỷ lệ khung hình khác nhau. Các mô hình FLUX.1 [pro] và [dev] nổi bật vì tạo ra hình ảnh chất lượng cao, gần giống với mong muốn của người dùng và các mô hình này thường vượt trội hơn các mô hình khác trong việc cung cấp kết quả rõ ràng và chính xác. Mặt khác, FLUX.1 [schnell] là một trong những mô hình tiên tiến nhất để tạo hình ảnh nhanh và hoạt động tốt hơn các mô hình phức tạp hơn như MidJourney.

Hình 2. So sánh Midjourney v6 và FLUX.1[pro]

Grok 2.0: Thông tin mới nhất từ xAI của Elon Musk

Grok 2.0 là mô hình ngôn ngữ lớn mới nhất do công ty AI của Elon Musk, xAI, phát triển. Được phát hành vào tháng 8 năm 2024, Grok 2.0 có sẵn cho người dùng X Premium và Premium+ trên nền tảng X (trước đây là Twitter). Ngoài ra, nó sẽ sớm có sẵn cho các nhà phát triển và doanh nghiệp thông qua API doanh nghiệp.

Hình 3. Một ví dụ về Grok 2.0 giải thích về một meme.

Grok 2.0 được xây dựng trên kiến trúc máy biến áp và so với phiên bản cũ hơn là Grok 1.5, nó phù hợp hơn với việc làm theo hướng dẫn, lý luận thông qua các vấn đề và cung cấp thông tin chính xác. Chatbot đã được thử nghiệm với các mô hình AI hàng đầu khác và đã cho thấy kết quả ấn tượng. Grok 2.0 vượt trội hơn các mô hình phổ biến như GPT-4 Turbo, Claude 3.5 Sonnet và Llama 3 405B về điểm chuẩn liên quan đến các câu hỏi khoa học cấp độ sau đại học, kiến thức chung và các bài toán phức tạp. Grok 2.0 cũng giỏi trong các nhiệm vụ đòi hỏi sự hiểu biết trực quan và đã đạt điểm cao trong lý luận toán học trực quan và trả lời câu hỏi dựa trên tài liệu.

Sự kết nối giữa Grok 2.0 và FLUX.1

FLUX.1 đã được tích hợp vào Grok 2.0 để cung cấp sự kết hợp liền mạch giữa việc tạo văn bản và hình ảnh. Mặc dù việc kết hợp các công nghệ khác nhau là phổ biến hiện nay để cải thiện chức năng và trải nghiệm của người dùng, nhưng sự tích hợp cụ thể này đã nhận được rất nhiều sự chú ý. 

Một mặt, tích hợp FLUX.1 đã được một số người khen ngợi vì đã thêm yếu tố "vui nhộn" vào Grok 2.0. Người dùng có thể thử nghiệm tạo ra những hình ảnh sáng tạo và đôi khi là táo bạo - những thứ sẽ bị hạn chế hoặc kiểm duyệt chặt chẽ bởi các công cụ AI khác. Ví dụ, người dùng đã chia sẻ hình ảnh trên X mô tả những nhân vật của công chúng trong những tình huống không phù hợp hoặc gây tranh cãi, tuyên bố rằng nó ủng hộ khái niệm tự do ngôn luận.

Mặt khác, những người chỉ trích cho rằng việc FLUX.1 thiếu các hướng dẫn đạo đức rõ ràng có thể dẫn đến các vấn đề đạo đức và xã hội nghiêm trọng như thông tin sai lệch và deepfake. Một số người lo ngại rằng việc kết hợp việc tạo văn bản và hình ảnh mạnh mẽ, không bị kiểm duyệt trên một trong những nền tảng truyền thông xã hội có ảnh hưởng nhất có thể làm gia tăng sự lan truyền của thông tin sai lệch.

Grok 2.0 và cách tiếp cận không hạn chế của nó

Không chỉ là về việc tạo hình ảnh. Bản thân Grok 2.0 bị hạn chế hơn các công cụ AI khác mà chúng ta mới quen thuộc gần đây, như ChatGPT . Việc thiếu sự điều độ này khiến mô hình có thể vượt qua ranh giới theo cách mà một số người thấy thú vị nhưng một số khác lại thấy khó chịu.

Ví dụ, Grok 2.0 đã được quan sát thấy tạo ra nội dung văn bản có thể dễ dàng được hiểu là tin tức sai lệch hoặc gây hiểu lầm. Một sự cố gần đây liên quan đến Grok 2.0 tạo ra một câu chuyện sai lệch về cầu thủ NBA Klay Thompson được cho là đang "phá hoại gạch". Trò chuyện AI đã hiểu sai thuật ngữ bóng rổ "ném gạch", chỉ đơn giản là ám chỉ những cú đánh trượt. Thay vào đó, Grok 2.0 hiểu theo nghĩa đen và bịa ra một câu chuyện về Thompson thực hiện hành vi phá hoại bằng gạch thật. Bài đăng nhanh chóng thu hút sự chú ý trên X, với một số người dùng thậm chí còn thêm tài khoản nạn nhân giả để tiếp tay cho thông tin sai lệch.

Hình 4. Bài đăng trên X được viết bởi Grok 2.

Bất chấp những lo ngại này, một số người dùng đánh giá cao lập trường "tự do ngôn luận" của Grok 2.0. Họ cho rằng nó cho phép các cuộc trò chuyện cởi mở hơn và tự do sáng tạo hơn so với các mô hình AI được kiểm duyệt chặt chẽ. Họ coi Grok 2.0 là một sự phản đối đối với những gì họ coi là quá thận trọng, AI "thức tỉnh" hạn chế thảo luận về các chủ đề nhạy cảm. Đối với những người dùng này, Grok 2.0 cung cấp một nền tảng ít bị ràng buộc bởi các chuẩn mực xã hội.

Hãy tự mình thử FLUX.1 và Grok 2.0

Có một số tùy chọn khác nhau liên quan đến việc dùng thử FLUX.1 và Grok 2.0. FLUX.1 có thể được truy cập trực tiếp thông qua các nền tảng AI như Hugging Face , Replicate và Fal.ai. Trong khi đó, Grok 2.0 chỉ dành cho người đăng ký X Premium và Premium+.

Những điểm chính

FLUX.1 và Grok 2.0 đang mở rộng ranh giới của AI và khơi dậy những cuộc trò chuyện sâu sắc. FLUX.1 đã thiết lập một tiêu chuẩn mới về hình ảnh do AI tạo ra với khả năng tạo ra những bức ảnh có độ chi tiết cao và chân thực. Grok 2.0 đang sử dụng FLUX.1 để nâng cao khả năng của mình vượt ra ngoài các tương tác chỉ dựa trên văn bản. Một mặt, những người đam mê rất vui mừng với sự tự do sáng tạo và khám phá không bị kiểm duyệt mà các công cụ này mang lại. Mặt khác, những người chỉ trích đang gióng lên hồi chuông cảnh báo về rủi ro của thông tin sai lệch, deepfake và những tác động về mặt đạo đức của những khả năng không được kiểm soát như vậy trên một nền tảng có sức ảnh hưởng như X. Khi FLUX.1 và Grok 2.0 phát triển, chúng trở thành trung tâm của một cuộc tranh luận về sự tự do, sáng tạo và trách nhiệm trong thời đại kỹ thuật số - một cuộc tranh luận có khả năng sẽ định hình tương lai của AI trong nhiều năm tới.

Để tìm hiểu thêm về Ultralytics , hãy xem kho lưu trữ GitHub của chúng tôi, tham gia cộng đồng của chúng tôi và khám phá các giải pháp AI mới nhất của chúng tôi trong các ngành như chăm sóc sức khỏesản xuất ! 🚀

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning