Tạo hình ảnh AI FLUX.1 trong Grok 2.0: Không kiểm duyệt?

Vào ngày 14 tháng 8, công ty AI của Elon Musk, xAI, đã công bố phát hành Grok 2.0, một chatbot được tích hợp với FLUX.1, một mô hình tạo ảnh của Black Forest Labs, trên X (trước đây là Twitter). FLUX.1 là một mô hình tiên tiến có khả năng tạo ra những hình ảnh rất chân thực, bao gồm cả những hình ảnh có thể bị coi là nhạy cảm hoặc có khả năng gây hiểu lầm.

Không giống như nhiều trình tạo hình ảnh phổ biến chặn hoặc lọc một số loại nội dung nhất định, chẳng hạn như hình ảnh bạo lực, khiêu dâm hoặc lừa đảo, FLUX.1 có ít hạn chế hơn. Một số người coi đây là một chiến thắng cho sự tự do ngôn luận, trong khi những người khác ấn tượng bởi các khả năng nâng cao của nó. Tuy nhiên, cũng có những lo ngại về ý nghĩa đạo đức và khả năng lạm dụng công nghệ mạnh mẽ như vậy. Hãy cùng đi sâu vào và khám phá những gì Grok 2.0 mang lại, điều gì khiến FLUX.1 trở nên nổi bật và cách bạn có thể tự mình dùng thử những công cụ sáng tạo này.

Tìm hiểu về FLUX.1: Một trình tạo ảnh AI

FLUX.1 là trình tạo hình ảnh AI nguồn mở tiên tiến được Black Forest Labs ra mắt vào ngày 1 tháng 8 năm 2024. Black Forest Labs là một công ty khởi nghiệp được thành lập bởi cựu Stability AI Các kỹ sư nổi tiếng với công trình nghiên cứu các mô hình Khuếch tán Ổn định (Stable Diffusion) được sử dụng rộng rãi. FLUX.1 được thiết kế để cạnh tranh trực tiếp với các đối thủ đã có tên tuổi như MidJourney và DALL-E 3, đồng thời mang đến một đẳng cấp mới về chất lượng và tính linh hoạt cho hình ảnh do AI tạo ra. Ví dụ, FLUX.1 xử lý rất tốt các chi tiết phức tạp mà nhiều mô hình khác gặp khó khăn, chẳng hạn như tạo ra bàn tay người trông chân thực hoặc văn bản dễ đọc trên biển báo.

Black Forest Labs cung cấp ba biến thể khác nhau của FLUX.1 có thể được sử dụng cho các ứng dụng khác nhau. Dưới đây là cái nhìn cận cảnh hơn về các biến thể:

FLUX.1 [pro]: Mô hình hàng đầu dành cho mục đích thương mại và được thiết kế để mang lại chất lượng đầu ra cao nhất.
‍
FLUX.1 [dev]: Một phiên bản mã nguồn mở, có sẵn để sử dụng phi thương mại. Nó lý tưởng cho nghiên cứu và phát triển.
‍
FLUX.1 [schnell]: Một mô hình được tối ưu hóa tốc độ theo giấy phép Apache 2.0, hoàn hảo cho các dự án cá nhân và phát triển cục bộ, nơi cần tạo hình ảnh nhanh chóng.

__wf_reserved_inherit — Hình 1. Tìm hiểu các biến thể của FLUX.1

‍

FLUX.1 hoạt động như thế nào?

FLUX.1 sử dụng kiến trúc mô hình kết hợp, kết hợp các kỹ thuật transformer và diffusion với kích thước mô hình là 12 tỷ tham số (các phần có thể điều chỉnh của mạng nơ-ron giúp nó học hỏi từ dữ liệu). Transformers là một loại mạng nơ-ron có thể hiểu các chuỗi như văn bản và hình ảnh bằng cách nhận ra các mẫu và mối quan hệ trong dữ liệu. Các mô hình diffusion hoạt động bằng cách bắt đầu với nhiễu ngẫu nhiên và tinh chỉnh nó từng bước cho đến khi hình thành một hình ảnh rõ ràng. Bằng cách kết hợp hai phương pháp này, FLUX.1 có thể sử dụng các điểm mạnh của cả hai kiến trúc để tạo ra hình ảnh chất lượng cao phù hợp với các lời nhắc bằng văn bản được đưa ra.

FLUX.1 cũng sử dụng các kỹ thuật tiên tiến như rotary positional embeddings và flow matching. Rotary positional embeddings giúp mô hình hiểu thứ tự và vị trí của các phần tử trong văn bản và hình ảnh để đảm bảo rằng mọi thứ đều có ý nghĩa với nhau. Flow matching là một kỹ thuật được sử dụng trong các mô hình tạo sinh để làm cho quá trình tạo hình ảnh từ nhiễu ngẫu nhiên trở nên mượt mà và hiệu quả hơn.

Đánh giá điểm chuẩn FLUX.1

Khi so sánh FLUX.1 với các mô hình phổ biến khác như MidJourney v6.0, DALL·E 3 (HD) và SD3-Ultra, FLUX.1 đặt ra một chuẩn mực mới trong tạo ảnh AI. Nó vượt trội trong các lĩnh vực chính như chất lượng hình ảnh, mức độ tuân thủ lời nhắc, sự đa dạng của đầu ra và hỗ trợ các kích thước và tỷ lệ khung hình khác nhau. Các mô hình FLUX.1 [pro] và [dev] nổi bật vì tạo ra hình ảnh chất lượng cao, phù hợp chặt chẽ với những gì người dùng muốn và các mô hình này thường vượt trội hơn các mô hình khác trong việc cung cấp kết quả rõ ràng và chính xác. Mặt khác, FLUX.1 [schnell] là một trong những mô hình tiên tiến nhất để tạo ảnh nhanh và hoạt động tốt hơn các mô hình phức tạp hơn như MidJourney.

‍

Grok 2.0: Phiên bản mới nhất từ xAI của Elon Musk

Grok 2.0 là mô hình ngôn ngữ lớn mới nhất được phát triển bởi công ty AI xAI của Elon Musk. Được phát hành vào tháng 8 năm 2024, Grok 2.0 dành cho người dùng X Premium và Premium+ trên nền tảng X (trước đây là Twitter). Ngoài ra, nó sẽ sớm có sẵn cho các nhà phát triển và doanh nghiệp thông qua API doanh nghiệp.

‍

Grok 2.0 được xây dựng trên kiến trúc transformer, và so với phiên bản cũ hơn, Grok 1.5, nó phù hợp hơn với việc tuân theo hướng dẫn, suy luận các vấn đề và cung cấp thông tin chính xác. Chatbot này đã được thử nghiệm so với các mô hình AI hàng đầu khác và cho thấy kết quả ấn tượng. Grok 2.0 vượt trội hơn các mô hình phổ biến như GPT-4 Turbo, Claude 3.5 Sonnet và Llama 3 405B về các tiêu chuẩn liên quan đến các câu hỏi khoa học cấp độ sau đại học, kiến thức chung và các bài toán toán học phức tạp. Grok 2.0 cũng giỏi các tác vụ đòi hỏi khả năng hiểu biết về hình ảnh và đã đạt được điểm số cao trong suy luận toán học trực quan và trả lời câu hỏi dựa trên tài liệu.

Mối liên hệ giữa Grok 2.0 và FLUX.1

FLUX.1 đã được tích hợp vào Grok 2.0 để cung cấp sự kết hợp liền mạch giữa tạo văn bản và hình ảnh. Mặc dù việc kết hợp các công nghệ khác nhau là phổ biến ngày nay để cải thiện chức năng và trải nghiệm người dùng, nhưng sự tích hợp cụ thể này đã nhận được rất nhiều sự chú ý.

Một mặt, việc tích hợp FLUX.1 đã được một số người ca ngợi vì đã thêm một yếu tố "vui nhộn" vào Grok 2.0. Người dùng có thể thử nghiệm tạo ra những hình ảnh sáng tạo và đôi khi táo bạo - những thứ sẽ bị hạn chế hoặc kiểm duyệt gắt gao bởi các công cụ AI khác. Ví dụ: người dùng đã chia sẻ hình ảnh trên X mô tả các nhân vật của công chúng trong các tình huống không phù hợp hoặc gây tranh cãi, cho rằng nó ủng hộ quan điểm về tự do ngôn luận.

Mặt khác, các nhà phê bình cho rằng việc FLUX.1 thiếu các hướng dẫn đạo đức rõ ràng có thể dẫn đến các vấn đề đạo đức và xã hội nghiêm trọng như thông tin sai lệch và deepfake. Một số người lo ngại rằng việc kết hợp khả năng tạo văn bản và hình ảnh mạnh mẽ, không kiểm duyệt trên một trong những nền tảng truyền thông xã hội có ảnh hưởng nhất có thể làm gia tăng sự lan truyền thông tin sai lệch.

Grok 2.0 và cách tiếp cận không hạn chế của nó

Không chỉ là việc tạo hình ảnh. Bản thân Grok 2.0 còn hạn chế hơn các công cụ AI khác mà chúng ta đã quen thuộc gần đây, chẳng hạn như ChatGPT . Sự thiếu kiểm duyệt này khiến mô hình có thể vượt qua các ranh giới theo cách mà một số người thấy thú vị nhưng một số khác lại thấy khó chịu.

Ví dụ: Grok 2.0 đã được quan sát thấy tạo ra nội dung văn bản có thể dễ dàng được hiểu là tin tức sai lệch hoặc gây hiểu lầm. Một sự cố gần đây liên quan đến việc Grok 2.0 tạo ra một câu chuyện sai sự thật về cầu thủ NBA Klay Thompson được cho là đang "phá hoại bằng gạch". Chatbot AI đã hiểu sai thuật ngữ bóng rổ "ném gạch", thuật ngữ này chỉ đơn giản là ám chỉ những cú ném trượt. Thay vào đó, Grok 2.0 đã hiểu theo nghĩa đen và bịa ra một câu chuyện về việc Thompson thực hiện các hành vi phá hoại bằng gạch thật. Bài đăng nhanh chóng thu hút được sự chú ý trên X, với một số người dùng thậm chí còn thêm các tài khoản nạn nhân giả để thúc đẩy thông tin sai lệch.

‍

Mặc dù có những lo ngại này, một số người dùng đánh giá cao lập trường "tự do ngôn luận" của Grok 2.0. Họ cho rằng nó cho phép các cuộc trò chuyện cởi mở và tự do sáng tạo hơn so với các mô hình AI được kiểm duyệt chặt chẽ. Họ xem Grok 2.0 như một đối trọng với những gì họ coi là AI "woke" quá thận trọng, hạn chế thảo luận về các chủ đề nhạy cảm. Đối với những người dùng này, Grok 2.0 cung cấp một nền tảng ít bị ràng buộc bởi các chuẩn mực xã hội.

Tự mình dùng thử FLUX.1 và Grok 2.0

Có một số tùy chọn khác nhau liên quan đến việc dùng thử FLUX.1 và Grok 2.0. FLUX.1 có thể được truy cập trực tiếp thông qua các nền tảng AI như Hugging Face , Replicate và Fal.ai. Trong khi đó, Grok 2.0 chỉ dành cho người dùng X Premium và Premium+.

Những điều cần nhớ

FLUX.1 và Grok 2.0 đang đẩy lùi ranh giới của AI và khơi dậy những cuộc trò chuyện sâu sắc. FLUX.1 đã thiết lập một tiêu chuẩn mới trong hình ảnh do AI tạo ra với khả năng tạo ra những bức ảnh chi tiết và chân thực cao. Grok 2.0 đang sử dụng FLUX.1 để tăng cường khả năng của mình vượt ra ngoài các tương tác dựa trên văn bản. Một mặt, những người đam mê rất vui mừng với sự tự do sáng tạo và khám phá không bị kiểm duyệt mà những công cụ này mang lại. Mặt khác, các nhà phê bình đang gióng lên hồi chuông cảnh báo về những rủi ro của thông tin sai lệch, deepfake và những hệ lụy đạo đức của những khả năng không được kiểm soát như vậy trên một nền tảng có ảnh hưởng như X. Khi FLUX.1 và Grok 2.0 phát triển, chúng đứng ở trung tâm của một cuộc tranh luận về tự do, sáng tạo và trách nhiệm trong thời đại kỹ thuật số - một cuộc tranh luận có khả năng định hình tương lai của AI trong nhiều năm tới.

Để tìm hiểu thêm về Ultralytics , hãy xem kho lưu trữ GitHub của chúng tôi, tham gia cộng đồng của chúng tôi và khám phá các giải pháp AI mới nhất của chúng tôi trong các ngành như chăm sóc sức khỏe và sản xuất ! 🚀

xAI ra mắt Grok 2.0 với tích hợp FLUX.1

Tìm hiểu về FLUX.1: Một trình tạo ảnh AI

FLUX.1 hoạt động như thế nào?

Đánh giá điểm chuẩn FLUX.1

Grok 2.0: Phiên bản mới nhất từ xAI của Elon Musk

Mối liên hệ giữa Grok 2.0 và FLUX.1

Grok 2.0 và cách tiếp cận không hạn chế của nó

Tự mình dùng thử FLUX.1 và Grok 2.0

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

xAI ra mắt Grok 2.0 với tích hợp FLUX.1

Tìm hiểu về FLUX.1: Một trình tạo ảnh AI

FLUX.1 hoạt động như thế nào?

Đánh giá điểm chuẩn FLUX.1

Grok 2.0: Phiên bản mới nhất từ xAI của Elon Musk

Mối liên hệ giữa Grok 2.0 và FLUX.1

Grok 2.0 và cách tiếp cận không hạn chế của nó

Tự mình dùng thử FLUX.1 và Grok 2.0

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!