Tìm hiểu tất cả DALL E 3, DALL E và DALL E 2 của OpenAI. DALL E 3 có ý nghĩa gì trong việc tạo thành SORA. DALL E 3 là gì, cách sử dụng DALL E 3. Chuyên đề này sẽ nói sâu về DALL E 3, DALL E của OpenAI. Chủ đề sẽ liên tục được cộng đồng Bytuong cập nhật.
DALL E 3 của Open Ai là gì?
Mô hình DALL E 3 là công nghệ được phát triển bởi OpenAI , là một mô hình tổng quát tiên tiến có thể chuyển đổi mô tả văn bản thành hình ảnh rõ ràng. Tên của mô hình này “DALL E” thực chất là tên viết tắt của “Mã hóa tiềm ẩn tự động hồi quy sâu”, có nghĩa là mã hóa tiềm ẩn hồi quy tự động sâu.
Khác với các mô hình tạo hình ảnh khác , DALL E 3 dựa trên mô tả văn bản của người dùng và có thể tạo ra hình ảnh phù hợp với nội dung mô tả và có độ chính xác cao. Nhìn chung, mô hình này vượt trội và thực tế đến bất ngờ khi tạo ra các hiệu ứng hình ảnh phức tạp và chính xác. Ví dụ: nếu bạn cần một bức ảnh mô tả một hành tinh, một phi hành gia và phong cảnh vũ trụ, DALL E 3 có thể tạo ra một hình ảnh phù hợp dựa trên mô tả của bạn.
Tìm hiểu đầy đủ về DALL E và DALL E 3 của OpenAi
Mở ChatGPT và bạn có thể sử dụng DALL E 3 để tạo hình ảnh. OpenAI cũng hiếm khi công bố một số chi tiết kỹ thuật.
Cuối cùng, “OpenAI đã mở trở lại.” Sau khi xem bài báo liên quan đến DALL E 3 vừa được OpenAI phát hành, một cư dân mạng đã thở dài.
DALL E 3 là mô hình đồ thị Vincentian được OpenAI phát hành vào tháng 9 năm 2023. Điểm khác biệt lớn nhất so với mô hình thế hệ trước DALL E 2 là nó có thể sử dụng ChatGPT để tạo lời nhắc, sau đó cho phép mô hình tạo hình ảnh dựa trên lời nhắc. Đối với những người bình thường không giỏi viết lời nhắc, cải tiến này giúp cải thiện đáng kể hiệu quả sử dụng DALL E 3.
Ngoài ra, chất lượng hình ảnh do DALL E 3 tạo ra cũng cao hơn so với DALL E 2.
So sánh hiệu ứng tạo của DALL E 2 và DALL E 3. Đối với cùng một lời nhắc “một bức tranh sơn dầu mô tả một cầu thủ bóng rổ đang lặn, kèm theo một tinh vân phát nổ”, DALL E 2 ở bên trái rõ ràng kém hơn DALL E 3 ở bên phải về độ chi tiết, độ rõ nét, độ sáng, v.v.
Thậm chí so với Midjourney, ứng dụng biểu đồ Vincent phổ biến nhất, DALL E 3 có thể bằng hoặc thậm chí vượt qua Midjourney. Và so với Midjourney, DALL E 3 không yêu cầu người dùng phải nắm vững kiến thức viết nhanh phức tạp và ngưỡng sử dụng thấp hơn.
Hiệu ứng sơ đồ DALL E 3 so với Midjourney Vincent. gợi ý: Hình minh họa này mô tả một trái tim con người làm bằng thủy tinh mờ, đứng trên bệ giữa những cơn sóng bão. Một tia nắng xuyên qua mây, chiếu sáng trái tim và làm lộ ra vũ trụ nhỏ bé bên trong. Khắc trên đường chân trời là dòng chữ “Hãy tìm vũ trụ bên trong bạn”.
Việc ra mắt mô hình này đã gây xôn xao dư luận và một lần nữa củng cố hình ảnh của OpenAI với tư cách là người dẫn đầu về công nghệ. Trong lúc nhất thời, mọi người đều tò mò, làm sao có thể đạt được hiệu quả bùng nổ như vậy? Tuy nhiên, thật đáng thất vọng khi OpenAI không tiết lộ chi tiết kỹ thuật vào thời điểm đó, giống như khi phát hành GPT-4 trước đó.
Tuy nhiên, một tháng sau, OpenAI vẫn mang đến cho mọi người một số bất ngờ. Trong một bài báo dài 22 trang, họ mô tả những cải tiến được thực hiện đối với DALL E 3. Các điểm chính của bài viết bao gồm:
Việc cải thiện khả năng của mô hình chủ yếu đến từ việc mô tả văn bản hình ảnh chi tiết (image captioning);
Họ đã đào tạo mô hình mô tả văn bản bằng hình ảnh để tạo ra văn bản ngắn nhưng chi tiết;
Họ đã sử dụng bộ mã hóa văn bản T5;
Họ đã sử dụng GPT-4 để tinh chỉnh các lời nhắc ngắn do người dùng viết;
Họ đã đào tạo bộ giải mã U-net và chắt lọc nó thành 2 bước khử nhiễu;
Kết xuất văn bản vẫn không đáng tin cậy và họ cho rằng mô hình gặp khó khăn trong việc ánh xạ các mã thông báo từ thành các chữ cái trong hình ảnh.
Ngoài bài báo, OpenAI còn công bố một tin quan trọng: DALL E 3 đã chính thức ra mắt trên ChatGPT, dành cho cả người dùng Plus và người dùng Enterprise. Sau đây là hiệu quả dùng thử của Heart of the Machine:
Nếu bạn không hài lòng với kết quả, bạn cũng có thể trực tiếp sửa đổi nó dựa trên ảnh gốc:
Tuy nhiên, khi thời lượng cuộc trò chuyện tăng lên, kết quả được tạo ra có phần không ổn định:
Về mặt tạo văn bản, DALL E 3 đã được cải thiện rất nhiều:
Tuy nhiên, nó vẫn hoạt động kém hơn khi đối mặt với tiếng Trung:
Để đảm bảo tính bảo mật và tuân thủ nội dung đầu ra của DALL E 3, OpenAI cũng đã thực hiện một số nỗ lực để đảm bảo rằng nội dung đầu ra theo mô hình đã được kiểm tra và không vi phạm bản quyền của các nghệ sĩ còn sống.
Tất nhiên, để hiểu công nghệ đằng sau DALL E 3, bạn vẫn cần đọc chi tiết bài báo. Sau đây là phần giới thiệu về bài báo:
Tổng quan đầy đủ về DALL E 3
Các tài liệu liên quan đến DALL E 3 bao gồm cả Hướng dẫn sử dụng Dall E 3 do OpenAI phát hành có tổng cộng 19 trang và có 15 tác giả.
Địa chỉ giấy: https://cdn.openai.com/papers/DALL E-3.pdf
Bài báo đề xuất một phương pháp mới giải quyết bài toán theo dấu nhắc: cải tiến mô tả văn bản (cải tiến chú thích). Bài viết này thừa nhận rằng một vấn đề cơ bản mà các mô hình văn bản-hình ảnh hiện tại gặp phải là chất lượng kém của các cặp văn bản-hình ảnh trong tập dữ liệu huấn luyện, vấn đề này cũng đã được chỉ ra trong các nghiên cứu khác. Bài viết này đề xuất giải quyết vấn đề này bằng cách tạo ra các mô tả văn bản cải tiến cho các hình ảnh trong tập dữ liệu.
Để đạt được mục tiêu này, trước tiên, nghiên cứu tìm hiểu một trình tạo văn bản hình ảnh mạnh mẽ có thể tạo ra các mô tả hình ảnh chi tiết và chính xác. Trình tạo văn bản này sau đó được áp dụng cho tập dữ liệu để tạo văn bản chi tiết hơn. Cuối cùng, mô hình hình ảnh văn bản được huấn luyện trên tập dữ liệu cải tiến.
Trên thực tế, đào tạo bằng dữ liệu tổng hợp không phải là khái niệm mới. Đóng góp chính của bài viết này là các nhà nghiên cứu đã xây dựng được một hệ thống văn bản hình ảnh mô tả mới lạ và đánh giá mô hình được tạo ra bằng cách huấn luyện bằng văn bản tổng hợp. Nghiên cứu cũng thiết lập một hồ sơ hiệu suất cơ bản có thể lặp lại cho một loạt các đánh giá nhằm đo lường hiệu quả hoạt động của các lời nhắc.
Trong các chương tiếp theo, Phần 2 cung cấp tổng quan toàn diện về các chiến lược đào tạo trình tạo văn bản hình ảnh, Phần 3 đánh giá các mô hình chuyển văn bản thành hình ảnh được đào tạo trên văn bản thô và được tạo, và Phần 4 đánh giá DALL E 3 được đánh giá cũng như các hạn chế và rủi ro được đề cập được thảo luận ở Phần 5 .
Chúng ta hãy xem nội dung cụ thể của từng chương.
Ghi chú lại tập dữ liệu
Mô hình chuyển văn bản thành hình ảnh của OpenAI được đào tạo trên tập dữ liệu bao gồm một số lượng lớn các cặp (t, i), trong đó i là hình ảnh và t là văn bản mô tả hình ảnh. Trong các tập dữ liệu quy mô lớn, t thường bắt nguồn từ các tác giả là con người, những người chủ yếu cung cấp các mô tả đơn giản về các đối tượng trong hình ảnh mà bỏ qua các chi tiết nền hoặc các mối quan hệ thông thường trong hình ảnh.
Tệ hơn nữa, các mô tả tìm thấy trên Internet thường không chính xác hoặc mô tả các chi tiết không liên quan lắm đến hình ảnh. OpenAI tin rằng tất cả các lỗi đều có thể được giải quyết bằng cách sử dụng các mô tả tổng hợp.
Xây dựng trình tạo mô tả hình ảnh
Trình tạo mô tả hình ảnh rất giống với các mô hình ngôn ngữ truyền thống có thể dự đoán văn bản. Do đó, OpenAI trước tiên cung cấp một mô tả đơn giản về mô hình ngôn ngữ. Ở đây, một tokenizer đầu tiên được sử dụng để phân tách chuỗi thành các token rời rạc. Sau khi phân tách theo cách này, phần văn bản của kho văn bản được biểu diễn dưới dạng chuỗi t = [t_1, t_2, . . . , t_n]. Sau đó, mô hình ngôn ngữ văn bản được xây dựng bằng cách tối đa hóa hàm khả năng sau.
Tiếp theo, nếu bạn muốn chuyển đổi mô hình ngôn ngữ thành trình tạo mô tả, bạn chỉ cần điều chỉnh hình ảnh. Do đó, với chức năng nhúng hình ảnh CLIP được đào tạo trước F (i), OpenAI sẽ tăng cường mục tiêu mô hình ngôn ngữ như sau.
Trình tạo mô tả được tinh chỉnh
Để cải thiện mô tả trên bộ dữ liệu tạo hình ảnh, OpenAI hy vọng sẽ sử dụng trình tạo mô tả để tạo mô tả hình ảnh, có thể giúp tìm hiểu các mô hình chuyển văn bản thành hình ảnh.
Trong nỗ lực đầu tiên, họ đã xây dựng một tập dữ liệu mô tả nhỏ chỉ mô tả đối tượng chính của hình ảnh, sau đó tiếp tục huấn luyện trình tạo mô tả của họ trên tập dữ liệu này. Các cập nhật do quá trình này tạo ra sẽ làm mô hình thiên về mô tả đối tượng chính của hình ảnh. OpenAI gọi các mô tả được tạo ra bởi loại mô tả tổng hợp ngắn được tinh chỉnh này.
OpenAI đã thực hiện nỗ lực thứ hai bằng cách tạo một tập dữ liệu văn bản dài hơn, mang tính mô tả hơn, mô tả nội dung của từng hình ảnh trong tập dữ liệu tinh chỉnh. Những mô tả này bao gồm đối tượng chính của hình ảnh cũng như các đối tượng xung quanh, nền, văn bản trong hình ảnh, kiểu dáng và màu sắc.
Họ đã tinh chỉnh thêm trình tạo văn bản cơ bản trên tập dữ liệu này và gọi văn bản do trình tạo văn bản tạo ra là “mô tả tổng hợp mô tả”. Hình 3 bên dưới hiển thị các ví dụ về sự thật, bố cục ngắn và mô tả bố cục mang tính mô tả.
Đánh giá các tập dữ liệu có phụ đề lại
OpenAI tận dụng tập dữ liệu mô tả lại để bắt đầu đánh giá tác động của các mô hình được đào tạo lên văn bản tổng hợp. Cụ thể, họ cố gắng trả lời hai câu hỏi sau:
Tác động hiệu suất của việc sử dụng từng loại mô tả tổng hợp là gì?
Sự kết hợp tối ưu giữa mô tả tổng hợp và mô tả thực tế là gì?
Trộn thành phần và mô tả thực tế
Các mô hình khả năng như mô hình khuếch tán văn bản thành hình ảnh có xu hướng không phù hợp với các mẫu phân phối trong tập dữ liệu. Vấn đề này cần được xem xét khi đào tạo về mô tả tổng hợp.
Mô hình tạo mô tả của OpenAI có thể có nhiều hành vi phương thức khó phát hiện, nhưng nếu mô hình được huấn luyện về mô tả, những hành vi này sẽ trở thành sai lệch trong các mô hình chuyển văn bản thành hình ảnh.
Cách tốt nhất để giải quyết vấn đề này là chuẩn hóa “đầu vào” cho cách phân phối văn bản gần với phong cách và định dạng mà con người có thể sử dụng. Khi sử dụng các mô tả có giá trị thực, bạn sẽ nhận được chúng một cách “miễn phí” vì chúng thực sự được rút ra từ quá trình phân phối văn bản của con người. Hơn nữa, để đưa tính chính quy hóa vào quá trình đào tạo mô hình của riêng mình khi sử dụng các mô tả tổng hợp, OpenAI đã chọn kết hợp các mô tả tổng hợp với các mô tả thực tế.
Hoạt động trộn xảy ra trong quá trình lấy mẫu dữ liệu, khi OpenAI chọn ngẫu nhiên các mô tả chân thực hoặc tổng hợp ở một tỷ lệ cố định.
phương pháp đánh giá
Để đánh giá, OpenAI đã đào tạo mô hình khuếch tán hình ảnh có điều kiện T5 tương tự trên cùng một tập dữ liệu hình ảnh. Tất cả các mô hình đều được huấn luyện 500.000 bước với kích thước lô là 2048, tương đương với hình ảnh huấn luyện 1B.
Sau khi quá trình đào tạo hoàn tất, OpenAI sử dụng các mô tả trên tập dữ liệu đánh giá để tạo ra 50.000 hình ảnh cho mỗi mô hình. Sau đó, những hình ảnh được tạo này sẽ được đánh giá bằng chỉ số đánh giá CLIP-S của Hessel và cộng sự (2022). Họ chọn điểm CLIP làm thước đo, điểm này có mối tương quan chặt chẽ với độ tương tự của văn bản và hình ảnh.
Trước tiên, OpenAI sử dụng bộ mã hóa hình ảnh CLIP ViT-B/32 công khai để tạo mã nhúng hình ảnh z_i, sau đó sử dụng bộ mã hóa văn bản để tạo mã nhúng văn bản cho mô tả hình ảnh z_t và cuối cùng tính điểm CLIP là khoảng cách cosin C.
Tiếp theo, OpenAI thực hiện phép tính trung bình trên khoảng cách cosine được tính cho tất cả 50.000 cặp văn bản/hình ảnh và thay đổi tỷ lệ 100 lần.
Khi tính điểm CLIP, việc chọn mô tả nào để sử dụng là rất quan trọng. Đối với các thử nghiệm của OpenAI, họ sử dụng mô tả thực tế hoặc mô tả tổng hợp mang tính mô tả. Ngoài ra, hãy cho biết mô tả nào đã được sử dụng cho mỗi đánh giá.
kết quả loại mô tả
OpenAI lần đầu tiên phân tích sự khác biệt về hiệu suất giữa các mô hình được đào tạo dựa trên ba loại mô tả. Với mục đích này, ba mô hình sau đã được đào tạo:
Mô hình chuyển văn bản thành hình ảnh chỉ được đào tạo dựa trên mô tả thực tế
Mô hình chuyển văn bản thành hình ảnh được đào tạo dựa trên mô tả tổng hợp ngắn 95%
Mô hình chuyển văn bản thành hình ảnh được đào tạo dựa trên 95% mô tả tổng hợp mang tính mô tả
OpenAI thực hiện hai đánh giá, một lần sử dụng z_t được tính toán từ mô tả sự thật cơ bản và một lần sử dụng z_t được tính toán từ mô tả tổng hợp mô tả. Lý do các mô tả tổng hợp ngắn gọn không được chọn ở đây là vì chúng rất giống với các trường hợp thực tế cơ bản trong đánh giá này.
Các kết quả được hiển thị trong Hình 4 bên dưới, trong đó mô hình được đào tạo về mô tả tổng hợp mang lại hiệu suất điểm CLIP tốt hơn một chút so với mô hình cơ sở được đánh giá trên các mô tả cơ bản và hiệu suất tốt hơn đáng kể khi được đánh giá trên các mô tả tổng hợp mang tính mô tả. Điều này cho thấy rằng không có cạm bẫy nào trong việc sử dụng mô tả tổng hợp khi đào tạo mô hình chuyển văn bản thành hình ảnh.
Mô tả tỉ lệ pha trộn
Để đánh giá việc mô tả các tỷ lệ hòa trộn, OpenAI đã đào tạo bốn mô hình tạo hình ảnh bằng cách sử dụng các mô tả tổng hợp mang tính mô tả về các tỷ lệ hòa trộn khác nhau. Họ đã chọn tỷ lệ pha trộn mô tả tổng hợp lần lượt là 65%, 80%, 90% và 95%. Họ phát hiện ra rằng trong suốt quá trình thử nghiệm, hỗn hợp 65% tụt hậu xa so với những hỗn hợp khác trong tất cả các đánh giá và bị loại bỏ.
Kết quả trong Hình 5 bên dưới cho thấy tỷ lệ pha trộn mô tả tổng hợp càng cao thì điểm CLIP càng có xu hướng cao hơn và có mối quan hệ trực tiếp giữa hai yếu tố này.
DALL E 3
Để thử nghiệm văn bản tổng hợp trên quy mô lớn, bài viết này đã đào tạo DALL E 3. Trong quá trình đào tạo, bài viết này sử dụng hỗn hợp 95% văn bản tổng hợp và 5% văn bản thật. Các mô hình so sánh bao gồm DALL E 2 và Stable Diffusion XL 1.0.
Trong đánh giá điểm CLIP, DALL E 3 nhỉnh hơn DALL E 2 và Stable Diffusion XL; trong đánh giá benchmark Drawbench, DALL E 3 cũng nhỉnh hơn DALL E 2 và Stable Diffusion XL.
Bài viết này cũng so sánh các mẫu do DALL E 3 tạo ra với kết quả do các mô hình khác tạo ra. Họ ghi điểm bằng cách cho người đánh giá xem hai hình ảnh cạnh nhau được tạo ra bởi cùng một mô tả. Việc chấm điểm bao gồm ba khía cạnh: theo dõi kịp thời, phong cách và sự mạch lạc.
Mẹo cần làm theo: Cung cấp cho người đánh giá một mô tả hình ảnh hoàn chỉnh và yêu cầu người đánh giá chọn một hình ảnh phù hợp hơn với mô tả văn bản;
Phong cách: Yêu cầu người đánh giá tưởng tượng rằng họ đang sử dụng một số công cụ để tạo hình ảnh từ văn bản. Nếu bạn đang tự mình sử dụng công cụ này, hãy chọn những hình ảnh bạn muốn xem;
Sự mạch lạc: Hãy để người đánh giá chọn hình ảnh nào chứa các đối tượng mạch lạc hơn, chẳng hạn như về các bộ phận cơ thể, khuôn mặt và tư thế của người đó, vị trí của đối tượng, v.v.
Kết quả cho thấy DALL E 3 tạo ra hình ảnh được con người đánh giá ưa thích trong hầu hết các trường hợp so với tất cả các đối thủ cạnh tranh ở cả ba khía cạnh, đặc biệt là về tín hiệu theo sau.
Hạn chế và rủi ro
Chương cuối cùng của bài viết này nói về những hạn chế và rủi ro mà mọi người quan tâm hơn. Mặc dù DALL E 3 hoạt động tốt trong việc theo dõi nhanh chóng nhưng nó vẫn hoạt động kém ở các khía cạnh như nhận thức không gian. Ví dụ: DALL E 3 không thể hiểu rõ các từ chỉ hướng như bên trái, bên dưới và phía sau.
Ngoài ra, khi xây dựng bộ tạo mô tả văn bản, bài báo tập trung xem xét một số từ nổi bật nổi bật tồn tại trong ảnh gốc và mô tả được tạo ra. Do đó, DALL E 3 có thể tạo văn bản khi có lời nhắc. Trong quá trình thử nghiệm, bài viết này lưu ý rằng tính năng này không đáng tin cậy. Bài viết này nghi ngờ rằng điều này có thể liên quan đến việc sử dụng bộ mã hóa văn bản T5: khi mô hình gặp văn bản trong lời nhắc, nó thực sự nhìn thấy các mã thông báo đại diện cho toàn bộ từ và ánh xạ chúng tới văn bản xuất hiện trong hình ảnh. Trong công việc tương lai, bài viết này hy vọng sẽ khám phá sâu hơn các mô hình ngôn ngữ cấp độ ký tự để giúp cải thiện hạn chế này mà DALL E 3 gặp phải.
Cuối cùng, chúng tôi cũng nhận thấy rằng văn bản tổng hợp cũng làm cho hình ảnh được tạo ra tạo ra ảo giác về các chi tiết quan trọng. Điều này có một số tác động đến các tác vụ tiếp theo và bài báo cũng cho thấy DALL E 3 không đáng tin cậy trong việc tạo ra hình ảnh cho các thuật ngữ cụ thể. Tuy nhiên, nghiên cứu tin rằng việc cải thiện mô tả văn bản hình ảnh có thể cải thiện hơn nữa kết quả tạo ra DALL E 3.
Ưu điểm của mô hình DALL E 3 so với các mô hình tạo ảnh khác là gì?
Ưu điểm của mô hình DALL E 3 chủ yếu thể hiện ở độ chính xác và thể hiện chi tiết của hình ảnh mà nó tạo ra. Sau đây là những ưu điểm chính của mô hình DALL E 3 so với các mô hình tạo hình ảnh khác:
Độ chính xác cao: DALL E 3 có thể tạo ra hình ảnh gần giống với mô tả văn bản thông qua sự hiểu biết sâu sắc về văn bản, với độ chính xác cao hơn đáng kể so với nhiều loại mô hình tạo hình ảnh khác.
Tạo hình ảnh với nhiều chi tiết phong phú: DALL E 3 có thể hiểu chi tiết văn bản mô tả đồ vật, màu sắc, vị trí, kích thước, cảm xúc, v.v. và tạo ra các hình ảnh tương ứng dựa trên những chi tiết này. Ngoài ra, nó có thể hiểu và tạo ra những cảnh phức tạp hơn, chẳng hạn như sự tương tác của nhiều đối tượng hoặc các khái niệm trừu tượng cụ thể.
Tự do sáng tạo: So với các thuật toán khác chỉ có thể tạo danh mục hoặc kiểu cài sẵn, DALL E 3 có khả năng sáng tạo tốt hơn và có thể tạo hình ảnh dựa trên mô tả văn bản mà không cần định dạng hoặc danh mục cụ thể.
Khả năng xử lý mạnh mẽ : DALL E3 có hiệu suất tuyệt vời về chất lượng hình ảnh và tốc độ tạo, có thể xử lý một lượng lớn thông tin và tạo ra hình ảnh chất lượng cao và nhanh chóng.
Nhìn chung, mô hình DALL E 3 với hiệu suất vượt trội có giá trị lớn trong việc hiện thực hóa việc dịch mô tả văn bản thành hình ảnh chất lượng cao, mở ra một phương thức mới cho sự cộng tác giữa người và máy để tạo ra hình ảnh.
DALL E 3 có ý nghĩa tạo thành SORA, ứng dụng trong sản xuất Video
Đối mặt với những đối thủ như Google đang có những động thái lớn, OpenAI đã tung ra nước đi mạnh mẽ nhất trong lịch sử ChatGPT – Sora.
Sora là mô hình khuếch tán video Vincent do OpenAI tự phát triển, có thể tạo ra các video chất lượng cao, độ trung thực cao với các tỷ lệ khung hình và độ phân giải khác nhau, có thời lượng lên tới 1 phút. Trong con mắt của một số nhà quan sát trong ngành, Sora không chỉ vượt xa các đối thủ về hiệu suất mà thậm chí còn có thể được coi là “trình mô phỏng thế giới”.
Sora: Sản phẩm của sức mạnh tuyệt vời có tác dụng kỳ diệu
Google, vừa phát hành Gemini 1.5 Pro, chưa thu được chút lợi ích nào. Chỉ vài giờ sau thông báo chính thức, OpenAI đã đưa Sora đến hiện trường, tin tức liên quan đến Gemini về cơ bản đã bị chôn vùi trong dòng tin tức tràn ngập của Sora.
Theo một số nhà quan sát, OpenAI có thể đã hoàn thành việc phát triển Sora vào đầu tháng 3 năm ngoái để có thể vững chắc chiếm thế chủ động trong cuộc chiến quan hệ công chúng.
Sora có gì tốt vậy? Nói một cách đơn giản, nó là sản phẩm của những “phép màu lớn”. Ưu điểm của Sora , OpenAI
Sora kết hợp mô hình khuếch tán (DALL E3) và kiến trúc chuyển đổi (ChatGPT). Với sự kết hợp này, mô hình có thể xử lý video (tức là chuỗi khung hình theo thời gian) giống như cách ChatGPT xử lý văn bản.
Tính năng ấn tượng nhất là khả năng mô phỏng thực tế thế giới vật lý (OpenAI mô tả đây là “khả năng mô phỏng mới nổi”). Trước đó, không có mô hình video văn bản nào có thể so sánh được với mô hình này.
Ví dụ: Sora “có thể tạo nhiều cảnh quay trong một video được tạo duy nhất để thể hiện chính xác các nhân vật và phong cách hình ảnh.” Nó có thể tạo video dài tối đa 1 phút nhưng bạn cũng có thể tạo video ngắn tùy thích. Có thể tạo video dọc, vuông và ngang với các độ phân giải khác nhau. Và nỗ lực tính toán càng cao thì chất lượng video càng cao.
Nhà khoa học và doanh nhân AI Jia Jiaya cho biết trên mạng xã hội:
Sora dựa trên sự phân rã và nén cấu trúc ba chiều của video, đồng thời sử dụng một số lượng lớn các video khác nhau có độ phân giải khác nhau, thời lượng khác nhau và các cảnh khác nhau để huấn luyện mô hình khuếch tán. Trong giới học thuật, ngay cả độ phân giải 256*256 của VIT cũng không thể thay đổi được, nên Sora đã trực tiếp sử dụng độ phân giải cao và độ phân giải cao hơn, cho dù có hàng nghìn chiếc H100, tôi cũng không thể tưởng tượng được sẽ bắt đầu dự án này như thế nào.
Sora có thể học các quy tắc vật lý trong thế giới thực
OpenAI cho biết Sora không chỉ có thể hiểu phong cách, cảnh, nhân vật, đồ vật và khái niệm xuất hiện trong lời nhắc mà còn hiểu “làm thế nào những thứ này tồn tại trong thế giới vật chất”.
Sora sử dụng các video lớn để ngầm tìm hiểu công cụ vật lý trong các tham số thần kinh bằng cách sử dụng phương pháp giảm độ dốc. Sora là một trình mô phỏng có thể học được hay còn gọi là “mô hình thế giới”. Nghĩa là, Sora có thể đã học được một tập hợp các quy tắc vật lý tiềm ẩn cung cấp thông tin cho quá trình tạo video.
Không còn nghi ngờ gì nữa, đây là một bước quan trọng để AI hiểu được thế giới. OpenAI đã viết ở cuối bài viết trên blog:
Sora là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực và chúng tôi tin rằng khả năng này sẽ là một cột mốc quan trọng trong việc đạt được AGI.
Được hỗ trợ bởi một phiên bản của mô hình khuếch tán được sử dụng bởi trình tạo hình ảnh DALL E 3 của OpenAI và công cụ dựa trên máy biến áp của GPT-4, Sora không chỉ có thể tạo video theo lời nhắc mà còn thể hiện sự thành thạo các kỹ thuật điện ảnh.
Đó chính là năng khiếu kể chuyện. Trong một video khác dựa trên lời nhắc “Kết xuất một thế giới giấy thủ công tuyệt đẹp về một rạn san hô, tràn ngập cá và sinh vật biển đầy màu sắc”. Bill Peebles, một nhà nghiên cứu khác của dự án, lưu ý rằng Sora đã tạo ra lực đẩy tường thuật thông qua việc lựa chọn góc máy và thời điểm:
Trên thực tế, có nhiều biến thể của cảnh quay – những biến thể này không được kết hợp với nhau mà được mô hình tạo ra trong một lần. Chúng tôi không yêu cầu nó làm điều này, nó chỉ làm điều đó một cách tự động.
Sora không chỉ có thể tạo hình ảnh và video từ văn bản hoặc chuyển đổi hình ảnh và video thành các video khác mà còn có thể làm như vậy một cách linh hoạt và có thể mở rộng, không giống như các đối thủ cạnh tranh.
Tính linh hoạt và khả năng mở rộng này đã dẫn đến dự đoán rằng AI sẽ phá vỡ toàn bộ Hollywood và hoạt động làm phim. Với tốc độ tiến bộ, không có gì điên rồ khi tưởng tượng rằng trong vài tháng nữa, các mô hình AI sẽ có thể tạo ra các video phức tạp với nhiều cảnh và nhân vật kéo dài tới 5 hoặc 10 phút.
Sora hiện đang trong quá trình kiểm tra an ninh và thử nghiệm đối thủ và chưa được phát hành chính thức. OpenAI hy vọng sẽ thu thập được phản hồi từ “các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ trên toàn thế giới”. Họ cũng đang phát triển một bộ phân loại phát hiện để xác định các video do Sora sản xuất và nghiên cứu cách ngăn chặn thông tin sai lệch.
Có lẽ còn rất lâu nữa video dựa trên văn bản mới có thể đe dọa đến việc làm phim thực sự. Bạn sẽ không thể ghép 120 clip Sora dài một phút thành một bộ phim mạch lạc vì mô hình sẽ không phản hồi các tín hiệu theo cách giống hệt nhau, vì vậy không có cách nào để đảm bảo tính liên tục trong video đầu ra.
Nhưng hạn chế về thời gian không ngăn được Sora và phần mềm tương tự phá hoại phương thức sản xuất của TikTok, Reel và các nền tảng video ngắn khác.
Một nhà nghiên cứu cho biết về làm Phim và Sora:
Để làm một bộ phim chuyên nghiệp, bạn cần rất nhiều thiết bị đắt tiền, mô hình này sẽ mang lại cho những người làm video bình thường trên mạng xã hội khả năng tạo ra nội dung chất lượng rất cao.
Tìm hiểu đầy đủ về Dall E 2 và Các tính năng công dụng của Dall E 2
Đây là một hệ thống hình ảnh tạo văn bản được phát triển bởi OpenAI và phiên bản tiếp theo của DALL E. Nó có thể tạo ra các hình ảnh và tác phẩm nghệ thuật mới, độ phân giải cao, chân thực dựa trên mô tả văn bản do con người nhập vào.
Chức năng chính của Dall E 2 :
Công nghệ cốt lõi của DALL E 2 được xây dựng trên cấu trúc được gọi là bộ mã hóa tự động biến thiên (VAE) và một số dạng máy biến áp. Nó được đào tạo trên một tập dữ liệu khổng lồ bao gồm hình ảnh và dữ liệu văn bản tương ứng, cho phép nó hiểu được mối quan hệ phức tạp giữa mô tả văn bản và hình ảnh, đồng thời tạo ra các hình ảnh có liên quan dựa trên điều này.
DALL E 2 chủ yếu có các chức năng/tính năng sau:
- Tạo văn bản thành hình ảnh: Tính năng quan trọng nhất của DALL E 2 là tạo ra hình ảnh tương ứng dựa trên mô tả văn bản do người dùng cung cấp. Người dùng có thể nhập bất kỳ dạng văn bản mô tả nào và AI sẽ tạo ra một hoặc nhiều hình ảnh dựa trên những mô tả này. Ví dụ: nếu người dùng nhập “một con mèo mặc bộ đồ du hành vũ trụ”, DALL E 2 sẽ tạo ra một hình ảnh tương ứng.
- Tạo hình ảnh có độ phân giải cao: So với người tiền nhiệm DALL E, DALL E 2 có thể tạo ra hình ảnh có độ phân giải cao với độ chi tiết tốt hơn và chất lượng cao hơn.
- Chỉnh sửa và sửa đổi hình ảnh: DALL E 2 có thể chỉnh sửa và sửa đổi hình ảnh hiện có, chẳng hạn như thay đổi một số thuộc tính của đối tượng trong hình ảnh hoặc thêm thành phần mới vào hình ảnh.
- Chuyển phong cách: DALL E 2 có thể áp dụng một phong cách nhất định cho các hình ảnh khác nhau, chẳng hạn như kết hợp mô tả văn bản với phong cách của các họa sĩ nổi tiếng để tạo ra hình ảnh mang phong cách nghệ thuật cụ thể.
- Kết hợp các chủ đề và yếu tố: Nó có khả năng kết hợp nhiều chủ đề và yếu tố để tạo ra những hình ảnh hoàn toàn mới lạ, ngay cả khi những yếu tố này không phổ biến hoặc khó có thể kết hợp trong đời thực.
- Minh họa sáng tạo: DALL E 2 là công cụ hữu ích dành cho các họa sĩ minh họa, nghệ sĩ và người làm công việc sáng tạo, nó có thể tạo ra các hình minh họa sáng tạo dựa trên lời nhắc của văn bản, giúp họ kích thích khả năng sáng tạo hoặc đẩy nhanh quá trình sáng tạo.
- Xử lý chi tiết thực tế: Mô hình AI có thể nắm bắt chi tiết và tạo ra hình ảnh với kết cấu, ánh sáng và bóng tối và vật liệu chân thực.
Giá sản phẩm và sử dụng miễn phí (dall e free):
DALL E2 tính phí dựa trên kích thước của hình ảnh được tạo. Đối với kích thước hình ảnh 1024×1024, mỗi hình ảnh tính phí 0,02 USD. Đối với kích thước hình ảnh 512×512, mỗi hình ảnh tính phí 0,018 USD. Đối với kích thước hình ảnh 256×256, mỗi hình ảnh tính phí 0,016 USD. Sau khi các nhà phát triển sử dụng API của DALL E2 trong ứng dụng của mình, họ cần trả phí tương ứng tùy theo số lượng và kích thước của hình ảnh được tạo ra.
Việc sử dụng DALL E2 phải tuân theo chính sách nội dung cấm tạo ra các hình ảnh có hại, lừa đảo hoặc có nội dung chính trị. Để tránh deepfake, một số cụm từ tìm kiếm về nhân vật của công chúng đã bị chặn. Ngoài ra, hình ảnh tạo ra được mặc định có hình mờ bởi DALL E2, nếu bạn muốn tải xuống hình ảnh không có hình mờ, bạn phải trả thêm phí.