SORA LÀ GÌ ?Trong chuyên đề này, chúng tôi làm rõ toàn bộ những điều quan trọng về SORA, một sản phẩm trong lĩnh vực trí tuệ nhân tạo. cách sử dụng Sora như thế nào để tạo Video, Sora có thể làm gì ngoài tạo ra Video, mô hình thuật toán tạo ra Sora là gì. Ứng dụng phần mềm nào thay thế được SORA
Chúng tôi sẽ phân tích Sora theo cả chiều thuận và kỹ thuật đảo ngược để bạn thấy được toàn bộ bản chất của Sora. Đây là chuyên đề sâu và liên tục được cập nhật, bạn hãy lưu nội dung sâu này trên màn hình điện thoại di động để sử dụng lại sau này nhé. Nội dung này sẽ liên tục được cập nhật.
Sora của Open AI là gì? Làm thế nào nó hoạt động? Kịch bản ứng dụng, rủi ro, lựa chọn thay thế, tầm quan trọng trong tương lai, v.v.
1, Sora là gì?
Định nghĩa 1 về Sora OpenAi:
Sora là mô hình trí tuệ nhân tạo chuyển văn bản thành video của OpenAI. Điều này có nghĩa là người dùng viết một câu lệnh gợi ý (lời nhắc) bằng văn bản và Sora sẽ tạo một video phù hợp với câu lệnh mô tả lời nhắc.
Định nghĩa thứ 2 về Sora OpenAi:
Sora là mô hình tạo video AI do OpenAI phát triển, có thể tạo ra video chất lượng cao lên tới 60 giây , 1080P dựa trên mô tả văn bản của người dùng, chứa các cảnh chi tiết và phức tạp, biểu cảm nhân vật sống động và chuyển động camera phức tạp .
Sora có thể tạo các cảnh chi tiết với nhiều nhân vật, loại hành động cụ thể cũng như chủ đề và hình nền. Mô hình không chỉ hiểu lệnh của người dùng mà còn cung cấp cái nhìn sâu sắc về cách các phần tử đó hoạt động trong thế giới thực. Sora có sự hiểu biết sâu sắc về ngôn ngữ, có khả năng nắm bắt chính xác nhu cầu của người dùng và tạo ra những nhân vật tràn đầy sức sống và cảm xúc. Ngoài ra, Sora có thể tạo nhiều khung hình trong cùng một video mà vẫn duy trì tính nhất quán về nhân vật và phong cách hình ảnh.
Sora có thể làm được những công việc gì?
Chức năng chính của Sora là chuyển đổi mô tả văn bản thành nội dung video. Nó hiểu và thực hiện các hướng dẫn văn bản chi tiết để tạo ra các video có chất lượng hình ảnh và sự mạch lạc có thể chứa nhiều nhân vật, hành động và cảnh.
Khả năng tạo văn bản thành video:
Sora có thể tạo video 60S dựa trên mô tả văn bản do người dùng cung cấp, những video này không chỉ duy trì chất lượng hình ảnh mà còn khôi phục hoàn toàn và chính xác lời nhắc của người dùng.
>> Nghiên cứu thị trường hiện đại là gì, quy trình , Ví dụ về nghiên cứu thị trường
Khả năng tạo cảnh và nhân vật phức tạp:
Sora có khả năng tạo cảnh với nhiều nhân vật, loại chuyển động cụ thể và các chi tiết nền chính xác, theo chủ đề. Nó có thể tạo ra các biểu cảm nhân vật sống động và các chuyển động camera phức tạp, làm cho các video được tạo ra có tính chân thực và mang tính tường thuật cao.
Hiểu ngôn ngữ:
Sora có khả năng hiểu ngôn ngữ sâu sắc, có khả năng diễn giải chính xác các gợi ý và tạo ra các nhân vật thể hiện cảm xúc phong phú. Điều này cho phép mô hình hiểu rõ hơn các hướng dẫn bằng văn bản của người dùng và phản ánh trung thực các hướng dẫn này trong nội dung video được tạo.
>> Tìm hiểu tất cả về: DALL E và DALL E 3, DALL E 2 của OpenAI. Sử dụng thế nào, DALL E Free
Khả năng tạo nhiều cảnh quay:
Sora có thể tạo nhiều cảnh quay trong một video được tạo duy nhất trong khi vẫn duy trì tính nhất quán trong phong cách nhân vật và hình ảnh. Khả năng này rất hữu ích khi tạo đoạn giới thiệu phim, hoạt ảnh hoặc nội dung khác yêu cầu nhiều góc nhìn.
Khả năng tạo video từ hình ảnh tĩnh:
Sora không chỉ có thể tạo video từ văn bản mà còn có thể bắt đầu từ hình ảnh tĩnh hiện có và tạo hoạt ảnh chính xác cho nội dung hình ảnh hoặc mở rộng video hiện có để lấp đầy các khung hình còn thiếu trong video.
Khả năng mô phỏng thế giới vật lý:
Sora thể hiện khả năng của trí tuệ nhân tạo để hiểu và tương tác với các cảnh trong thế giới thực, đây là một bước quan trọng để hiện thực hóa trí tuệ nhân tạo nói chung (AGI). Nó có thể mô phỏng chuyển động của thế giới vật chất thực, chẳng hạn như chuyển động và tương tác của các vật thể.
Có thể nói, sự xuất hiện của Sora báo trước sự xuất hiện của một kỷ nguyên mới kể chuyện bằng hình ảnh, có thể biến trí tưởng tượng của con người thành những bức tranh sống động sống động và biến sự kỳ diệu của ngôn từ thành một bữa tiệc thị giác. Trong tương lai được tạo nên bởi dữ liệu và thuật toán này, Sora đang xác định lại sự tương tác của chúng ta với thế giới kỹ thuật số theo cách độc đáo của riêng nó.
Một câu lệnh ví dụ để sử dụng SORA như sau:
Câu lệnh Sora, Lời gợi ý: Một người phụ nữ sành điệu bước xuống con phố Tokyo tràn ngập ánh đèn neon ấm áp và biển hiệu thành phố hoạt hình. Cô ấy mặc áo khoác da màu đen, váy dài màu đỏ, đi bốt đen và mang theo một chiếc ví màu đen. Cô đeo kính râm và tô son đỏ. Cô bước đi tự tin và thản nhiên. Đường phố ẩm ướt và phản chiếu, tạo hiệu ứng gương khi được chiếu sáng bằng đèn màu. Nhiều người đi bộ đang đi lại xung quanh.
>> Các công nghệ hiện tại ( Những xu hướng công nghệ mới hiện đại nhất hiện nay)
2, Thêm ví dụ về Câu lệnh Sora OpenAi:
OpenAI và Giám đốc điều hành Sam Altman của nó đã bận rộn chia sẻ các ví dụ thực tế về Sora. Chúng tôi đã thấy nhiều phong cách và ví dụ khác nhau, bao gồm:
Ví dụ hoạt hình
Câu lệnh Sora, Lời nhắc: Một thế giới giấy thủ công tuyệt đẹp gồm các rạn san hô, tràn ngập cá và sinh vật biển đầy màu sắc.
Lời gợi ý: Một cảnh hoạt hình có cận cảnh một con quái vật nhỏ đầy lông đang quỳ bên cạnh một ngọn nến đỏ đang tan chảy. Phong cách nghệ thuật là 3D và hiện thực, tập trung vào ánh sáng và kết cấu. Tâm trạng của bức tranh là sự ngạc nhiên và tò mò, với con quái vật đang nhìn chằm chằm vào ngọn lửa với đôi mắt mở to và miệng há hốc. Tư thế và biểu cảm của nó mang lại cảm giác ngây thơ và vui tươi, như thể nó đang khám phá thế giới xung quanh lần đầu tiên. Việc sử dụng màu sắc ấm áp và ánh sáng ấn tượng càng làm tăng thêm bầu không khí ấm cúng của hình ảnh.
Ví dụ về cảnh quan đô thị
Mẹo: Thành phố Tokyo xinh đẹp đầy tuyết đang nhộn nhịp. Máy ảnh di chuyển qua các con phố nhộn nhịp của thành phố, theo chân một số người đang tận hưởng một ngày tuyết rơi đẹp trời và mua sắm tại các quầy hàng gần đó. Những cánh hoa anh đào tuyệt đẹp rung rinh trong gió cùng với những bông tuyết.
Lời gợi ý: Một cuộc hành trình qua những con phố của một thành phố tương lai, hòa hợp với thiên nhiên nhưng vẫn có phong cách cyberpunk/công nghệ cao. Thành phố phải sạch sẽ, có xe điện tiên tiến của tương lai, đài phun nước tuyệt đẹp, hình ảnh ba chiều khổng lồ ở khắp mọi nơi và robot ở khắp mọi nơi. Hãy để video giới thiệu một hướng dẫn viên du lịch con người đến từ tương lai cho một nhóm người ngoài hành tinh thấy thành phố tuyệt vời nhất, huy hoàng nhất mà nhân loại có khả năng xây dựng.
Câu lệnh Sora: Ví dụ về động vật
Câu lệnh Sora OpenAi, gợi ý Lời nhắc: Hai chú chó tha mồi vàng đang chạy trên đỉnh núi.
Gợi ý câu lệnh Sora, Lời nhắc: Cuộc đua xe đạp trên đại dương, các vận động viên đi xe đạp dưới góc nhìn của camera không người lái, các loài động vật khác nhau.
3, Sora hoạt động như thế nào?
Giống như các mô hình AI tạo văn bản thành hình ảnh như DALL·E 3 , StableDiffusion và Midjourney , Sora là một mô hình phổ biến. Điều này có nghĩa là nó bắt đầu với mỗi khung hình của video bao gồm nhiễu tĩnh và sử dụng công nghệ học máy để chuyển dần hình ảnh thành nội dung tương tự như mô tả trong lời nhắc. Video Sora có thể dài tới 60 giây.
Dưới đây là một số điểm kỹ thuật chính:
3.1 Giải quyết vấn đề nhất quán về thời gian
Một lĩnh vực đổi mới của Sora là nó xem xét đồng thời nhiều khung hình video, giúp giải quyết vấn đề giữ các đối tượng nhất quán khi chúng di chuyển vào và ra khỏi trường nhìn. Trong video bên dưới, hãy chú ý rằng bàn tay của con kangaroo di chuyển ra khỏi cảnh quay nhiều lần và khi quay trở lại, bàn tay đó trông vẫn giống như trước.
Lời gợi ý: Phim hoạt hình kangaroo đang nhảy điệu disco.
3.2 Kết hợp mô hình khuếch tán và Transformer
Về mặt này, Sora tương tự như GPT, kết hợp mô hình khuếch tán với kiến trúc Transformer.
Khi kết hợp hai loại mô hình này, mô hình khuếch tán rất tốt trong việc tạo ra kết cấu ở mức độ thấp nhưng kém tổng hợp tổng thể, trong khi Transformer lại gặp vấn đề ngược lại. Nghĩa là cần có mô hình chuyển đổi giống GPT để xác định bố cục cấp cao của khung hình video và cần có mô hình khuếch tán để tạo chi tiết.
Trong một bài viết kỹ thuật về việc triển khai Sora , OpenAI cung cấp mô tả cấp cao về cách hoạt động của sự kết hợp này. Trong mô hình khuếch tán, hình ảnh được chia thành các “khối” hình chữ nhật nhỏ hơn. Đối với video, các bản vá này có dạng ba chiều vì chúng tồn tại theo thời gian. Các bản vá có thể được coi là tương đương với “mã thông báo” trong các mô hình ngôn ngữ lớn: chúng không phải là thành phần của một câu mà là một tập hợp các hình ảnh. Phần chuyển đổi của mô hình tổ chức các bản vá và phần phổ biến của mô hình tạo ra nội dung của từng bản vá.
Một nhược điểm khác của kiến trúc kết hợp này là để làm cho việc tạo video trở nên khả thi về mặt tính toán, quá trình tạo các bản vá sử dụng tính năng giảm kích thước để không cần phải thực hiện các phép tính trên mọi pixel của mọi khung hình.
3.3 Cải thiện độ trung thực của video thông qua tính năng tóm tắt
Để nắm bắt một cách trung thực bản chất của lời nhắc của người dùng, Sora sử dụng công nghệ trình bày lại trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại các từ nhắc nhở của người dùng để bao gồm nhiều chi tiết hơn. Về cơ bản, nó là một hình thức kỹ thuật tự động nhắc nhở.
4, Những hạn chế của Sora là gì?
OpenAI nhận thức được một số hạn chế với phiên bản Sora hiện tại. Sora không có hiểu biết ngầm về vật lý nên các video được tạo ra đôi khi có thể không tuân theo các quy luật vật lý trong thế giới thực.
Một ví dụ là khi một mô hình không hiểu được nguyên nhân và kết quả. Ví dụ: trong video bên dưới về một quả bóng rổ phát nổ, lưới dường như phục hồi sau khi quả bóng phát nổ.
Lời gợi ý: Quả bóng rổ đi qua vòng và phát nổ.
Tương tự, vị trí không gian của các vật thể có thể thay đổi không tự nhiên. Trong video về chó sói bên dưới, các con vật bất ngờ xuất hiện và vị trí của sói đôi khi trùng nhau.
Lời nhắc: Năm con sói xám đang chơi đùa và rượt đuổi nhau trên một con đường rải sỏi xa xôi, xung quanh là cỏ. Đàn con chạy nhảy, rượt đuổi nhau, cắn nhau và chơi đùa.
4.1 Những câu hỏi chưa được trả lời về độ tin cậy
Độ tin cậy của Sora hiện chưa rõ. Tất cả các ví dụ của OpenAI đều có chất lượng rất cao, nhưng vẫn chưa rõ mức độ liên quan đến việc hái quả anh đào. Khi sử dụng công cụ chuyển văn bản thành hình ảnh, bạn thường tạo từ 10 đến 20 hình ảnh và sau đó chọn hình ảnh đẹp nhất. Không rõ nhóm OpenAI đã tạo bao nhiêu hình ảnh để hiển thị video trong bài viết thông báo của mình. Điều này sẽ rất kém hiệu quả nếu cần tạo hàng trăm hoặc hàng nghìn video để có được một video có thể sử dụng được. Để trả lời câu hỏi này, chúng ta phải đợi cho đến khi công cụ này được sử dụng rộng rãi.
5, Các kịch bản ứng dụng của Sora là gì?
Sora có thể được sử dụng để tạo video từ đầu hoặc mở rộng các video hiện có để làm chúng dài hơn. Nó cũng có thể điền vào các khung hình còn thiếu trong video.
Cũng giống như các công cụ AI tạo văn bản thành hình ảnh giúp tạo hình ảnh dễ dàng hơn mà không cần chuyên môn chỉnh sửa hình ảnh, Sora hứa hẹn sẽ giúp việc tạo video mà không cần kinh nghiệm chỉnh sửa hình ảnh trở nên dễ dàng hơn. Dưới đây là một số trường hợp sử dụng chính.
5.1 Truyền thông xã hội
Sora có thể được sử dụng để tạo video ngắn cho các nền tảng truyền thông xã hội như TikTok, Instagram Reels và YouTube Shorts. Đặc biệt phù hợp với những nội dung khó hoặc không thể chụp ảnh. Ví dụ: quay một cảnh ở Lagos vào năm 2056 về mặt kỹ thuật khó sử dụng cho một bài đăng trên mạng xã hội nhưng lại dễ dàng tạo bằng Sora.
Lời gợi ý: Một đoạn video tự chế tuyệt đẹp về người dân ở Lagos, Nigeria vào năm 2056. Chụp bằng camera điện thoại di động.
5.2 Quảng cáo và Tiếp thị
Theo truyền thống, việc sản xuất quảng cáo, video quảng cáo và giới thiệu sản phẩm rất tốn kém. Các công cụ AI chuyển văn bản thành video như Sora hứa hẹn sẽ làm cho quá trình này rẻ hơn. Trong ví dụ bên dưới, một hội đồng du lịch muốn quảng bá vùng Big Sur của California có thể thuê máy bay không người lái để ghi lại cảnh quay trên không của địa điểm hoặc họ có thể sử dụng trí tuệ nhân tạo để tiết kiệm thời gian và tiền bạc.
Mẹo: Cảnh quay bằng máy bay không người lái chụp những con sóng vỗ vào vách đá gồ ghề của bãi biển Big Surgare. Làn nước trong xanh khuấy động những đợt sóng trắng xóa, những tia nắng vàng của mặt trời lặn chiếu sáng những bờ đá. Xa xa có một hòn đảo nhỏ có ngọn hải đăng và những bụi cây xanh mọc trên vách đá. Đoạn dốc từ đường đến bãi biển là một kỳ công ấn tượng, với mép vách đá nhô ra biển. Cảnh quan này ghi lại vẻ đẹp nguyên sơ của bờ biển và phong cảnh gồ ghề của Đường cao tốc Bờ biển Thái Bình Dương.
5.3 Tạo nguyên mẫu và trực quan hóa khái niệm
Ngay cả khi video AI không được sử dụng trong sản phẩm cuối cùng, nó vẫn có thể giúp giới thiệu các ý tưởng một cách nhanh chóng. Các nhà làm phim có thể sử dụng AI để mô phỏng các cảnh trước khi quay và các nhà thiết kế có thể tạo video sản phẩm trước khi xây dựng chúng. Trong ví dụ bên dưới, một công ty đồ chơi có thể tạo ra các mô hình AI của đồ chơi tàu cướp biển mới trước khi tạo ra chúng trên quy mô lớn.
Mẹo: Video cận cảnh thực tế về hai tàu cướp biển đang đánh nhau khi chèo thuyền bên trong tách cà phê.
5.4 Tạo dữ liệu toàn diện
Dữ liệu tổng hợp thường được sử dụng trong các trường hợp không thể sử dụng dữ liệu thực do các vấn đề về quyền riêng tư hoặc tính khả thi. Đối với dữ liệu số, các trường hợp sử dụng phổ biến là dữ liệu tài chính và thông tin nhận dạng cá nhân. Quyền truy cập vào các bộ dữ liệu này phải được kiểm soát chặt chẽ, nhưng bạn có thể tạo dữ liệu tổng hợp có thuộc tính tương tự để công chúng sử dụng.
Một ứng dụng của dữ liệu video tổng hợp là để đào tạo hệ thống thị giác máy tính. Ví dụ, Không quân Hoa Kỳ sử dụng dữ liệu tổng hợp để cải thiện hiệu suất của hệ thống thị giác máy tính của máy bay không người lái nhằm phát hiện các tòa nhà và phương tiện vào ban đêm và trong thời tiết xấu. Các công cụ như Sora làm cho quá trình này rẻ hơn và dễ tiếp cận hơn với nhiều đối tượng hơn.
6, Rủi ro của Sora là gì?
Sản phẩm này mới nên các rủi ro vẫn chưa được mô tả đầy đủ nhưng có thể tương tự như mô hình chuyển văn bản thành hình ảnh.
6.1 Tạo nội dung có hại
Nếu không có biện pháp bảo vệ thích hợp, Sora có khả năng tạo ra nội dung phản cảm hoặc không phù hợp, bao gồm các video chứa bạo lực, máu me, tài liệu khiêu dâm, mô tả xúc phạm đám đông và các hình ảnh thù hận khác cũng như các video quảng bá hoặc tôn vinh các hoạt động bất hợp pháp.
Yếu tố cấu thành nội dung không phù hợp rất khác nhau tùy thuộc vào người dùng (xem xét trẻ em so với người lớn sử dụng Sora) và bối cảnh video được tạo ra (video cảnh báo về sự nguy hiểm của pháo hoa có thể dễ dàng trở nên đẫm máu theo cách mang tính giáo dục).
6.2 Thông tin sai lệch và thông tin xuyên tạc
Theo video ví dụ được OpenAI chia sẻ, một trong những điểm mạnh của Sora là khả năng tạo ra những cảnh tưởng tượng không thể có được trong đời thực. Ưu điểm này cũng giúp bạn có thể tạo các video “deepfake”, trong đó người thật hoặc tình huống bị biến đổi thành thứ gì đó không có thật.
Khi nội dung này được trình bày là sự thật, dù vô tình (thông tin sai lệch) hay cố ý (thông tin sai lệch), nó có thể gây ra vấn đề.
Như Eske Montoya Martinez van Egerschot, giám đốc đạo đức và quản trị AI tại DigiDiplomacy, viết , “AI đang định hình lại nền tảng của chiến lược tranh cử, sự tham gia của cử tri và tính liêm chính trong bầu cử”.
Các video AI sai lệch nhưng hấp dẫn về các chính trị gia hoặc đối thủ chính trị có khả năng “truyền bá những câu chuyện sai sự thật một cách chiến lược và nhắm mục tiêu vào các nguồn hợp pháp bằng hành vi quấy rối nhằm làm suy yếu niềm tin vào các tổ chức công và nuôi dưỡng thái độ thù địch đối với các quốc gia và nhóm người khác nhau”.
Có nhiều cuộc bầu cử quan trọng diễn ra trong năm nay, từ Đài Loan, Ấn Độ đến Hoa Kỳ, sẽ có những phân nhánh trên phạm vi rộng.
6.3 Định kiến và khuôn mẫu
Đầu ra của mô hình AI tổng quát phụ thuộc rất nhiều vào dữ liệu mà nó được đào tạo. Điều này có nghĩa là những thành kiến hoặc khuôn mẫu về văn hóa trong dữ liệu đào tạo có thể gây ra những vấn đề tương tự trong các video được tạo. Như Joy Buolamwini thảo luận trong tập “Chiến đấu vì công lý thuật toán” của DataFramed, sự thiên vị trong hình ảnh có thể gây ra hậu quả nghiêm trọng cho việc tuyển dụng và kiểm soát.
7, Làm thế nào để truy cập Sora?
Sora hiện chỉ dành cho các nhà nghiên cứu “đội đỏ”. Nghĩa là, nhiệm vụ của chuyên gia là cố gắng xác định các vấn đề với mô hình. Ví dụ: họ sẽ cố gắng tạo nội dung có một số rủi ro được xác định trong phần trước để OpenAI có thể giảm thiểu những vấn đề này trước khi phát hành Sora ra công chúng.
OpenAI vẫn chưa chỉ định ngày phát hành công khai cho Sora, nhưng có thể là vào năm 2024.
8, Các lựa chọn thay thế cho Sora là gì?
Sora có một số lựa chọn thay thế nổi bật cho phép người dùng tạo nội dung video từ văn bản. Bao gồm các:
Đường băng-Gen-2. Giải pháp thay thế OpenAI Sora hấp dẫn nhất là Runway Gen-2 . Giống như Sora, đây là AI tạo văn bản thành video hiện có sẵn trên web và thiết bị di động.
Lumiere. Google gần đây đã phát hành Lumiere , hiện có sẵn dưới dạng phần mở rộng cho khung Python học sâu PyTorch .
Làm một đoạn phim. Meta sẽ ra mắt Make-a-Video vào năm 2022 ; một lần nữa, tính năng này có sẵn thông qua tiện ích mở rộng PyTorch .
Ngoài ra còn có một số đối thủ cạnh tranh nhỏ hơn:
Pictory đơn giản hóa việc chuyển đổi văn bản thành nội dung video, nhắm mục tiêu đến các nhà tiếp thị nội dung và nhà giáo dục bằng công cụ tạo video của nó.
Kapwing cung cấp nền tảng trực tuyến để tạo video từ văn bản, nhấn mạnh tính dễ sử dụng cho các nhà tiếp thị truyền thông xã hội và người sáng tạo thông thường.
Synthesia chuyên tạo các bản trình bày video dựa trên AI từ văn bản, cung cấp các video có hình đại diện có thể tùy chỉnh cho mục đích kinh doanh và giáo dục.
HeyGen được thiết kế để đơn giản hóa việc sản xuất video để tiếp thị sản phẩm và nội dung, xúc tiến bán hàng và giáo dục.
Steve AI cung cấp nền tảng AI có thể tạo video và hoạt ảnh từ lời nhắc đến video, tập lệnh sang video và âm thanh sang video.
Elai chuyên về e-learning và đào tạo doanh nghiệp, cung cấp giải pháp dễ dàng chuyển đổi nội dung giảng dạy thành các video giàu thông tin
Mô hình/Nền tảng | Nhà phát triển/Công ty | Tính khả dụng của nền tảng | Người dùng mục tiêu | Những đặc điểm chính |
Elai | Elai | Web | E-learning, đào tạo doanh nghiệp | Chuyển nội dung giảng dạy thành video |
Synthesia | Synthesia | Web | Doanh nghiệp, nhà giáo dục | Trình bày video dựa trên văn bản được hỗ trợ bởi hình đại diện được hỗ trợ bởi AI |
Pictory | Pictory | Web | Nhà tiếp thị nội dung, giáo dục | Đơn giản hóa việc chuyển đổi văn bản thành video để có những câu chuyện hấp dẫn |
HeyGen | HeyGen | Web | Nhà tiếp thị, nhà giáo dục | Tạo video để bán hàng và tiếp thị |
Lumiere | PyTorch mở rộng | Nhà phát triển, nhà nghiên cứu | Khả năng tạo văn bản thành video nâng cao cho người dùng PyTorch | |
Make-a-Video | Meta | PyTorch mở rộng | Người sáng tạo, nhà nghiên cứu | Tạo video chất lượng cao từ văn bản |
Steve AI | Steve AI | Web | Doanh nghiệp, cá nhân | Tạo video và hoạt ảnh cho nhiều ứng dụng |
Kapwing | Kapwing | Web | Nhà tiếp thị truyền thông xã hội, người sáng tạo ngẫu nhiên | Nền tảng tạo video từ văn bản |
Runway Gen-2 | Runway | Web, Mobile | Rộng rãi (sử dụng chung) | AI chuyển văn bản thành video có chất lượng cao, được nhân bản hóa |
9, OpenAI Sora có ý nghĩa gì đối với tương lai?
Không còn nghi ngờ gì nữa, Sora là một sự đột phá và tiềm năng của loại mô hình sáng tạo này là rất lớn. Sora sẽ có tác động gì đến ngành trí tuệ nhân tạo và thế giới? Tất nhiên, chúng ta chỉ có thể đưa ra những phỏng đoán có căn cứ. Tuy nhiên, đây là một số cách Sora có thể thay đổi mọi thứ theo chiều hướng tốt hơn hoặc xấu đi.
9.1 Tác động ngắn hạn của OpenAI Sora
Trước tiên, chúng ta hãy xem xét tác động ngắn hạn, tức thời mà Sora có thể có khi nó ra mắt công chúng (có thể theo từng giai đoạn).
9.1.1 Thắng nhanh
Trong phần trên, chúng ta đã khám phá một số trường hợp sử dụng tiềm năng của Sora. Nếu Sora được phát hành để sử dụng rộng rãi, nhiều trong số chúng có thể sẽ được áp dụng nhanh chóng. Điều này có thể bao gồm:
Sự phổ biến của các video dạng ngắn dành cho truyền thông xã hội và quảng cáo. Hy vọng rằng những người sáng tạo trên X (trước đây là Twitter), TikTok, LinkedIn và các nền tảng khác sẽ cải thiện chất lượng nội dung của họ thông qua công việc của Sora.
Tạo nguyên mẫu bằng Sora. Cho dù bạn đang giới thiệu một sản phẩm mới hay giới thiệu một dự án phát triển tòa nhà được đề xuất, Sora có thể là một công cụ phổ biến để trình bày ý tưởng.
Cải thiện cách kể chuyện dữ liệu. AI tạo văn bản thành video có thể cung cấp cho chúng ta trực quan hóa dữ liệu sống động hơn, mô phỏng mô hình tốt hơn và các cách tương tác để khám phá và trình bày dữ liệu. Điều đó nói lên rằng, điều quan trọng là phải hiểu cách Sora thực hiện những loại lời nhắc này.
Nguồn tài liệu học tập tốt hơn. Với các công cụ như Sora, tài liệu học tập có thể được nâng cao đáng kể. Các khái niệm phức tạp có thể trở thành hiện thực và nhiều người học trực quan hơn có thể tiếp cận với các công cụ hỗ trợ học tập tốt hơn.
9.1.2 Bãi mìn rủi ro
Tất nhiên, như chúng tôi đã nhấn mạnh trước đây, có nhiều tác động tiêu cực tiềm ẩn của công nghệ này cần phải khắc phục. Dưới đây là một số rủi ro chúng ta phải cảnh giác:
Truyền bá thông tin sai lệch và thông tin sai lệch. Nhìn chung, chúng ta phải sáng suốt hơn về nội dung chúng ta sử dụng và chúng ta cần những công cụ tốt hơn để phát hiện nội dung được sản xuất hoặc thao túng. Điều này đặc biệt quan trọng trong năm bầu cử.
Cướp biển. Chúng ta cần phải cẩn thận về cách sử dụng hình ảnh và chân dung của mình. Pháp luật và các biện pháp kiểm soát có thể được yêu cầu để ngăn chặn việc sử dụng dữ liệu cá nhân của chúng tôi theo cách không có sự đồng ý của chúng tôi. Cuộc tranh luận này có thể sẽ bắt đầu trước tiên khi người hâm mộ bắt đầu tạo video dựa trên loạt phim yêu thích của họ – điều đó cho thấy, quyền lợi cá nhân ở đây cũng rất cao.
Những thách thức về quy định và đạo đức. Các cơ quan quản lý đang tỏ ra khó khăn trong việc theo kịp những tiến bộ trong lĩnh vực AI tổng hợp và Sora có thể làm trầm trọng thêm vấn đề. Chúng ta phải sử dụng Sora một cách thích hợp và công bằng mà không ảnh hưởng đến quyền tự do cá nhân hoặc cản trở sự đổi mới.
Sự phụ thuộc vào công nghệ. Những công cụ như Sora có thể được xem như lối tắt hơn là trợ lý đối với nhiều người. Mọi người có thể xem nó như một sự thay thế cho sự sáng tạo, điều này có thể có ý nghĩa đối với nhiều ngành công nghiệp và các chuyên gia làm việc trong đó.
9.1.3 Tạo video trở thành biên giới cạnh tranh tiếp theo
Chúng tôi đã đề cập đến một số lựa chọn thay thế cho Sora, nhưng chúng tôi hy vọng danh sách này sẽ tăng đáng kể vào năm 2024 và hơn thế nữa. Như chúng ta đã thấy với ChatGPT, danh sách các lựa chọn thay thế cạnh tranh vị trí tiếp tục tăng lên và nhiều dự án đang lặp lại LLM nguồn mở trên thị trường.
Sora có thể là phương tiện tiếp tục thúc đẩy sự đổi mới và cạnh tranh trong lĩnh vực trí tuệ nhân tạo sáng tạo. Cho dù đó là thông qua các mô hình được tinh chỉnh cho các mục đích sử dụng cụ thể hay các công nghệ độc quyền cạnh tranh trực tiếp, nhiều công ty lớn nhất trong ngành có thể muốn có một phần trong hoạt động kinh doanh chuyển văn bản thành video.
9.2 Tác động lâu dài của OpenAI Sora
Khi bụi lắng xuống sau khi Sora của OpenAI phát hành công khai, chúng ta sẽ bắt đầu nhìn thấy tương lai lâu dài hơn. Không thể tránh khỏi việc Sora sẽ thấy một số cách sử dụng có thể thay đổi cuộc chơi khi các chuyên gia ở nhiều ngành khác nhau chạm tay vào công cụ này. Chúng ta hãy suy đoán xem một số trong số chúng có thể là gì:
9.2.1 Có thể mở khóa các trường hợp sử dụng có giá trị cao
Sora (hoặc các công cụ tương tự) có tiềm năng trở thành trụ cột trong nhiều ngành:
Tạo nội dung nâng cao. Chúng ta có thể coi Sora như một công cụ để tăng tốc sản xuất trong các lĩnh vực giải trí truyền thống như VR và AR, trò chơi điện tử và thậm chí cả truyền hình và phim ảnh. Ngay cả khi nó không được sử dụng trực tiếp để tạo ra các phương tiện như vậy, nó vẫn có thể hỗ trợ cho các ý tưởng tạo nguyên mẫu và xây dựng kịch bản phân cảnh.
Giải trí được cá nhân hóa. Tất nhiên, chúng ta có thể thấy các ví dụ về việc Sora tạo và quản lý nội dung được thiết kế riêng cho người dùng. Phương tiện truyền thông tương tác và đáp ứng phù hợp với thị hiếu và sở thích cá nhân có thể xuất hiện.
Giáo dục cá nhân hóa. Tương tự như vậy, loại nội dung được cá nhân hóa cao này có thể tìm được chỗ đứng trong giáo dục, giúp học sinh học theo cách phù hợp nhất với nhu cầu của họ.
Chỉnh sửa video trực tiếp. Nội dung video có thể được chỉnh sửa hoặc làm lại theo thời gian thực để phù hợp với nhiều đối tượng khán giả khác nhau, điều chỉnh các khía cạnh như giọng điệu, độ phức tạp và thậm chí cả câu chuyện dựa trên sở thích hoặc phản hồi của khán giả.
9.2.2 Ranh giới giữa thế giới vật chất và thế giới kỹ thuật số bắt đầu mờ nhạt
Chúng ta đã tiếp xúc với thực tế ảo (VR) và thực tế tăng cường (AR), nhưng Sora kết hợp với các phương tiện này có tiềm năng cách mạng hóa cách chúng ta tương tác với nội dung số. Nếu các phiên bản tương lai của Sora có thể tạo ra các thế giới ảo chất lượng cao có thể sinh sống trong vài giây, sử dụng văn bản và âm thanh được tạo ra để đưa vào các ký tự ảo có vẻ như thật, thì điều đó sẽ đặt ra một câu hỏi nghiêm túc về ý nghĩa của việc điều hướng trong thế giới kỹ thuật số. bạn đang mặc à? tương lai.
Nhìn chung, mô hình Sora của OpenAI hứa hẹn một bước nhảy vọt về chất lượng video được tạo ra. Các phiên bản sắp tới và ứng dụng tiềm năng của chúng trong nhiều lĩnh vực khác nhau rất được mong đợi.
Phân tích chi tiết về SORA bằng kỹ thuật đảo ngược
Dựa trên báo cáo kỹ thuật công khai và kỹ thuật đảo ngược của Sora, họ đã tiến hành phân tích toàn diện về nền tảng mô hình, các công nghệ, ứng dụng liên quan, những thách thức hiện có và hướng phát triển trong tương lai của mô hình AI chuyển văn bản thành video.
Thậm chí, lịch sử phát triển của các mô hình thế hệ AI trong lĩnh vực thị giác máy tính và các mô hình thế hệ video xuất hiện trong hai năm qua cũng có thể liệt kê:
Cư dân mạng thực sự không ngờ rằng chỉ sau nửa tháng, Sora vẫn chưa được công khai và chỉ một số ít người có thể sử dụng nó, các nghiên cứu liên quan trong giới học thuật lại xuất hiện nhanh như vậy.
Nhiều cư dân mạng cho rằng bài đánh giá rất toàn diện và có tổ chức, nên đọc toàn văn.
Vì vậy, chính xác những gì đánh giá này bao gồm?
Chúng tôi đã sắp xếp các nội dung trong chuyên đề tìm hiểu Sora thành những phần chính như sau:
Mục lục phân tích Sora bằng kỹ thuật đảo ngược
Phân tích kỹ thuật đảo ngược Sora chi tiết kỹ thuật
Cấu trúc tổng thể
Tiền xử lý dữ liệu trực quan đa dạng
Điều chỉnh chỉ thị: Trình tạo tóm tắt video
Dự án nhắc nhở video
Sora là một cột mốc
Năm triển vọng và hạn chế ứng dụng chính của Sora
Phân tích kỹ thuật đảo ngược Sora chi tiết kỹ thuật
Như chúng ta đã biết, sau khi Sora ra mắt, OpenAI đã đưa ra một báo cáo kỹ thuật nhưng không tiết lộ chi tiết kỹ thuật chi tiết, một số cư dân mạng phàn nàn rằng OpenAI vẫn còn quá “gần gũi”.
Giới học thuật cũng có nhiều suy đoán khác nhau, người sáng tạo ResNeXt Xie Saining, nhà khoa học AI của NVIDIA Jim Fan và những tên tuổi lớn khác đã nhiệt tình mở mic. Jim Fan cũng hét lên rằng Sora chính là khoảnh khắc GPT-3 do video tạo ra .
Tuy nhiên, bài đánh giá gần đây nhất của nhà nghiên cứu OpenAI Jason Wei về Sora là những khoảnh khắc GPT-2 được tạo bằng video .
Các ông lớn có quan điểm khác nhau nhưng khó có thể nói phán đoán của ai chính xác hơn.
Trong đánh giá nghiên cứu này, các nhà nghiên cứu đã sử dụng kỹ thuật đảo ngược để suy đoán và phân tích các chi tiết kỹ thuật của Sora, đồng thời thảo luận về một loạt công việc liên quan. Nó đại khái liên quan đến các vấn đề sau –
Cấu trúc tổng thể của Sora
Theo báo cáo kỹ thuật do OpenAI công bố, Sora là một mô hình khuếch tán được đào tạo trên video và hình ảnh có thời lượng, độ phân giải và tỷ lệ khung hình khác nhau . Nó cũng sử dụng kiến trúc Transformer , hay còn gọi là “Biến áp khuếch tán” .
Xem xét công việc hiện có và sử dụng kỹ thuật đảo ngược, các nhà nghiên cứu đã suy đoán để bổ sung thêm thông tin sau.
Toàn bộ khung Sora có thể bao gồm ba phần:
Đầu tiên, một máy nén không gian-thời gian ánh xạ video gốc vào không gian tiềm ẩn;
Sau đó, ViT xử lý các biểu diễn tiềm ẩn được mã hóa này và đưa ra biểu diễn tiềm ẩn đã được mã hóa;
Cơ chế có điều kiện giống CLIP nhận hướng dẫn người dùng và tín hiệu hình ảnh tiềm năng được LLM tăng cường để tạo video có chủ đề phong cách cụ thể. Sau nhiều lần khử nhiễu, cuối cùng cũng thu được một biểu diễn tiềm ẩn của video được tạo, sau đó được ánh xạ trở lại không gian pixel thông qua bộ giải mã tương ứng.
Chi tiết hơn, kỹ thuật đảo ngược suy đoán rằng Sora sử dụng kiến trúc mô hình khuếch tán theo tầng , kết hợp một mô hình cơ bản và nhiều mô hình sàng lọc không gian thời gian.
Do chi phí tính toán cao và cải thiện hiệu suất hạn chế khi sử dụng các cơ chế chú ý ở độ phân giải cao, nên các mô hình khuếch tán cơ bản và mô hình khuếch tán độ phân giải thấp khó có thể sử dụng rộng rãi các mô-đun chú ý.
Đồng thời, coi tính nhất quán về thời gian quan trọng hơn tính nhất quán về không gian trong việc tạo video/cảnh, Sora có thể áp dụng chiến lược đào tạo hiệu quả với các video dài (để có tính nhất quán về thời gian) và độ phân giải thấp để đảm bảo tính nhất quán về không gian và thời gian.
Ngoài ra, Sora có thể sử dụng mô hình khuếch tán tham số v nhờ hiệu suất vượt trội so với việc dự đoán các biến thể khác của biến tiềm ẩn x hoặc nhiễu ϵ ban đầu.
Về mặt bộ mã hóa tiềm ẩn, hầu hết công việc hiện tại đều sử dụng bộ mã hóa VAE được đào tạo trước của Stable Diffusion làm điểm kiểm tra mô hình ban đầu để cải thiện hiệu quả đào tạo.
Tuy nhiên, bộ mã hóa thiếu khả năng nén theo thời gian. Mặc dù một số công trình đề xuất tinh chỉnh bộ giải mã chỉ để xử lý thông tin tạm thời, hiệu suất của bộ giải mã trong việc xử lý dữ liệu thời gian video trong không gian tiềm ẩn được nén vẫn chưa tối ưu.
Dựa trên báo cáo kỹ thuật, các nhà nghiên cứu suy đoán rằng Sora có thể không sử dụng bộ mã hóa VAE được đào tạo trước hiện có mà sử dụng bộ mã hóa VAE không gian thời gian được đào tạo từ đầu trên dữ liệu video trong không gian tiềm ẩn được nén được tối ưu hóa cho nội dung video.
Tiền xử lý dữ liệu trực quan đa dạng
Không giống như các phương pháp truyền thống yêu cầu cắt kích thước video hoặc điều chỉnh tỷ lệ khung hình để phù hợp với kích thước tiêu chuẩn thống nhất, Sora có thể đào tạo, hiểu và tạo video trên video và hình ảnh có kích thước gốc .
Điều đó có nghĩa là, nó có thể xử lý dữ liệu hình ảnh đa dạng mà không làm mất các mẫu có kích thước ban đầu, giúp cải thiện đáng kể cấu trúc và khung video của Sora, giúp các video được tạo ra trở nên tự nhiên và mạch lạc hơn.
Ví dụ: khi được đào tạo bằng các phương pháp truyền thống, như trong hình bên trái, phần nội dung chính của video bị cắt do cắt vuông, trong khi ở hình ảnh bên phải, được đào tạo bằng các mẫu gốc, phần nội dung chính của video được ghi lại hoàn toàn .
Mặc dù OpenAI tập trung vào các chi tiết kỹ thuật của phần này trong báo cáo kỹ thuật nhưng nó chỉ đưa ra một ý tưởng cấp cao:
Để xử lý hình ảnh và video có độ phân giải, tỷ lệ khung hình và thời lượng khác nhau, Sora sử dụng cách trình bày trực quan thống nhất. Cụ thể, trước tiên, mô hình sẽ nén video vào một không gian tiềm ẩn có chiều thấp, sau đó phân tách biểu diễn thành các mảng không gian, thời gian, do đó đạt được khả năng “chắp vá” của video.
Trong quá trình xem xét, các nhà nghiên cứu đã thực hiện phân tích sau đây.
Mạng nén video của Sora (bộ mã hóa hình ảnh) nhằm mục đích giảm tính chiều của dữ liệu đầu vào (video thô) và xuất ra biểu diễn tiềm ẩn được nén theo cả thời gian và không gian.
Theo tài liệu tham khảo trong báo cáo kỹ thuật của Sora, mạng nén được xây dựng trên VAE hoặc VQ-VAE. Nếu không thay đổi kích thước và cắt xén như đã đề cập trong báo cáo kỹ thuật, VAE khó có thể ánh xạ dữ liệu trực quan vào một không gian tiềm ẩn đồng nhất và có kích thước cố định.
Tuy nhiên, có hai cách để giải quyết vấn đề này.
Một phương pháp là Nén bản vá không gian , tương tự như phương pháp được sử dụng trong ViT và MAE, chia khung hình video thành các bản vá có kích thước cố định và mã hóa chúng vào không gian tiềm ẩn.
Có một số vấn đề chính cần chú ý:
Sự thay đổi trong chiều thời gian. Do thời lượng video khác nhau và kích thước không gian cơ bản không cố định nên cần tích hợp thông tin thời gian bằng cách lấy mẫu một số khung hình cố định hoặc đặt độ dài đầu vào siêu dài.
Tận dụng bộ mã hóa hình ảnh được đào tạo trước. Hầu hết các nhà nghiên cứu có xu hướng sử dụng các bộ mã hóa được đào tạo trước như VAE của Stable Diffusion, nhưng nhóm Sora có thể đào tạo các bộ mã hóa và giải mã của riêng họ để có thể xử lý hiệu quả dữ liệu bản vá kích thước lớn.
Tích hợp thông tin thời gian. Do cách tiếp cận này chủ yếu tập trung vào nén bản vá không gian, nên cần có các cơ chế bổ sung bên trong mô hình để tổng hợp thông tin thời gian, điều này rất quan trọng để nắm bắt các thay đổi động.
Một phương pháp khác là Nén không gian-thời gian , sử dụng tích chập 3D để trích xuất thông tin thời gian.
Cách tiếp cận này đồng thời gói gọn các chiều không gian và thời gian của dữ liệu video, cung cấp trình bày video toàn diện có tính đến chuyển động và thay đổi giữa các khung hình, từ đó nắm bắt được bản chất động của video.
Tương tự như nén bản vá không gian, nén bản vá không gian thời gian xử lý video bằng cách đặt các tham số hạt nhân tích chập cụ thể. Do sự khác biệt về tính năng của đầu vào video, kích thước không gian tiềm năng sẽ thay đổi. Ở đây, phương pháp bản vá không gian được đề cập ở trên cũng được áp dụng tương tự và hoạt động.
Ngoài ra còn có một câu hỏi quan trọng trong phần này của mạng nén: làm cách nào để xử lý số lượng khối tính năng hoặc bản vá tiềm ẩn trong các loại video khác nhau trước khi đưa các bản vá vào lớp đầu vào của Biến áp khuếch tán?
Các nhà nghiên cứu tin rằng patch n’ pack (PNP) có thể là giải pháp , dựa trên báo cáo kỹ thuật của Sora và các tài liệu tham khảo tương ứng .
PNP đóng gói nhiều bản vá từ các hình ảnh khác nhau thành một chuỗi, tương tự như việc đóng gói ví dụ trong NLP, bằng cách loại bỏ các mã thông báo để phù hợp với việc đào tạo hiệu quả các đầu vào có độ dài thay đổi.
Trong quá trình đóng gói, bạn cần cân nhắc cách đóng gói các miếng dán này một cách gọn gàng và cách kiểm soát những miếng dán nào nên bỏ đi.
Đối với câu hỏi đầu tiên, các nhà nghiên cứu đã đề cập đến một thuật toán đơn giản bổ sung các ví dụ khi còn đủ không gian và sau đó lấp đầy chuỗi bằng mã thông báo để có được độ dài chuỗi cố định cần thiết cho các hoạt động hàng loạt.
Đối với vấn đề thứ hai, cách tiếp cận trực quan là loại bỏ các token tương tự hoặc áp dụng công cụ lập lịch tỷ lệ loại bỏ như PNP.
Tuy nhiên, việc loại bỏ mã thông báo có thể làm mất một số chi tiết trong quá trình đào tạo. Do đó, các nhà nghiên cứu tin rằng OpenAI có thể sử dụng cửa sổ ngữ cảnh cực dài để đóng gói tất cả các token trong video.
Các bản vá tiềm ẩn về không gian-thời gian của một video dài có thể được gói thành một chuỗi, trong khi các bản vá tiềm ẩn từ một số video ngắn được nối theo một chuỗi khác.
Nhìn chung, trong phần tiền xử lý dữ liệu, các nhà nghiên cứu suy đoán rằng Sora trước tiên nén các bản vá trực quan thành các biểu diễn tiềm ẩn có chiều thấp, sau đó sắp xếp các bản vá tiềm ẩn đó hoặc các bản vá tiềm ẩn được vá tiếp theo thành một chuỗi, sau đó sắp xếp các bản vá tiềm ẩn này thành một chuỗi. được tiêm trước khi đưa vào lớp đầu vào của Biến áp khuếch tán.
Sora sử dụng tính năng vá không gian-thời gian vì nó dễ thực hiện và có thể giảm độ dài ngữ cảnh của mã thông báo một cách hiệu quả với mật độ thông tin cao và giảm độ phức tạp của mô hình hóa thông tin thời gian tiếp theo.
Điều chỉnh chỉ thị: Trình tạo mô tả video
Điều chỉnh hướng dẫn mô hình nhằm mục đích nâng cao khả năng làm theo lời nhắc của mô hình AI, cho phép mô hình thích ứng với nhiều yêu cầu của người dùng hơn, đảm bảo sự chú ý tỉ mỉ đến từng chi tiết trong hướng dẫn và tạo video đáp ứng chính xác nhu cầu của người dùng.
Sora có cách tiếp cận tương tự với DALL·E 3 về vấn đề này.
Đầu tiên, hãy đào tạo một trình tạo phụ đề video (Video captioner) có thể mô tả chi tiết video. Sau đó, điều này được áp dụng cho tất cả các video trong dữ liệu huấn luyện để tạo ra các cặp văn bản-video chất lượng cao, được sử dụng để tinh chỉnh Sora nhằm cải thiện khả năng làm theo hướng dẫn của nó.
Báo cáo kỹ thuật của Sora không tiết lộ chi tiết về việc đào tạo trình tạo tóm tắt video. Vì trình tóm tắt video là một mô hình văn bản video nên có nhiều cách để xây dựng nó.
Một trong những phương pháp là tận dụng kiến trúc CoCa để tạo tóm tắt video bằng cách lấy nhiều khung hình của video và nhập từng khung hình vào bộ mã hóa hình ảnh VideoCoCa.
VideoCoCa dựa trên CoCa và sử dụng lại trọng số của bộ mã hóa hình ảnh đã được huấn luyện trước, được áp dụng độc lập cho các khung hình video được lấy mẫu. Việc nhúng mã thông báo khung kết quả được làm phẳng và ghép nối thành một chuỗi dài các biểu diễn video. Các mã thông báo khung phẳng này sau đó được xử lý bởi một công cụ tổng hợp tổng hợp và một công cụ tổng hợp tương phản, được đào tạo chung với tổn thất tương phản và tổn thất tạo tổng hợp.
Các tùy chọn khác để xây dựng trình tạo mô tả video bao gồm mPLUG-2, GIT, FrozenBiLM và các tùy chọn khác.
Cuối cùng, để đảm bảo rằng lời nhắc của người dùng được căn chỉnh với định dạng tóm tắt mô tả trong dữ liệu đào tạo, Sora thực hiện bước mở rộng lời nhắc bổ sung, trong đó thông tin đầu vào của người dùng được mở rộng thành lời nhắc mô tả chi tiết bằng GPT-4V.
Dự án nhắc nhở video
Kỹ thuật nhắc nhở là cho phép người dùng hướng dẫn mô hình AI tạo ra nội dung phù hợp với ý định của nó.
Nghiên cứu trước đây về kỹ thuật gợi ý chủ yếu tập trung vào các gợi ý cho LLM và hình ảnh được tạo văn bản, đồng thời các nhà nghiên cứu suy đoán rằng các gợi ý video cho mô hình tạo video sẽ ngày càng nhận được sự chú ý.
Hiệu quả của kỹ thuật gợi ý phụ thuộc vào việc lựa chọn từ ngữ chính xác, sự rõ ràng của các chi tiết và sự hiểu biết sâu sắc về cách những chi tiết đó ảnh hưởng đến kết quả đầu ra của mô hình. Ví dụ: trong ví dụ bên dưới, các từ gợi ý mô tả chi tiết hành động, môi trường, hình mẫu nhân vật và thậm chí cả cảm xúc và không khí cảnh mong muốn.
Sora cũng có thể tận dụng cả thông tin hình ảnh và văn bản để chuyển đổi hình ảnh tĩnh thành video động, có nội dung tường thuật.
Ngoài ra, Sora cũng có thể mở rộng video tiến hoặc lùi và có thể chỉ định hướng mở rộng, chủ đề, v.v. thông qua lời nhắc.
Trong (a) bên dưới, lời nhắc video hướng dẫn Sora tua lại video mở rộng. Trong hình (b) bên dưới, khi chuyển cảnh video, người mẫu cần hiểu rõ phong cách video, bầu không khí, sự thay đổi ánh sáng và bóng râm cũng như các chi tiết khác thông qua lời nhắc. Trong Hình (c), việc hướng dẫn Sora kết nối với video và chuyển đổi mượt mà giữa các đối tượng trong các cảnh khác nhau cũng yêu cầu thực hiện dự án nhanh chóng.
Sora là một cột mốc quan trọng của ngành trí tuệ nhân tạo, khoa học máy tính, công nghệ thông tin
Nó đã bùng nổ cả trong lẫn ngoài ngành và được gọi là thời điểm của thế hệ video GPT-3 và GPT-2. Tại sao Sora lại được coi là một cột mốc quan trọng?
Nhìn vào lịch sử phát triển của các mô hình tạo AI trong lĩnh vực thị giác máy tính (CV) , bước đột phá của Sora có thể còn rõ ràng hơn.
Trong thập kỷ qua, sự phát triển của các mô hình CV tổng quát đã thay đổi theo nhiều cách khác nhau.
Trước cuộc cách mạng học sâu, việc tạo hình ảnh truyền thống dựa vào các phương pháp như tổng hợp kết cấu và ánh xạ kết cấu dựa trên các tính năng thủ công.
Sau đó, mạng đối nghịch tổng quát (GAN) và bộ mã hóa tự động biến thiên (VAE) , mô hình dòng chảy (mô hình dòng chảy) và mô hình khuếch tán (mô hình khuếch tán) lần lượt xuất hiện.
Kiến trúc Transformer đã trải qua những thay đổi to lớn, lần đầu tiên nó được áp dụng thành công trong lĩnh vực NLP, sau đó kết hợp với các thành phần trực quan trong lĩnh vực CV, cho ra đời ViT, Swin Transformer, v.v.
Đồng thời, các mô hình khuếch tán cũng đạt được tiến bộ đáng kể trong lĩnh vực tạo hình ảnh và video.
Kể từ năm 2021, đa phương thức AI đã mở ra những thay đổi. CLIP và Khuếch tán ổn định lần lượt trở nên phổ biến.
Điểm quan trọng là lĩnh vực mô hình ngôn ngữ lớn đã dần bắt đầu thể hiện quy luật tỷ lệ và ChatGPT, GPT-4, v.v. đã thể hiện những khả năng nổi lên nhất định.
Tuy nhiên, vẫn chưa rõ liệu các mô hình trực quan có tuân thủ quy luật chia tỷ lệ hay không.
Là một mô hình hình ảnh quy mô lớn (LVM) , sự ra đời của Sora phù hợp với nguyên tắc quy mô, cho thấy một số khả năng mới nổi trong việc tạo văn bản-video. Sự phát triển này nêu bật tiềm năng của LVM trong việc đạt được những tiến bộ giống như LLM.
Theo báo cáo kỹ thuật của Sora, đây là mô hình trực quan đầu tiên được xác nhận có khả năng vượt trội, đánh dấu một cột mốc quan trọng trong lĩnh vực thị giác máy tính.
Ngoài những khả năng nổi bật như đã đề cập ở trên, Sora còn có những cải tiến đáng kể về khả năng làm theo hướng dẫn, kỹ thuật gợi ý trực quan và hiểu video.
Ví dụ: Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật và chuyển động cụ thể, đồng thời nó không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà dường như còn hiểu cách các vật thể đơn giản tồn tại trong thế giới vật chất. Nó cũng có thể tạo nhiều cảnh quay trong một video và dựa vào sự hiểu biết sâu sắc về ngôn ngữ để diễn giải chính xác các từ gợi ý, bảo toàn tính cách và phong cách hình ảnh…
5 lĩnh vực có thể ứng dụng Sora trong tương lai và hạn chế/nhược điểm chính của Sora
Các nhà nghiên cứu kết luận rằng Sora có năm điểm nổi bật chính: cải thiện khả năng mô phỏng, thúc đẩy tính sáng tạo, thúc đẩy đổi mới giáo dục, nâng cao khả năng tiếp cận và thúc đẩy các ứng dụng mới nổi.
Cuối cùng, năm kịch bản ứng dụng chính của Sora được tóm tắt:
- Sản xuất phim :
Ứng dụng Sora mang tính cách mạng trong lĩnh vực sản xuất phim, nó có thể chuyển đổi kịch bản văn bản thành video kiểu phim, hạ thấp ngưỡng sản xuất phim và cho phép các cá nhân sáng tạo sản xuất nội dung phim.
- Giáo dục :
Trong lĩnh vực giáo dục, Sora có thể chuyển đổi giáo trình hoặc mô tả văn bản thành nội dung video động, cải thiện sự tham gia và hiểu biết của học sinh, đồng thời mang đến những cơ hội chưa từng có để tùy chỉnh và kích hoạt các tài liệu giáo dục.
- Trò chơi :
Việc phát triển trò chơi truyền thống thường bị hạn chế bởi môi trường được kết xuất sẵn và các sự kiện theo kịch bản. Có khả năng tạo nội dung video động, độ trung thực cao và âm thanh trung thực trong thời gian thực, các mô hình khuếch tán hứa hẹn sẽ khắc phục những hạn chế hiện có và cung cấp cho nhà phát triển các công cụ để tạo môi trường trò chơi phát triển phản ứng một cách tự nhiên với hành động của người chơi và các sự kiện trong trò chơi.
- Chăm sóc sức khỏe :
Trong lĩnh vực y tế, nó đặc biệt thích hợp để xác định các bất thường năng động trong cơ thể, chẳng hạn như apoptosis tế bào sớm, tiến triển tổn thương da và cử động bất thường của con người, điều này rất quan trọng cho các chiến lược can thiệp và phát hiện bệnh sớm.
- Robot :
Trong lĩnh vực robot, Sora có thể nâng cao khả năng nhận thức trực quan và ra quyết định của robot. Cho phép họ tương tác với môi trường và thực hiện các nhiệm vụ với độ phức tạp và độ chính xác chưa từng có.
Tuy nhiên, mặc dù Sora đã đạt được tiến bộ đáng kể trong lĩnh vực tạo video AI nhưng nó vẫn phải đối mặt với một số thách thức.
Giải quyết sự thiên vị trong nội dung được tạo và ngăn chặn nội dung trực quan có hại, đảm bảo tính an toàn liên tục và không có thành kiến của đầu ra của Sora là một thách thức lớn.
Ngoài ra, các hạn chế/nhược điểm của SORA bao gồm:
Thách thức về tính xác thực vật lý:
Sora có sự mâu thuẫn trong việc xử lý các quy luật vật lý của các cảnh phức tạp, ví dụ như ăn một chiếc bánh quy không nhất thiết phải để lại vết cắn.
Độ phức tạp về không gian và thời gian:
Sora đôi khi gặp khó khăn trong việc hiểu chính xác bố cục không gian và hướng dẫn sắp xếp thời gian, dẫn đến nhầm lẫn về vị trí hoặc cách sắp xếp các đồ vật và ký tự.
Hạn chế của tương tác giữa người và máy tính:
Người dùng khó thực hiện các sửa đổi hoặc tối ưu hóa chi tiết đối với nội dung được tạo.
Hạn chế sử dụng: OpenAI chưa mở Sora ra công chúng. S
ora vẫn có thể yêu cầu cải tiến và thử nghiệm thêm về mặt bảo mật, bảo vệ quyền riêng tư và đánh giá nội dung. Và hiện tại Sora chỉ có thể tạo video dài tối đa một phút, hạn chế việc sử dụng nó trong các tình huống ứng dụng cần hiển thị nội dung dài hơn.
CÁCH SỬ DỤNG SORA của OpenAi
OpenAI gần đây đã ra mắt một mô hình AI có tên Sora, được thiết kế để tạo video dựa trên văn bản và mô phỏng các tương tác trong thế giới thực. Sora có khả năng tạo video về những cảnh phức tạp và hiện đang được mở để thử nghiệm nhằm chọn lọc người dùng nhằm đánh giá mức độ an toàn và cải tiến hơn nữa công nghệ.
Như có thể thấy trong video trình diễn, Sora đã có thể tạo ra những cảnh phức tạp với nhiều nhân vật thực hiện các chuyển động cụ thể .
Cách sử dụng Sora | Love AI Navigation
Trong lĩnh vực sản xuất video truyền thống, việc tạo kịch bản, quay phim, biên tập, hậu kỳ đều đòi hỏi đầu tư nhân lực và vật chất rất lớn, tốn nhiều thời gian và chi phí. Sự xuất hiện của Sora có thể đơn giản hóa quá trình này rất nhiều, một người hoặc thậm chí một nhóm có thể hoàn thành việc sản xuất video chất lượng cao, giúp giảm đáng kể ngưỡng và chi phí sản xuất video.
Hiệu ứng đáng kinh ngạc của Sora cho thấy openai rất mạnh mẽ trong việc đào tạo hỗn hợp hình ảnh và video.
Đánh giá từ chi tiết sản phẩm, so với các mô hình tương tự khác, video do Sora tạo ra cho thấy những lợi thế rõ ràng về thời lượng, tính nhất quán của nội dung, tính mạch lạc và độ phân giải. Có thể thấy từ hiệu ứng demo do OpenAI phát hành rằng trong video dài một phút được tạo, có thể cảm nhận rõ ràng rằng cảnh trong video thay đổi theo chuyển động của máy ảnh và tính nhất quán của nội dung được duy trì.
“Khi video có thời lượng rất dài, việc đảm bảo từng khung hình được phối hợp là một vấn đề khá phức tạp. Trong quá trình huấn luyện, khi xử lý dữ liệu video phải xử lý nhiều hình ảnh và cách chuyển 100 khung hình ảnh sang GPU là một trong những vấn đề cần giải quyết. Và trong quá trình đào tạo Trong quá trình suy luận, vì nó liên quan đến việc tạo ra một số lượng lớn khung hình nên tốc độ suy luận sẽ chậm hơn so với một hình ảnh duy nhất và chi phí tính toán cũng sẽ tăng lên.”
Nhóm nhu cầu:
[“Tạo nội dung video mô hình phổ biến”, “Phát triển ứng dụng cung cấp khả năng mô phỏng trực quan”, “Công cụ tạo và chỉnh sửa nội dung video”]
Các trường hợp sử dụng Sora, ví dụ:
Sử dụng Sora trong ứng dụng tạo video để tạo nội dung phù hợp với lời nhắc văn bản Kết hợp Sora để tạo kết cấu và môi trường có độ trung thực cao trong trò chơi hoặc trình mô phỏng
Chỉnh sửa và chuyển tiếp hình ảnh và video liền mạch với Sora Creative sử dụng cho Sora:
Digital Tiếp thị: Nhanh chóng tạo các video quảng cáo hấp dẫn để tăng mức độ tiếp xúc và tỷ lệ chuyển đổi thương hiệu.
Nội dung giáo dục: Tạo các video hướng dẫn lôi cuốn, hấp dẫn giúp học sinh hiểu rõ hơn về các khái niệm phức tạp.
Tường thuật và giải trí: Sử dụng Sora để kể câu chuyện của bạn, từ tiểu thuyết đến kịch bản phim, dễ dàng chuyển thể thành tác phẩm trực quan.
Nội dung truyền thông xã hội: Nhanh chóng tạo ra các tài liệu truyền thông xã hội chất lượng cao để thu hút nhiều sự chú ý và tương tác hơn.
Bây giờ, hãy đối chiếu quá trình này với cách Sora xử lý dữ liệu hình ảnh đa dạng . Thách thức mà Sora phải đối mặt là nhu cầu xử lý và hiểu hàng triệu hình ảnh và video được chụp từ khắp nơi trên thế giới và trên các thiết bị khác nhau. Những dữ liệu hình ảnh này khác nhau về độ phân giải, tỷ lệ khung hình, độ sâu màu, v.v. Ví dụ về
kỹ thuật nhắc từ, câu lệnh trong dùng Sora :
Promptpart1:
(Một camera bay không người lái quay quanh một nhà thờ lịch sử tuyệt đẹp được xây dựng trên một tảng đá ở Bờ biển Amalfi. Khung cảnh cho thấy các chi tiết kiến trúc lịch sử, vĩ đại cũng như các lối đi và sân hiên nhiều tầng cũng như sóng biển. Vỗ tay vào những tảng đá bên dưới, nhìn ra vùng nước ven biển và phong cảnh đồi núi của bờ biển Amalfi của Ý, có thể nhìn thấy một số người ở xa đang đi dạo trên sân thượng, chiêm ngưỡng khung cảnh biển ngoạn mục, ánh nắng chiều ấm áp tạo nên cảm giác kỳ diệu cho khung cảnh Và cảm giác lãng mạn, những bức ảnh đẹp ghi lại khung cảnh tuyệt đẹp. )
Lưu ý về sử dụng câu lệnh với Sora:
Mặc dù Sora có thể tạo ra các cảnh động với mức độ phức tạp nhất định nhưng nó vẫn có những hạn chế về độ chính xác của việc mô phỏng thế giới vật chất. Ví dụ: Sora đôi khi không thể tái tạo chính xác các tương tác vật lý phức tạp, chẳng hạn như quá trình vỡ kính tinh tế hoặc các cảnh liên quan đến chuyển động cơ học chính xác.
Có thể thấy từ các ví dụ được công bố ở trên, hiệu ứng của video của Vincent thật đáng kinh ngạc. Lần này Sora technology OpenAI cũng đề cập rằng nó sẽ không chia sẻ các chi tiết kỹ thuật mà chỉ cung cấp các khái niệm thiết kế mô hình và video demo. Nhìn chung, chúng ta sẽ không thể tìm hiểu thêm thông tin hiệu quả về mặt kỹ thuật trong tương lai.