3 月 20 日消息,一家名為 Runway 的人工智能創(chuàng)業(yè)公司宣布了一款新的文本生成視頻(Text-to-video)AI 模型,名為 Gen-2,文本生成視頻也就是用戶可以輸入一個描述,然后系統(tǒng)自動生成任何風(fēng)格的對應(yīng)視頻。目前的技術(shù)還達(dá)不到這個夢想,但 Runway 公司的新模型已經(jīng)展示了一些非常好的效果。
Runway 公司提供了一個基于網(wǎng)絡(luò)的視頻編輯器,專注于人工智能工具,如背景移除和姿態(tài)檢測。該公司參與開發(fā)了開源文本生成圖像模型 Stable Diffusion,并在二月份發(fā)布了第一個人工智能視頻編輯模型 Gen-1。
Gen-1 主要是對現(xiàn)有視頻素材進(jìn)行轉(zhuǎn)換,讓用戶輸入一個粗糙的 3D 動畫或者抖動的手機拍攝片段,并應(yīng)用一個人工智能生成的覆蓋層。例如在下面的例子中,紙板包裝的視頻與一個工業(yè)廠房的圖片結(jié)合起來,產(chǎn)生了一個可以用于故事板或者提案更精美作品的片段。
相比之下,Gen-2 更專注于從零開始生成視頻,但是也有很多需要注意的地方。首先,Runway 公司分享的演示片段都很短、不穩(wěn)定、并不是很逼真;其次,訪問權(quán)限也受限,用戶必須通過 Runway 公司的 Discord 平臺注冊并加入等待名單才能使用 Gen-2 模型;該公司發(fā)言人 Kelsey Rondenet 稱,“我們將在未來幾周內(nèi)提供廣泛訪問。”換句話說:目前我們只能通過一個演示片和少數(shù)幾個片段(其中大部分已經(jīng)作為 Gen-1 模型宣傳過)來評價 Gen-2 模型,不過看起來效果很是很出色的。
文本生成視頻技術(shù)令人興奮,帶來了新的創(chuàng)造性機會,但也帶來了新威脅(例如虛假信息等),對于 Runway 公司的新技術(shù),IT之家將保持關(guān)注。
關(guān)鍵詞: