OpenAI發布名為"Sora"的文本轉視頻模型:人工智慧領域的重要里程碑

發表於2024/02/21
117次點閱
0人收藏
加入收藏

美國加州的領先人工智慧公司OpenAI在2月15日發布了名為Sora的文本轉視頻模型,這項突破性技術能夠根據用戶的提示詞生成長達一分鐘的逼真視頻,引起了業界的驚訝和 興奮。 Sora的推出被認為是人工智慧領域的一個重要里程碑,被讚譽為AI技術的時代轉折點。 Sora的名字源自日文詞彙「空」,意為天空,象徵其無限的創造潛力。 該模型使用生成式人工智慧技術,能夠根據用戶的文字提示生成長達60秒的視頻,同時也可以從現有的靜止圖像生成視頻。 生成式人工智慧是人工智慧的一個分支,利用AI來創作新內容,例如文字、圖片、音樂、音訊和視訊。 OpenAI先前推出的ChatGPT和DALL-E等模型就屬於這一類型。

OpenAI在展示Sora生成的多個高清影片時,展現了其在人物、動物和物品的特寫細節上的出色表現。 這些影片具有逼真的質感,背景豐富、畫面流暢,令人難以置信。 然而,OpenAI也指出Sora仍然存在一些弱點,例如在處理空間和因果關係方面可能出現問題,例如可能出現「一個人咬一口餅乾,但之後餅乾可能沒有咬痕」的情況。

事實上,在OpenAI之前,Runway、Pika等公司已經推出過展示文字產生視訊技術的模型,引起了一波AI視訊應用的熱潮。 然而,Sora之所以引起如此大的震撼,是因為它在視訊品質和長度方面取得了顯著突破。 首先,Sora能夠產生長達一分鐘的視頻,而其他文字生成視頻模型通常只能生成3至4秒的視頻。 其次,Sora能夠實現多角度的拍攝,即在一段影片中實現遠、中、近景、特寫等不同鏡頭的切換,而其他模型則傾向於生成單一鏡頭的脈絡。 此外,Sora在處理真實世界的細節方面表現出色,包括光影反射、運動方式、鏡頭移動等,從而大大提升了影片的真實感。

業界評論認為,Sora的推出標誌著人工智慧研究的一個重要里程碑。 憑藉其模擬和理解現實世界的能力,Sora為實現通用人工智慧(AGI)奠定了基礎。 然而,由於擔心Sora可能被濫用,OpenAI表示目前沒有計劃向公眾發布該模型,而是給予少數研究人員有限的存取權限,以確保技術的負責任使用和應用。 OpenAI承諾將繼續與研究社群合作,進一步探索和解決Sora的弱點,並努力實現人工智慧技術的公平、安全和透明使用。

此區為網友的心得交流平台,以上內容不代表運動筆記HK立場