昆侖萬維開源SkyReels
4月21日,昆侖萬維旗下SkyReels團隊今日正式發布并開源了視頻生成模型SkyReels-V2,該模型被團隊稱為全球首個采用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型。通過集成多模態大語言模型、多階段預訓練、強化學習和擴散強迫等技術,SkyReels-V2在提示詞遵循、視覺質量、運動動態以及視頻時長等方面實現了顯著突破。
據介紹,當前業界視頻生成技術盡管已取得長足進展,但仍面臨多項挑戰:在保證高質量視覺呈現的同時往往犧牲運動流暢度,為實現高分辨率而限制視頻時長,且由于現有多模態大模型對電影語法理解不足,導致缺乏專業鏡頭感知生成能力。針對這些痛點,SkyReels-V2展現出獨特優勢,目前已支持生成30-40秒的高運動質量、高一致性、高保真視頻。
技術層面,SkyReels-V2整合了多項創新方案:團隊開發的SkyCaptioner-V1視頻理解模型能夠識別視頻中的主體、表情和動作等信息,并通過人工標注和模型訓練提升鏡頭語言理解;針對運動質量優化,團隊采用強化學習訓練,設計半自動數據收集管道高效生成偏好對比數據;為實現長視頻生成,研發團隊提出擴散強迫后訓練方法,通過非遞減噪聲時間表將連續幀的去噪時間表搜索空間大幅降低。
在評估方面,昆侖萬維團隊構建了SkyReels-Bench測評基準并利用開源V-Bench進行自動化評估。結果顯示,在VBench1.0評估中,SkyReels-V2總分達83.9%,質量分達84.7%,超過包括華為軒轅視頻模型在內的所有對比模型。
應用場景上,SkyReels-V2支持四大核心功能:基于滑動窗口方法的理論無限時長故事視頻生成;兩種圖像到視頻合成方案,分別為微調全序列T2V擴散模型和擴散強迫模型與幀條件結合;通過專門篩選百萬級樣本優化的攝像導演功能;以及基于SkyReels-V2基座模型研發的SkyReels-A2多元素到視頻生成方案。
值得一提的是,昆侖萬維SkyReels團隊已將SkyCaptioner-V1和SkyReels-V2系列模型(包括1.3B、5B、14B多種尺寸)全部開源,涵蓋擴散強迫、文本到視頻、圖像到視頻、攝像導演和元素到視頻等模型,以促進學術界和產業界進一步探索視頻生成技術的應用前景。
【來源: 鳳凰網 科技 】