僅需2張圖,AI便可生成完整運動過程

  • A+
所屬分類:娛樂
摘 要

金磊 發自 凹非寺 量子位 報導 | 公眾號 QbitAI

金磊 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

先給一張側臉 (關鍵幀1):

僅需2張圖,AI便可生成完整運動過程

再給一張正臉 (關鍵幀2):

僅需2張圖,AI便可生成完整運動過程

然後僅僅根據這兩張圖片,AI處理了一下,便能生成 整個運動過程

僅需2張圖,AI便可生成完整運動過程

而且不只是簡單的那種,連在運動過程中的 眨眼動作也「照顧」得很到位。

效果一出,便在Reddit上引發了不少熱議:

僅需2張圖,AI便可生成完整運動過程

僅需2個關鍵幀,如何實現完整運動?

不需要冗長的訓練過程。

不需要大量的訓練數據集。

不需要冗長的訓練過程。

不需要大量的訓練數據集。

這是論文作者對本次工作提出的兩大亮點。

具體而言,這項工作就是 基於關鍵幀將視訊風格化。

先輸入一個視訊序列 I ,它由N個幀組織,每一幀都有一個掩膜M i 來劃分感興趣的區域。

與此前方法不同的是,這種風格遷移是以隨機順序進行的,不需要等待順序靠前的幀先完成風格化,也不需要對來自不同關鍵幀的風格化內容進行顯式合併。

僅需2張圖,AI便可生成完整運動過程

也就是說,該方法實際上是一種翻譯過濾器,可以快速從幾個異構的手繪範例 Sk 中學習風格,並將其「翻譯」給視訊序列 I 中的任何一幀。

這個圖像轉換框架基於 U-net 實現。並且,研究人員採用 基於圖像塊(patch-based)的訓練方式和抑制視訊閃爍的解決方案,解決了少樣本訓練和時間一致性的問題。

而為了避免過擬合,研究人員採用了基於圖像塊的訓練策略。

從原始關鍵幀(I k )中隨機抽取一組圖像塊(a),在網路中生成它們的風格化對應塊(b)。

然後,計算這些風格化對應塊(b)相對於從風格化關鍵幀(S k )中取樣對應圖像塊的損失,並對誤差進行反向傳播。

這樣的訓練方案不限於任何特定的損失函數。本項研究中,採用的是L1損失、對抗性損失和VGG損失的組合。

僅需2張圖,AI便可生成完整運動過程

另一個問題便是 超參數的優化

這是因為不當的超參數可能會導致推理質量低下。

僅需2張圖,AI便可生成完整運動過程

研究人員使用網格搜索法,對超參數的4維空間進行采樣:Wp——訓練圖像塊的大小;Nb——一個batch中塊的數量;α——學習率;Nr——ResNet塊的數量。

對於每一個超參數設置:

(1)執行給定時間訓練;

(2)對不可見幀進行推理;

(3)計算推理出的幀(O 4 )和真實值(GT 4 )之間的損失。

而目標就是將這個損失最小化。

僅需2張圖,AI便可生成完整運動過程

團隊介紹

這項研究一作為Ondřej Texler,布拉格捷克理工大學計算機圖形與交互系的博士生。

僅需2張圖,AI便可生成完整運動過程

而除了此次的工作之外,先前他和團隊也曾做過許多有意思的工作。

例如一邊畫著手繪畫,一邊讓它動起來。

僅需2張圖,AI便可生成完整運動過程

再例如給一張卡通圖片,便可讓視訊中的你頂著這張圖「聲情並茂」。

僅需2張圖,AI便可生成完整運動過程

想了解更多有趣的研究,可戳下方鏈接👇。

參考鏈接:

[1]https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/

[2]https://ondrejtexler.github.io/patch-based_training/index.html

本文系網易新聞•網易號特色內容激勵計劃簽約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

加入AI社群,拓展你的AI行業人脈

量子位「AI社群」招募中!歡迎AI從業者、關註AI行業的小夥伴們掃碼加入,與 50000+名好友共同關註人工智慧 行業發展&技術進展

量子位 QbitAI · 頭條號簽約作者

վ’ᴗ’ ի 追蹤AI技術和產品新動態

一鍵三連「分享」、「點讚」和「在看」

科技前沿進展日日相見~

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: