1. <tbody id="xypsz"><div id="xypsz"><address id="xypsz"></address></div></tbody>
      <tbody id="xypsz"></tbody>

        歡迎瀏覽濟南能華機電設備有限公司網站,公司是一家電源設備廠家,品質保障,歡迎咨詢!

        返回列表頁

        首個3D人像視頻生成模型來了:僅需1張2D人像,眨眼、口型都能改變 | ICLR 2023(逆變電源維修視頻)

        zcxu 投稿

        量子位 | 公眾號 QbitAI

        只需1張普通照片,就能合成全角度動態3D視頻。

        眨個眼、動動嘴,都是小case~

        最近AIGC爆火,3D人像模型生成這邊也沒閑著。

        如StyleNerf、StyleSDF、EG3D等方法相繼出世。

        但到目前為止,這種生成模型都還停留在單幀人像上。

        最近,來自新加坡國立大學(NUS)和字節跳動的研究人員,在靜態3D模型的基礎上,提出了首個3D人像視頻生成模型:PV3D(3D model for Portrait Video generation)。

        PV3D的訓練繼承了3D GAN模型的優點,即無需動態的三維數據監督,只需要在足夠數量的單視角2D視頻數據上進行訓練。

        該生成框架將人像和動作進行解耦,基于視頻的時間戳生成各自的三維表征,讓視頻可以從任意角度進行渲染。

        長視頻也能挑戰:

        3D動態人像生成

        PV3D分別從獨立的高斯分布中采樣隨機噪聲來表征外表和運動,外表噪聲生成視頻的主體內容,控制人像的ID以及人臉的各個部分,運動噪聲配合視頻幀的時間戳控制當前幀的動作。

        為了確保生成內容的真實性以及外表和運動的解耦,PV3D訓練兩個獨立的判別器分別判定外表和運動的合理性。

        該方法可以生成隨機的人像視頻以及相應的高質量的動態幾何表面,讓視頻可以從任意角度進行渲染。

        同時,該方法可以支持下游的應用任務,比如靜態人像驅動,人像視頻的重建以及對人像動作的修改,所有的結果均可以保持高的多視角一致性。

        主流的3D GAN模型都脫胎于StyleGAN結構。

        因此這些模型均會將采樣得到的噪聲先映射到一個高維度的中間隱式編碼(intermidate latent code),大量現有的研究表明這種結構的隱式空間包含了豐富的語義信息,可以用來控制生成的圖像內容。

        因此,最直接的拓展方式就是使用預訓練的單幀3D GAN模型,通過學習一個額外的在隱式空間進行推理的時序模型對生成的內容進行合理的改變,從而生成3D人像視頻。

        然而,該方法的缺點是圖片生成器和時序推理模型在不同的階段分別被優化,導致最終的視頻很難保持時間上的一致性。

        另一種主流的視頻生成模型使用稀疏訓練的方式,在訓練階段直接隨機生成視頻中的少量幀,使用少數幀的時間戳編碼運動信息,進一步的改變中間隱式編碼從而一次性優化完整的生成器。

        然而這種做法將全部的時序信息都包含在隱式空間中,導致最終的模型多樣性較差、生成質量較低。

        與上述方法不同,PV3D在原有GAN模型的基礎上在特定尺度的生成模塊中插入運動信息的編碼層,這些編碼層獨立地將控制運動的噪聲映射為隱式編碼,使用modulated convolution操縱外表特征,再將操縱后的特征與原始特征融合,從而提高生成視頻的時序一致性和運動多樣性。

        此外,本工作還研究了以下問題:

        如何有效地在視頻生成任務中利用渲染的視角先驗信息

        針對3D視頻生成,如何設計合理的外表和運動判別器

        PV3D模型基于最新的靜態3D GAN模型EG3D進行開發,EG3D采用高效的3D表征Tri-plane實現圖像生成。

        在訓練階段,PV3D采用稀疏訓練的策略,對于一個視頻采樣兩個噪聲、兩個時間戳以及各自時刻對應的相機視角。

        相對應的,模型生成兩幀對應的3D表征進行渲染得到粗糙的結果。隨后使用超分辨率模塊將圖片上采樣。

        PV3D設計了兩個獨立的判別器監督網絡的學習,其中視頻判別器會編碼兩幀的相機視角以及時間間隔去判斷生成結果的合理性。

        實驗部分

        評價指標

        研究人員使用FVD來評估生成視頻的質量。此外,為了評估多視角的一致性以及3D幾何結構的質量,研究人員將3D GAN工作中常用的評價指標(生成人像的ID一致性、Chamfer距離、多視角的重投影誤差)拓展到視頻任務中。

        與基線的對比

        研究人員首先采用同期的3D視頻生成工作3DVidGen作為基線。此外,研究人員還基于SOTA的單幀3D GAN (EG3D和StyleNerf) 和2D視頻生成模型構建了三個基線模型。在3個公開數據集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的實驗結果表明,PV3D在生成視頻的多樣性,3D幾何的質量,以及多視角一致性上均超越基線模型。

        消融實驗

        研究人員對PV3D的各部分設計進行了消融實驗,例如:運動信息的編碼和注入的位置,運動信息的插入方式,相機視角的采樣策略,以及視頻判別器的設計。

        團隊介紹

        目前,該論文已被ICLR 2023接收。

        作者團隊由新加坡國立大學Show Lab和字節跳動組成。

        論文地址:

        https://openreview.net/pdf?id=o3yygm3lnzS

        項目主頁:

        https://showlab.github.io/pv3d/

        關于我們

        濟南能華機電設備有限公司

            濟南能華機電設備有限公司是一家專業從事直流穩壓電源、逆變電源、脈沖電源、高壓電源、電力通信電源、開關電源、遠供電源、充電機、程控變頻電源、程控直流電源、大電流恒流源、碼頭岸電電源、軍工電源、電力測試電源測試系統的研發、生產、銷售于一體的高新科技專業化公司,產品廣泛應用于家用電器、電機測試、碼頭船廠、航天航空、電力測試、進口設備、新能源等多種應用領域。   濟南能華機電設備有限公司嚴格執行ISO9001:2001質量管理體系和GJB9001A-2001軍工產品質量體系相關標準,始終堅持“以客戶需求為導向,以產品質量為依托”,為客戶提供快捷的行業解決方案,得到了各行業眾多客戶的高度贊揚。濟南能華機電設備有限公司堅持“科技創新”為持續發展動力,依托“···

        在線咨詢在線咨詢
        咨詢熱線 0531-68684888
        ?

        返回頂部

        ,久久午夜精品乱码一区二区三区,少妇高潮一区二区三区,久久亚洲国产欧美中文,噜啊噜AV一区
        1. <tbody id="xypsz"><div id="xypsz"><address id="xypsz"></address></div></tbody>
            <tbody id="xypsz"></tbody>