StyleGAN是NVIDIA去年發(fā)布的一個新的圖像生成方法,并于今年2月開源。
StyleGAN 生成的圖像非常逼真,它是一步一步地生成人工的圖像,從非常低的分辨率開始,一直到高分辨率(1024×1024)。通過分別地修改網(wǎng)絡(luò)中每個級別的輸入,它可以控制在該級別中所表示的視覺特征,從粗糙的特征(姿勢、面部形狀)到精細的細節(jié)(頭發(fā)顏色),而不會影響其它的級別。
StyleGAN生成的人臉
StyleGAN是目前最先進的高分辨率圖像合成方法,已被證明可以在各種數(shù)據(jù)集上可靠地工作。除了逼真的人像,StyleGAN還可以用于生成其他動物,汽車甚至房間。
然而,StyleGAN并不完美,最明顯的缺陷是生成的圖像有時包含斑點似的偽影(artifacts),而這一缺陷今天也被完美解決了!
今天,NVIDIA的研究人員發(fā)布了StyleGAN的升級版——StyleGAN2,重點修復(fù)artifacts問題,并進一步提高了生成圖像的質(zhì)量。
StyleGAN2生成的圖像
主要改進包括:
生成的圖像質(zhì)量明顯更好(FID分?jǐn)?shù)更高、artifacts減少)
提出替代progressive growing的新方法,牙齒、眼睛等細節(jié)更完美
改善了Style-mixing
更平滑的插值(額外的正則化)
訓(xùn)練速度更快
英偉達StyleGAN2
自動播放
undefined05:46undefinedundefined
英偉達StyleGAN2
重新設(shè)計StyleGAN圖像合成網(wǎng)絡(luò)
StyleGAN的顯著特點是其非常規(guī)的生成器架構(gòu)。映射網(wǎng)絡(luò) f 不僅將輸入的latent code z∈Z輸入到網(wǎng)絡(luò)的開頭,而且還先將它轉(zhuǎn)換成一個中間latent code w ∈ W。仿射變換(affine transforms)隨后產(chǎn)生樣式(styles),通過adaptive instance normalization(AdaIN)控制合成網(wǎng)絡(luò) g 的層。
在本研究中,我們將所有的分析都集中在W上,因為從合成網(wǎng)絡(luò)的角度來看,W是相關(guān)的潛在空間。
許多人已經(jīng)注意到StyleGAN生成的圖像中的特征偽影。本研究確定了這些偽影的兩個原因,并描述了如何通過改變架構(gòu)和訓(xùn)練方法消除它們。
圖1:Instance normalization會導(dǎo)致StyleGAN生成的圖像中出現(xiàn)斑點狀的偽影
首先,我們研究了常見的斑點狀artifacts的起源,并發(fā)現(xiàn)生成器創(chuàng)建它們是為了規(guī)避其架構(gòu)中的設(shè)計缺陷。我們重新設(shè)計了生成器中使用的normalization,從而刪除了artifacts。
其次,我們分析了與progressive growing相關(guān)的artifacts,progressive growing在穩(wěn)定高分辨率GAN訓(xùn)練方面非常成功。我們提出了一種替代的設(shè)計,可以達到同樣的目的——訓(xùn)練開始時集中在低分辨率的圖像上,然后逐步地將注意力轉(zhuǎn)移到越來越高的分辨率上——在訓(xùn)練過程中不改變網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。這種新的設(shè)計還允許我們對生成圖像的有效分辨率進行推理,其結(jié)果比預(yù)期的要低,從而激發(fā)我們可以設(shè)計更大容量的模型。
圖2:重新設(shè)計了StyleGAN圖像合成網(wǎng)絡(luò)
如圖2所示,(a)是原始的StyleGAN,其中A表示從W學(xué)習(xí)的仿射變換,產(chǎn)生了一個style;(b)展示了原始StyleGAN架構(gòu)的細節(jié)。在這里,我們將AdaIN分解為先顯式歸一化再調(diào)制的模式,對每個特征圖的均值和標(biāo)準(zhǔn)差進行操作。我們還注釋了學(xué)習(xí)的權(quán)重(w)、偏差(b)和常量輸入(c),并重新繪制了灰色框,使每個框都激活一個style。激活函數(shù)(leaky ReLU)總是在添加偏置后立即應(yīng)用。如(c)所示,我們對原始架構(gòu)做了幾處改動,包括在開始時刪除了一些冗余操作,將b和B的添加移動到style的活動區(qū)域之外,并只調(diào)整每個feature map的標(biāo)準(zhǔn)差。(d)是修改后的架構(gòu),使我們能夠用“demodulation”操作代替 instance normalization,我們將demodulation操作應(yīng)用于與每個卷積層相關(guān)的權(quán)重。
圖3:用demodulation替代instance normalization,可以去除圖像和激活中的特征偽影。
如圖3所示,重新設(shè)計的StyleGAN2架構(gòu)消除了特征偽影,同時保留了完全的可控性。
對GAN生成的圖像質(zhì)量進行定量分析仍然是一個具有挑戰(zhàn)性的課題。Frechet inception distance (FID)測量了InceptionV3分類器的高維特征空間中兩種分布密度的差異。Precision和Recall (P&R)通過明確量化生成的與訓(xùn)練數(shù)據(jù)相似的圖像的百分比和可以生成的訓(xùn)練數(shù)據(jù)的百分比,提供了額外的可見性。我們使用這些指標(biāo)來量化StyleGAN2的改進。
表1 :主要結(jié)果
FID基本不受影響(表1,行A, B),但是有一個顯著的變化,從precision到FID有顯著的變化。
FID和P&R都基于分類器網(wǎng)絡(luò),最近的研究表明,分類器網(wǎng)絡(luò)側(cè)重于紋理而不是形狀,因此,這些指標(biāo)不能準(zhǔn)確地代表圖像質(zhì)量的所有方面。我們將感知路徑長度(PPL)指標(biāo)作為一種估計潛在空間插值質(zhì)量的方法,該指標(biāo)與形狀的一致性和穩(wěn)定性相關(guān)。在此基礎(chǔ)上,我們將合成網(wǎng)絡(luò)正則化,以支持平滑映射,并獲得明顯的質(zhì)量改進。為了抵消計算開銷,我們還建議減小執(zhí)行所有正則化的頻率,因為這樣做不會影響效率。
圖4
圖5
新方法替代Progressive growing,細節(jié)更完美
Progressive growing已被證明在穩(wěn)定高分辨率圖像合成方面非常成功,但它會產(chǎn)生自己的特征偽影。
關(guān)鍵問題在于,漸進式增長的生成器在細節(jié)上似乎有很強的位置偏好,例如,當(dāng)牙齒或眼睛等特征在圖像上平滑移動時,它們可能會停留在原來的位置,然后跳到下一個首選位置。
圖6顯示了一個相關(guān)的artifact。我們認(rèn)為問題在于,在progressive growing 中,每個分辨率暫時充當(dāng)輸出分辨率,迫使它產(chǎn)生最大的頻率細節(jié),從而導(dǎo)致訓(xùn)練后的網(wǎng)絡(luò)在中間層頻率過高,犧牲了平移不變性。
圖6:Progressive growing導(dǎo)致了 “phase” artifact。在這個例子中,牙齒沒有跟隨姿勢變化,臉轉(zhuǎn)向了一側(cè),牙齒仍面向正前方,如藍線所示。
為了解決這些問題,我們提出一種替代的方法,在保留progressive growing優(yōu)勢的同時消除了缺陷。
雖然StyleGAN在生成器(合成網(wǎng)絡(luò))和鑒別器中使用簡單的前饋設(shè)計,但仍有大量工作致力于研究更好的網(wǎng)絡(luò)架構(gòu)。特別是,skip connections [34, 22], 殘差網(wǎng)絡(luò) [17, 16, 31]和分層方法 [7, 46, 47],這些方法已經(jīng)被證明是非常成功的。因此,我們決定重新評估StyleGAN的網(wǎng)絡(luò)設(shè)計,并尋找一種能夠生成高質(zhì)量圖像而不需要progressive growing的架構(gòu)。
圖7:三種生成器(虛線上面)和鑒別器架構(gòu)。
圖7a展示了MSG-GAN[22],它使用多個skip connections連接生成器和鑒別器的匹配分辨率。
在圖7b中,我們通過對不同分辨率對應(yīng)的RGB輸出進行向上采樣和求和來簡化這種設(shè)計。在鑒別器中,我們同樣向鑒別器的每個分辨率塊提供下采樣圖像。我們在所有上采樣和下采樣操作中都使用了雙線性濾波。
在圖7c中,我們進一步修改了設(shè)計,以使用殘差連接。這種設(shè)計類似于LAPGAN[7]。
表2比較了三種生成器和鑒別器架構(gòu):用于StyleGAN、skip connections和殘差網(wǎng)絡(luò)的原始前饋網(wǎng)絡(luò),它們都經(jīng)過了訓(xùn)練,但沒有采用progressive growing。
表2:沒有采用progressive growing的生成器和鑒別器結(jié)構(gòu)的比較。
對于這9種組合,每一種都提供了FID和PPL結(jié)果。我們可以看到兩個大的趨勢:生成器的skip connections 大大改善了所有配置的PPL,而殘差鑒別器網(wǎng)絡(luò)顯然有利于FID。
StyleGAN2使用了一個skip generator和一個殘差鑒別器,但沒有使用progressive growing。這對應(yīng)于表1中的配置E,從表中可以看出,切換到這種設(shè)置顯著地改進了FID和PPL。
最后,我們發(fā)現(xiàn)使用新的路徑長度正則化生成器將圖像投影到潛在空間W上的效果明顯優(yōu)于原始StyleGAN。
最新資訊
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) 93dn.com 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2020 By All Rights Reserved 豫ICP備20023378號-15 營業(yè)執(zhí)照公示信息
聯(lián)系我們: 98 28 36 7@qq.com