用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

雷鋒網(wǎng) ? 1年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

作者：賴文昕

編輯：郭思、陳彩嫻

說起擴散模型生成的東西，你會立刻想到什么？

是OpenAI的經(jīng)典牛油果椅子？

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

是英偉達Magic3D生成的藍色箭毒蛙？

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

還是斯坦福大學和微軟Folding Diffusion生成的蛋白質(zhì)結構？

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

這些都是擴散模型的魔法展示，而近期，關于擴散模型的研究又進行了一次全新的升級。

由新加坡國立大學尤洋團隊、加州大學伯克利分校以及Meta AI Research聯(lián)手發(fā)布的一項名為“Neural Network Diffusion”的研究，已經(jīng)實現(xiàn)了利用擴散模型來生成神經(jīng)網(wǎng)絡，這意味著擴散模型不再局限于生成表面的產(chǎn)品或物體結構，而是直接進行底層革新，開始拿神經(jīng)網(wǎng)絡做文章了，頗有種用魔法來打敗魔法的意味。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

論文地址：https://arxiv.org/pdf/2402.13144.pdf

該研究一出，迅速在國際AI社區(qū)引起了熱烈反響，登上了各大模型開發(fā)平臺的熱搜榜單，在業(yè)界內(nèi)收獲了極高贊譽。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

這項工作中，研究團隊創(chuàng)新性地應用擴散模型來生成高性能神經(jīng)網(wǎng)絡的參數(shù)配置。他們結合了自動編碼器框架和標準潛在擴散模型（LDM）設計了一種新穎的方法，即“參數(shù)擴散”（p-diff），通過訓練LDM從隨機噪聲中合成有效的神經(jīng)網(wǎng)絡參數(shù)latent representations。

此方法具有以下特點：1）它始終達到與訓練數(shù)據(jù)相似的性能，甚至能在多數(shù)據(jù)集和架構中增強性能；2）生成的模型與訓練的模型有很大的不同，這表明此方法可以合成新參數(shù)，而不是記憶訓練樣本。

擴散模型如何生成“神經(jīng)網(wǎng)絡”？

盡管擴散模型已經(jīng)在視覺內(nèi)容生成任務上取得了顯著成就，然而在其他眾多領域的應用潛力仍有待深入挖掘。

在此之前，學術界和工業(yè)界的研究重心主要在于如何通過傳統(tǒng)的學習策略來獲得針對特定任務表現(xiàn)優(yōu)異的神經(jīng)網(wǎng)絡參數(shù)，而不是直接利用擴散模型進行參數(shù)生成。學者們普遍從統(tǒng)計學先驗和概率模型的角度出發(fā)，例如探索隨機神經(jīng)網(wǎng)絡架構及貝葉斯神經(jīng)網(wǎng)絡方法，以優(yōu)化模型性能。

而在深度學習這個大框架下，雖然監(jiān)督學習和自監(jiān)督學習一直是訓練神經(jīng)網(wǎng)絡的核心機制，并且在很多實際應用中取得了巨大成功。但為了更好地展示擴散模型在生成高效能模型架構與參數(shù)方面的卓越能力，研究團隊大膽地將目光投向了尚未被充分探索的領域，嘗試利用擴散模型來創(chuàng)造并優(yōu)化高性能、結構新穎的神經(jīng)網(wǎng)絡參數(shù)。

簡而言之，“Neural Network Diffusion”項目所采用的是一種名為“神經(jīng)網(wǎng)絡擴散”的方法（p-diff，p代表參數(shù)），使用標準的LDM來合成新參數(shù)。

該團隊經(jīng)過深入研究神經(jīng)網(wǎng)絡的訓練機制以及擴散模型的工作原理后，敏銳地洞察到：基于擴散原理的圖像生成過程與隨機梯度下降（SGD）等常用學習方法之間存在著兩種相似性。這意味著擴散模型或許能夠借鑒并革新現(xiàn)有的訓練范式，從而為構建更加智能且高效的神經(jīng)網(wǎng)絡提供新的視角與工具。

首先，神經(jīng)網(wǎng)絡訓練和擴散模型的逆過程都可以被視為從隨機噪聲/初始化到特定分布的轉(zhuǎn)變。其次，高質(zhì)量圖像和高性能參數(shù)也可以通過多次噪聲的添加來降級為簡單分布，例如高斯分布。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

基于這些觀察，研究團隊引入了一種新的參數(shù)生成方法，稱之為“神經(jīng)網(wǎng)絡擴散”（p-diff，p代表參數(shù)），它采用標準的LDM來合成一組新的參數(shù)。

擴散模型能夠?qū)⒔o定的隨機分布轉(zhuǎn)換為特定的隨機分布，因此研究人員使用了一個自動編碼器和一個標準的LDM來學習高性能參數(shù)的分布。

該研究方法整合了參數(shù)自動編碼器和擴散模型來實現(xiàn)神經(jīng)網(wǎng)絡參數(shù)的創(chuàng)新生成。首先，研究人員選取一組經(jīng)過充分訓練且表現(xiàn)出色的模型作為基礎，從中抽取一部分關鍵或有代表性的參數(shù)子集，并將這些多維結構的參數(shù)展平為一維向量形式。

接下來，他們構建了一個參數(shù)自動編碼器架構，其中包含一個編碼器模塊，用于從所提取的一維參數(shù)向量中學習潛在的低維表示（latent representations），這一過程能夠捕捉到原有參數(shù)的關鍵特征和模式。同時配備一個解碼器模塊，其任務是根據(jù)這些潛在表示恢復出原始的高維參數(shù)結構。

在此基礎上，團隊進一步訓練一個標準的擴散模型（LDM，Latent Diffusion Model）以適應參數(shù)生成場景，使其能夠在隨機噪聲輸入下逐步迭代并生成與目標參數(shù)對應的高質(zhì)量潛在表示。

訓練完成后，研究人員利用一個逆擴散過程（p-diffusion process）來生成新的神經(jīng)網(wǎng)絡參數(shù)。這個過程始于一個隨機噪聲向量，通過逆向遞歸地應用擴散模型的反變換，將其一步步轉(zhuǎn)化為有意義的潛在表示。最后，將這些合成的潛在表示輸入訓練好的解碼器中，解碼器會將其轉(zhuǎn)換為全新的、有望保持高性能的神經(jīng)網(wǎng)絡參數(shù)。這種方法不僅拓展了擴散模型的應用領域，還可能挖掘出之前未被發(fā)現(xiàn)的有效網(wǎng)絡結構和參數(shù)配置。

訓練后，研究團隊利用 p-diff 通過以下鏈條生成新的參數(shù)：隨機噪聲 → 逆過程 → 訓練好的解碼器 → 生成的參數(shù)。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

為了驗證該方法的有效性，研究團隊緊接著還在MNIST、CIFAR-10/100、ImageNet-1K、STL-10等廣泛的數(shù)據(jù)集上進行了評估實驗，實驗主要在神經(jīng)網(wǎng)絡ResNet-18/50、ViT-Tiny/Base 和 onvNeXt-T/B 上進行。

研究團隊詳細闡述了具體的訓練細節(jié)。在實驗中，自動編碼器和LDM均包含了一個基于 4 層 1D CNN 的編碼器和解碼器。研究人員默認收集所有架構的200 個訓練數(shù)據(jù)。在神經(jīng)網(wǎng)絡 ResNet-18/50 上，他們從頭開始訓練模型。到了最后一個 epoch中，他們則繼續(xù)訓練最后兩個歸一化層并修復其他參數(shù)。在大多數(shù)情況下，自動編碼器和潛在擴散訓練可以在單個英偉達的 A100 40G GPU 上于 1~3 小時內(nèi)完成。

實驗過后，研究人員發(fā)現(xiàn)，在大多數(shù)情況下，p-diff的方法取得了與兩個基線相似或更好的結果，這表明了此方法可以有效地學習高性能參數(shù)的分布，并從隨機噪聲中生成優(yōu)異的模型。而且，該方法在各種數(shù)據(jù)集上始終表現(xiàn)良好，也證明了它具有良好的通用性。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

那么如何進一步確認p-diff是否真正可以合成新參數(shù)，而不只是在記憶訓練樣本呢？

為了驗證p-diff能夠生成一些與原始模型表現(xiàn)不同的新參數(shù)，研究團隊設計了另一個實驗，通過比較原始模型、添加噪聲模型、微調(diào)模型和 p-diff 模型的預測和可視化來研究它們之間的差異。

他們進行了四組對比：1）原始模型之間的相似性； 2）p-diff模型之間的相似性； 3）原始模型和p-diff模型之間的相似性； 4) 原始模型和 p-diff 模型之間的最大相似度（最近鄰）。

可以發(fā)現(xiàn)，在不同情況下，生成的模型之間的差異遠大于原始模型之間的差異。另外，即使是原始模型和生成模型之間的最大相似度，也低于原始模型之間的相似度。這表明，p-diff 的確可以生成與其訓練數(shù)據(jù)表現(xiàn)不同的新參數(shù)。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑

結語

Sora的平地一聲驚雷，讓本就火爆的文生圖、文生視頻的領域又增添了好幾分熱度，也讓在圖像和視頻生成方面取得了顯著成功的擴散模型獲得了更多的關注。

而無論是Sora、DALL·E 、Midjourney，還是Stable Diffusion等已經(jīng)擁有眾多用戶的模型，它們背后的魔法都是擴散模型。在已有的例子中，擴散模型總是被運用在生成圖片或視頻上，而這一次，擴散模型居然直接滲入更深層，直接生成神經(jīng)網(wǎng)絡，這堪稱機器學習中“用魔法打敗魔法”的神操作。

今日，研究團隊中的三作 Zhuang Liu 還在社交媒體上答復了網(wǎng)友的疑惑，解釋了“Neural Network Diffusion”和Sora 負責人 William Peebles 此前發(fā)布的研究“Learning to Learn with Generative Models of Neural Network Checkpoints”之間的區(qū)別：

William Peebles的研究工作是逐步生成參數(shù)，更像是優(yōu)化器，將先前的檢查點作為輸入。 “Neural Network Diffusion”則是直接生成整套參數(shù)，無需之前的權重作為輸入。

用擴散模型生成神經(jīng)網(wǎng)絡？NUS 尤洋團隊：這不是開玩笑