【資料圖】
零門檻進(jìn)行繪畫創(chuàng)作,文心一格讓每個(gè)人都能成為“藝術(shù)家”;通過(guò)簡(jiǎn)單問(wèn)答即可嘗試編程,ChatGPT讓程序員的編碼工作不再神秘……生成式人工智能熱潮正在席卷整個(gè)科技行業(yè)。根據(jù)文字描述可以生成音樂(lè)嗎?當(dāng)然可以。Meta近日開源的Audio-Craft就能做到,旨在幫助研究人員和開發(fā)人員訓(xùn)練自己的模型,從而推進(jìn)該領(lǐng)域的發(fā)展。
Meta表示,這款人工智能工具以其擁有和特別授權(quán)的音樂(lè)作為訓(xùn)練數(shù)據(jù),可以把用戶的文本描述轉(zhuǎn)化為音樂(lè)。AudioCraft融合了AudioGen、MusicGen和EnCodec3種模型。其中,預(yù)先訓(xùn)練好的AudioGen模型可以生成環(huán)境聲音和音效,比如狗叫聲、汽車?guó)Q笛聲或木地板上的腳步聲,結(jié)合用兩萬(wàn)個(gè)小時(shí)授權(quán)音樂(lè)訓(xùn)練而成的MusicGen以及Encodec編碼器/量化器/解碼器,三者配合下可幫助用戶高效生成高質(zhì)量的音樂(lè)。
值得一提的是,AudioCraft使用En-Codec從原始信號(hào)中學(xué)習(xí)并標(biāo)記音頻,通過(guò)這一步驟建立音樂(lè)樣本的“詞匯表”(音頻標(biāo)記),然后將其輸入到自回歸語(yǔ)言模型中。該模型利用標(biāo)記內(nèi)容的結(jié)構(gòu)生成新的模型,從而更好捕獲數(shù)據(jù)中的長(zhǎng)距離依賴關(guān)系,這對(duì)于音樂(lè)生成至關(guān)重要。最后,新模型根據(jù)文本描述生成新的標(biāo)記,這些標(biāo)記反饋給En-Codec用于合成聲音和音樂(lè)。
生成任何類型的高質(zhì)量音頻都需要對(duì)復(fù)雜信號(hào)在不同尺度上進(jìn)行建模??梢哉f(shuō),音樂(lè)是一種極具挑戰(zhàn)性的音頻類型,因?yàn)槠溆刹煌缍鹊囊舫?、多種樂(lè)器的音色等復(fù)合而成。
如前所述,AudioCraft是開源的,開發(fā)人員可以更加方便地獲取代碼和文檔等資源,并且能夠在開源社區(qū)中與其他開發(fā)人員交流、協(xié)作和分享經(jīng)驗(yàn),Meta希望借此進(jìn)一步推動(dòng)音樂(lè)生成領(lǐng)域的創(chuàng)新發(fā)展。Meta認(rèn)為,MusicGen或?qū)⒊蔀橐环N新的樂(lè)器,就像最初的音樂(lè)合成器一樣。
但是,Hacker News評(píng)論員指出,雖然AudioCraft大部分都是開源的,其模型權(quán)重所使用的CC-BY-NC許可協(xié)議則要求對(duì)原作品進(jìn)行非商業(yè)用途的分享與再創(chuàng)作,對(duì)商業(yè)使用存在限制,并不符合完全開源的條件。相比之下,完全開源的協(xié)議如GPL(General Public License)則沒(méi)有限制作品的商業(yè)使用。
具體來(lái)說(shuō),非商業(yè)使用條款破壞了開源倡議組織(Open Source Initiative)對(duì)開源的定義中的第六點(diǎn),這可能是由于Meta使用了其擁有授權(quán)的音樂(lè)源去計(jì)算模型權(quán)重。
最新資訊
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) 93dn.com 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2023 By All Rights Reserved 皖I(lǐng)CP備2022009963號(hào)-10
聯(lián)系我們: 39 60 29 14 2@qq.com