雖然此前騰訊集團(tuán)CEO馬化騰表示不急于推出半成品大模型,但在這樣的技術(shù)迭代節(jié)點(diǎn),缺席不行。
(資料圖)
9月7日,騰訊終于通過(guò)騰訊云對(duì)外開放通用大模型“騰訊混元”,由騰訊全鏈路自研,擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語(yǔ)料超2萬(wàn)億tokens。token是指一段文本的最小獨(dú)立部分,大模型中,token可以是一個(gè)單詞也可以是一個(gè)字符,一般會(huì)對(duì)token數(shù)量進(jìn)行限制以避免超過(guò)模型的最大處理能力。
作為“混元”的領(lǐng)隊(duì),騰訊集團(tuán)副總裁蔣杰2012年加入騰訊,2020年完成騰訊廣告投放端整合。廣告業(yè)務(wù)也是混元大模型的重要“試驗(yàn)地”,除此之外,云、游戲、金融科技、騰訊會(huì)議、騰訊文檔等超過(guò)50項(xiàng)騰訊業(yè)務(wù)與產(chǎn)品均接入混元大模型測(cè)試。
相較于國(guó)內(nèi)百度、阿里,以及人工智能創(chuàng)業(yè)公司在今年上半年的高調(diào)與迅速,騰訊在通用大模型領(lǐng)域稱得上“緩慢”。除了馬化騰所解釋的“早一個(gè)月把電燈泡拿出來(lái)不那么重要”外,采訪中騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,通用大模型對(duì)計(jì)算要求非常高,數(shù)據(jù)的積累也花費(fèi)漫長(zhǎng)時(shí)間,且行業(yè)大模型的發(fā)布能夠滿足具體客戶的需求。
此次“延遲”亮相的通用大模型有哪些不同?蔣杰表示,騰訊混元重點(diǎn)關(guān)注中文創(chuàng)作能力,提高了模型在場(chǎng)景中的推理能力,讓模型能夠更好地抗拒“誘導(dǎo)”,并通過(guò)自研的“探真”技術(shù)來(lái)優(yōu)化普遍存在的幻覺問題。
OpenAI研究人員此前撰文表示,“即使是最先進(jìn)的人工智能模型也很容易產(chǎn)生謊言,它們?cè)诓淮_定的時(shí)刻往往表現(xiàn)出捏造事實(shí)的傾向。而這些幻覺在需要多步驟推理的領(lǐng)域尤其嚴(yán)重,因?yàn)橐粋€(gè)邏輯錯(cuò)誤就足以破壞一個(gè)更大的解決方案。”OpenAI采取獎(jiǎng)勵(lì)每個(gè)正確推理步驟取代獎(jiǎng)勵(lì)正確結(jié)果的方式來(lái)矯正幻覺問題。
騰訊通過(guò)探真(truth forest)等技術(shù)降低大模型的幻覺,而不是“背題”等單點(diǎn)優(yōu)化的方式。蔣杰表示,外界會(huì)用到知識(shí)圖譜甚至搜索外掛來(lái)提高大模型的檢索支持能力,如有些開源模型廠商所發(fā)布的大模型中,搜索增強(qiáng)技術(shù)就占比10%甚至更多,但這會(huì)導(dǎo)致不一樣的幻覺問題。騰訊也會(huì)用到這些增強(qiáng)技術(shù),比例并不高,在預(yù)訓(xùn)練階段優(yōu)化目標(biāo)函數(shù),“徹底解決幻覺問題是非常非常難的,只能從概率上做到更低。”蔣杰成說(shuō)。
騰訊選擇全鏈路自研的路徑主要是為了技術(shù)迭代更快,也可以和內(nèi)部業(yè)務(wù)及應(yīng)用有更深度的結(jié)合。此外,騰訊有海量高并發(fā)業(yè)務(wù),開源架構(gòu)的大模型不能夠支撐騰訊的業(yè)務(wù)體量。
相較于其他大廠或創(chuàng)業(yè)公司提速開源的動(dòng)作,騰訊混元目前所有能力均開放給騰訊業(yè)務(wù)部門,各業(yè)務(wù)基于混元的能力上去和更多的應(yīng)用結(jié)合,把選擇的主動(dòng)權(quán)交給了集團(tuán)業(yè)務(wù)部門。
優(yōu)先結(jié)合自身應(yīng)用的考量還包括了對(duì)大模型落地C端還是B端,蔣杰稱,大模型在B端產(chǎn)生大規(guī)模商業(yè)收入這件事還有待探索,目前騰訊通用大模型在成熟度與對(duì)復(fù)雜任務(wù)的處理能力方面還不夠,因此很多嚴(yán)肅專業(yè)場(chǎng)景還不到“解鎖”的時(shí)候。另外大模型結(jié)合自身應(yīng)用也可以在一定程度上抵消大模型研發(fā)高昂的設(shè)備、訓(xùn)練、人員成本。
目前騰訊擁有13.3億微信(合并WeChat)月活用戶數(shù),1.15億視頻付費(fèi)會(huì)員,1億音樂付費(fèi)會(huì)員,外界頗為關(guān)注這樣大基數(shù)的產(chǎn)品疊加大模型技術(shù)后會(huì)發(fā)生什么改變。蔣杰對(duì)第一財(cái)經(jīng)記者表示,騰訊產(chǎn)品和應(yīng)用要提供什么能力和服務(wù),以及什么時(shí)間發(fā)布,會(huì)由業(yè)務(wù)部門自己決定。
最終公布了通用大模型產(chǎn)品的騰訊殺入了戰(zhàn)局。目前行業(yè)共識(shí)一方面AIGC是大趨勢(shì),另一方面大模型的能力邊界與呈現(xiàn)形式到底如何并無(wú)定論,判斷算力底座與大模型應(yīng)用誰(shuí)會(huì)是下一個(gè)技術(shù)時(shí)代的顛覆者也為時(shí)過(guò)早。
湯道生對(duì)第一財(cái)經(jīng)記者表示,AI服務(wù)包括應(yīng)用層、模型層、基礎(chǔ)設(shè)施層。騰訊會(huì)持續(xù)投入云服務(wù)底座的角色,騰訊會(huì)將合適模型推薦給客戶,應(yīng)用場(chǎng)景也是如此。
如果以容錯(cuò)率和任務(wù)復(fù)雜度為坐標(biāo)軸制作一個(gè)2x2矩陣,蔣杰表示,當(dāng)前國(guó)內(nèi)發(fā)布的大模型應(yīng)用主要集中在容錯(cuò)率高、任務(wù)簡(jiǎn)單的休閑場(chǎng)景。而在更具價(jià)值的嚴(yán)肅場(chǎng)景、工作場(chǎng)景和專業(yè)場(chǎng)景,大面積的應(yīng)用還無(wú)法勝任。
因此,蔣杰表示騰訊大模型會(huì)更關(guān)注將提效基礎(chǔ)能力做好——不胡言亂語(yǔ),更安全,可靠性更強(qiáng),具備更好的邏輯思維能力等,這些才是最核心的。
最新資訊
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) 93dn.com 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2023 By All Rights Reserved 皖I(lǐng)CP備2022009963號(hào)-10
聯(lián)系我們: 39 60 29 14 2@qq.com