當下,大模型的火熱已成為行業(yè)共識,從時間線上看,2022年12月大模型實現(xiàn)破圈爆火,2023年3月,因NVIDIA CEO 黃仁勛在NVIDIA GTC Keynote 中首次提及向量數(shù)據(jù)庫,強調(diào)其在構(gòu)建專有大型語言模型的組織中的重要性,行業(yè)內(nèi)部人士逐漸意識到,向量數(shù)據(jù)庫可以支持大模型進行信息召回,彌補大模型長期沒有記憶等問題,拓寬大模型邊界。
近日,騰訊云發(fā)布AI 原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB。該數(shù)據(jù)庫能夠被廣泛應(yīng)用于大模型的訓練、推理和知識庫補充等場景,是國內(nèi)首個從接入層、計算層、到存儲層提供全生命周期AI化的向量數(shù)據(jù)庫。自2019年開始在內(nèi)部PCG業(yè)務(wù)團隊進行孵化,目前已應(yīng)用在了騰訊視頻、QQ瀏覽器、QQ音樂等多款產(chǎn)品中。
何為向量?機器學習與數(shù)據(jù)科學中,向量代表一組數(shù)字,構(gòu)成多維數(shù)值空間。向量的每個維度代表該空間的一個不同的特征或?qū)傩?,如文本中每個詞的出現(xiàn)頻率等。通過對向量進行數(shù)學運算,可以實現(xiàn)各種機器學習算法和數(shù)據(jù)分析技術(shù)。單就數(shù)據(jù)而言,只有向量化之后的數(shù)據(jù)才能被AI模型所分析。向量數(shù)據(jù)庫是一種專門用于存儲和管理向量數(shù)據(jù)的數(shù)據(jù)庫。
(資料圖片僅供參考)
行業(yè)內(nèi)將大模型稱為“大腦”,向量數(shù)據(jù)庫則是其“海馬體”。騰訊云數(shù)據(jù)庫副總經(jīng)理羅云表示,團隊內(nèi)部有一個共識——如果你看好AI,你就可以看好向量數(shù)據(jù)庫。因為在AI市場中,大模型有兩大限制——一個是時間上,一個是空間上。前者因客戶希望使用最新數(shù)據(jù)進行訓練,后者系客戶不愿將私域數(shù)據(jù)放在公開場合進行大模型訓練。而這兩方面問題,向量數(shù)據(jù)庫都可以解決。
相對于大模型的高調(diào)火熱,向量數(shù)據(jù)庫更多在靜悄悄地發(fā)生迭代。近一個月內(nèi),向量數(shù)據(jù)庫迎來融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達到7.5億美元。東北證券預(yù)測,到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超600億人民幣。
羅云透露,目前每天不止一到兩位客戶會前來咨詢向量數(shù)據(jù)庫什么時候能夠給他們使用。整體來講大家對向量數(shù)據(jù)庫的關(guān)注度、對它需求的迫切度都很高。
但需注意的是,從技術(shù)與行業(yè)層面,向量數(shù)據(jù)庫仍面臨幾方面的挑戰(zhàn)。其一是向量化數(shù)據(jù)有著高昂的計算成本,尋求存儲成本替代是必要的。該部分成本主要來自數(shù)據(jù)預(yù)處理、特征提取和向量化表示的生成,涉及大量復(fù)雜數(shù)學運算,消耗大量的計算資源和時間。
對此,羅云對第一財經(jīng)記者表示,數(shù)據(jù)庫主要解決低成本存儲數(shù)據(jù)與高效檢索數(shù)據(jù)的問題,向量數(shù)據(jù)庫也一樣。目前主要在檢索層面成本非常高昂,業(yè)界目前有幾種解決方案,其一是在算法層面進行優(yōu)化,其二是通過云上資源調(diào)度體系,用更合適的資源對底層算力成本做更好的補充。
但成本層面,短期內(nèi),羅云判斷不會發(fā)生數(shù)量級的差異,更多會發(fā)生在應(yīng)用性方面,推動數(shù)據(jù)庫與云資源體系結(jié)合,讓產(chǎn)品更穩(wěn)定,實現(xiàn)單價成本有20%~30%的提升。
第二方面的挑戰(zhàn)是平臺產(chǎn)品與開源社區(qū)之間的關(guān)系。向量化技術(shù)并非新鮮事物,目前已十分成熟,并存在大量開源解決方案,在不同的領(lǐng)域也存在不同的向量化方案,如目前存在Zilliz等做開源向量數(shù)據(jù)庫的公司。
對于大平臺與開源社區(qū)之間的關(guān)系,羅云對第一財經(jīng)記者表示,目前國內(nèi)外在云計算領(lǐng)域的發(fā)展階段不同,國內(nèi)場景更多的企業(yè)對公有云持有觀望態(tài)度,這樣的背景下,更多客戶對數(shù)據(jù)類產(chǎn)品相對謹慎,因此公有云廠商提供的數(shù)據(jù)服務(wù)相對而言更有競爭力。
廣發(fā)證券計算機團隊表示,在過去AI模型訓練數(shù)據(jù)量較小、數(shù)據(jù)類型單一的情況下,向量數(shù)據(jù)庫可應(yīng)用的場景較小。自2017年Transformer模型推出后,各科技廠商開始大語言模型的探索,對于向量數(shù)據(jù)庫的需求開始形成規(guī)模。但向量數(shù)據(jù)庫適于AI大模型非結(jié)構(gòu)化場景,市場需求尚處于初期,中遠期規(guī)模還不到夸張之時。
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) 93dn.com 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2023 By All Rights Reserved 皖I(lǐng)CP備2022009963號-10
聯(lián)系我們: 39 60 29 14 2@qq.com