新聞中心
2023年初,ChatGPT爆火,越來越多的企業(yè)決策者和技術(shù)人員對生成式人工智能產(chǎn)生了濃厚興趣。他們開始探索如何利用這種技術(shù)改善企業(yè)的運營效率,優(yōu)化決策過程。乘著AIGC火熱的浪潮,向量數(shù)據(jù)庫作為處理非結(jié)構(gòu)化數(shù)據(jù)的重要工具受到越來越多的關(guān)注,甚至晉升為明星數(shù)據(jù)庫。

讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:國際域名空間、網(wǎng)絡(luò)空間、營銷軟件、網(wǎng)站建設(shè)、肥西網(wǎng)站維護、網(wǎng)站推廣。
盡管向量數(shù)據(jù)庫收到的歡呼聲不斷,但它們也面臨著不小的爭議。有人認為,向量的存儲與檢索是真實需求,而且會隨著AI發(fā)展水漲船高,前途光明。但這和專用的向量數(shù)據(jù)庫并沒有關(guān)系——加裝向量擴展的經(jīng)典數(shù)據(jù)庫會成為絕對主流,而專用的向量數(shù)據(jù)庫是一個偽需求。向量數(shù)據(jù)庫真的是一個偽需求嗎?向量數(shù)據(jù)庫是否可以助力企業(yè)發(fā)掘數(shù)據(jù)價值,創(chuàng)造新商機?帶著這些問題,采訪了星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙。
專才專用,向量數(shù)據(jù)庫助力企業(yè)高性能讀取語義特征
相比于向量數(shù)據(jù)庫,很多傳統(tǒng)數(shù)據(jù)庫也具備向量存儲與檢索功能,在部分企業(yè)的實踐中也表現(xiàn)出不錯的性能。那么,當一個傳統(tǒng)數(shù)據(jù)庫具備了向量檢索和存儲功能時,是否就能被認為是向量數(shù)據(jù)庫?它們是否可以被當做專門的向量數(shù)據(jù)庫來進行實踐應(yīng)用?
劉熙表示,基于星環(huán)科技服務(wù)企業(yè)的實踐經(jīng)驗來看,如果企業(yè)的數(shù)據(jù)量相對較小,在訪問、并發(fā)、延遲要求不?的情況下,從原有數(shù)據(jù)庫中封裝向量計算的方法具有一定的可行性。但是,如果企業(yè)數(shù)據(jù)規(guī)模增大、訪問并發(fā)指標提升,考慮到性能、擴展性和資源彈性等多方面因素,企業(yè)就需要專業(yè)的向量數(shù)據(jù)庫進行業(yè)務(wù)處理?!熬拖駥⒆孕熊嚰由习l(fā)動機,再改裝成四個輪子,也能在路上跑一跑,三四十邁的速度也不在話下,但它真的能被當作汽車來使用嗎?答案當然是不能,因為在對性能、安全性等方面有一定要求的公路上,這個僅有一個框架的四輪車顯然是捉襟見肘的?!?/p>
此外,劉熙還認為,向量數(shù)據(jù)庫最鮮明的特征是通過AI技術(shù)提取圖像、音視頻數(shù)據(jù)背后的語義特征,再將這些語義特征映射到高維向量空間中,使語義問題轉(zhuǎn)化成向量檢索問題,從而能夠讀取圖像、音視頻數(shù)據(jù)背后的含義。而語義問題的向量轉(zhuǎn)化恰恰是傳統(tǒng)數(shù)據(jù)庫不能勝任的。
當然,向量數(shù)據(jù)庫也并不是萬能的,在特定的業(yè)務(wù)場景下,通過合理結(jié)合向量數(shù)據(jù)庫與其他傳統(tǒng)數(shù)據(jù)庫的優(yōu)勢,因地制宜施策,才能事半功倍,高效完成工作。劉熙舉例說,針對文本搜索場景,向量搜索和全文搜索擅長解決的問題并不完全相同,全文搜索更適合做關(guān)鍵字匹配,而向量搜索能找出文字不同但語義相近的內(nèi)容。根據(jù)劉熙團隊的實踐經(jīng)驗,在文本搜索場景中,相比單獨使用向量或搜索者全文搜索,使用向量加全文的聯(lián)合召回,可以實現(xiàn)更高的精度。
錦上添花,分布式部署提高向量數(shù)據(jù)庫水平擴展能力
劉熙在采訪中表示,分布式向量數(shù)據(jù)庫具備三方面的關(guān)鍵能力:首先,作為一個數(shù)據(jù)庫產(chǎn)品,它需要具備安全、運維等關(guān)鍵能力;其次,它需要具有分布式特性,包含分布式存儲、分布式計算、分布式事務(wù)和分布式資源管理等四個方面的分布式技術(shù)能力;最后,與傳統(tǒng)數(shù)據(jù)庫不同,向量數(shù)據(jù)庫需要具備AI能力。因此,分布式向量數(shù)據(jù)庫涉及多個領(lǐng)域的知識,并且需要多方的人才來共同實施完成。據(jù)介紹,劉熙團隊的成員就來自不同的技術(shù)部門,包括存儲、計算、安全、AI等。
而由于向量索引大部分情況下是內(nèi)存索引,對內(nèi)存容量要求較大。但有些業(yè)務(wù)場景如新聞類,即便是清洗過的數(shù)據(jù),日增量也是巨大的,這無疑是對向量數(shù)據(jù)庫廠商的考驗。對此,劉熙團隊一方面對向量數(shù)據(jù)庫進行分布式部署,提高其水平擴展能力,另一方面,通過閃存的向量索引方式來提升性能。劉熙舉例說,在其公司大模型外掛的向量數(shù)據(jù)庫場景中,單是一年某一品類的金融新聞數(shù)據(jù)就有近1T的內(nèi)存開銷,可見數(shù)據(jù)量之龐大。由此,除了選擇內(nèi)存較大的設(shè)備,分布式的部署方式也在很大程度上可以提高向量數(shù)據(jù)庫的數(shù)據(jù)存儲量。分布式部署使向量數(shù)據(jù)庫具有更加靈活的水平擴展能力,從而助力大模型提高數(shù)據(jù)收集、處理和分析的能力。
為虎添翼,向量數(shù)據(jù)庫助力大模型檢索精確度不斷提升
ChatGPT爆火,“百模大戰(zhàn)”打響。隨著非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的發(fā)展,大模型對語言、音視頻、圖像的向量檢索需求飛速增長,專業(yè)的向量數(shù)據(jù)庫憑借巨大的性能優(yōu)勢與獨有的特征優(yōu)勢助力大模型緩解“人工智能幻想”,提高“長期記憶能力”,從而提升檢索精確度。
劉熙團隊從兩方面施策助力大語言模型改善“人工智能幻覺”現(xiàn)象。
一方面,企業(yè)需要在數(shù)據(jù)鏈路上進行工程化處理,從而增強檢索技術(shù)。另一方面,在文本檢索場景中引入稀疏向量,通過稀疏、稠密向量的混合檢索提升向量數(shù)據(jù)庫的召回精度。
此外,大模型的“長期記憶能力”的欠缺也是一個不足之處。劉熙認為,解決這個問題,本質(zhì)上依賴外部存儲來存取當下的或者私域的各類數(shù)據(jù),而存儲的首選肯定是向量數(shù)據(jù)庫,畢竟向量召回從語義上更符合用戶的需求。
劉熙團隊利用向量數(shù)據(jù)庫為大模型提供三種輔助能力:
首先,將向量數(shù)據(jù)庫作為新知識的載體。劉熙團隊通過向量數(shù)據(jù)庫Hippo內(nèi)置的向量轉(zhuǎn)化工具將實時的知識轉(zhuǎn)化成向量數(shù)據(jù)存儲在Hippo中,從而讓大模型能夠及時感知前沿知識和信息,降低大模型二次訓練的時間和成本。
其次,借助向量數(shù)據(jù)庫存儲單次上傳的超大文本、對話內(nèi)容等信息,為大模型提供理論上沒有上限的長期記憶,使企業(yè)不必因存儲超長token而耗費大量資源。
最后,語義緩存能力。企業(yè)在建立自己的知識庫時,可以將問答知識存儲在向量數(shù)據(jù)庫中,存儲方式為數(shù)據(jù)含義,這意味著如果有相似問題,用戶就可以基于語義內(nèi)容命中緩存給出結(jié)果,減少對大模型的訪問,從而降低成本并提升檢索的效率。
劉熙認為,向量數(shù)據(jù)庫作為一種基礎(chǔ)的AI設(shè)施,可以有效地解決AI技術(shù)在實際應(yīng)用中的問題。它源自AI,同時又為解決AI技術(shù)應(yīng)用問題提供了有效的解決方案。
未來展望:一站式、公有云托管或成向量數(shù)據(jù)庫發(fā)展趨勢
在信息價值越來越受到重視的今天,企業(yè)也急切希望通過對已有數(shù)據(jù)的分析獲得新的突破口,實現(xiàn)業(yè)務(wù)增長。
那么,企業(yè)該如何選擇向量數(shù)據(jù)庫?劉熙表示,在數(shù)據(jù)不斷膨脹、計算需求指數(shù)級增長、需求快速變化的情況下,企業(yè)應(yīng)該選擇專業(yè)的向量數(shù)據(jù)庫。同時,企業(yè)還需要關(guān)注向量數(shù)據(jù)庫是否具有高擴展性、高準確性、高性能以及易用性等特性,即企業(yè)在簡易的操作下,可以實現(xiàn)大規(guī)模向量數(shù)據(jù)的存儲和檢索,通過支持多類型索引、檢索優(yōu)化等方式實現(xiàn)高準確性檢索,能夠使軟硬件深度優(yōu)化,充分發(fā)揮CPU多核、高內(nèi)存帶寬等優(yōu)勢,擁有強勁算力。此外,劉熙還認為,由于廠商(或與合作伙伴共研)推出的大模型已經(jīng)與向量數(shù)據(jù)庫經(jīng)過充分地磨合,因此使用效果會更佳,同時也幫助企業(yè)節(jié)省了單獨選型與適配的成本。因此,一站式,即整體采購領(lǐng)域大模型+向量數(shù)據(jù)庫的模式,可能是向量數(shù)據(jù)庫市場的發(fā)展趨勢之一。
談到向量數(shù)據(jù)庫的未來發(fā)展方向,劉熙認為主要有以下四點:
第一,向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫會進行直接競爭。大體而言,目前向量數(shù)據(jù)庫有2條技術(shù)路線,一種是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫封裝向量計算功能,另一種是專業(yè)的向量數(shù)據(jù)庫。
第二,向量數(shù)據(jù)庫與大模型的生態(tài)兼容性至關(guān)重要。隨著大模型和向量數(shù)據(jù)庫的組合方案更加成熟,未來用戶可能會選擇整體方案,以此來避免分別采購成本高、兼容性認證復雜等問題。
第三,除語言模型外,對于圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)在大模型中應(yīng)用時,向量數(shù)據(jù)庫的價值會更加凸顯。
第四,以基于公有云的全托管方式來為用戶提供服務(wù),可能會成為向量數(shù)據(jù)庫的主流形式。在保障數(shù)據(jù)安全的情況下,用戶不需要獨立部署和管理向量數(shù)據(jù)庫,可以將主要精力放在大模型方面,從而提高管理效率。
結(jié)語
向量數(shù)據(jù)庫自AIGC爆火以來收獲了眾多期待,也經(jīng)受了不小的非議,而從星環(huán)科技服務(wù)企業(yè)的實踐經(jīng)驗來看,專用的向量數(shù)據(jù)庫有它存在的價值,而向量數(shù)據(jù)庫與AI大模型的組合,也值得更多期待。
標題名稱:分布式向量數(shù)據(jù)庫:賦能大模型長期記憶與精準檢索
網(wǎng)址分享:http://m.fisionsoft.com.cn/article/ccdssod.html


咨詢
建站咨詢
