聽(tīng)說(shuō)了嗎,智能問(wèn)答界又出現(xiàn)了 KAG,跟 RAG 有什么區(qū)別?
在智能問(wèn)答領(lǐng)域,新技術(shù)不斷涌現(xiàn)。繼上期探討 RAG(檢索增強(qiáng)生成) 技術(shù)后【點(diǎn)擊閱讀原文】,近期 KAG (知識(shí)圖譜增強(qiáng)生成)技術(shù)又引起熱議。
通用RAG技術(shù)無(wú)法完全解決模型幻覺(jué)
RAG 技術(shù)的出現(xiàn),宛如給大模型外掛了一個(gè)知識(shí)庫(kù),助力大模型通過(guò)相關(guān)的知識(shí)片段快速精準(zhǔn)作答。
但是,根據(jù)螞蟻集團(tuán)發(fā)布的測(cè)評(píng)報(bào)告,盡管普遍認(rèn)為引入 RAG 和外部知識(shí)庫(kù)能有效避免大模型的幻覺(jué)問(wèn)題,但實(shí)際情況卻并非如此,這種方式產(chǎn)生的幻覺(jué)問(wèn)題更為隱蔽。
螞蟻集團(tuán)測(cè)評(píng)報(bào)告
如上圖所示,原文中提到功能飲料中的維生素、礦物質(zhì)等成分對(duì)運(yùn)動(dòng)后補(bǔ)充身體營(yíng)養(yǎng)、消除疲勞有益,而經(jīng)模型重寫(xiě)后,可能被錯(cuò)誤地描述為 “對(duì)增加疲勞有一定作用”,這種誤導(dǎo)性信息會(huì)給用戶帶來(lái)極大困擾。
此外,通用 RAG 還存在實(shí)體反轉(zhuǎn)、合并錯(cuò)誤、概念替換等問(wèn)題,當(dāng)模型生成的內(nèi)容達(dá)到數(shù)百甚至數(shù)千字時(shí),這些細(xì)節(jié)錯(cuò)誤更是難以察覺(jué)。評(píng)估結(jié)果顯示,即便加入了 RAG 技術(shù),大語(yǔ)言模型仍然存在 30%-40% 的幻覺(jué)率,這一比例不容小覷。
垂直領(lǐng)域?qū)Υ竽P陀懈叩囊?/span>
在真實(shí)的業(yè)務(wù)決策場(chǎng)景中,無(wú)論是生成研究報(bào)告還是處理車(chē)險(xiǎn)理賠等復(fù)雜問(wèn)題,都需要經(jīng)過(guò)嚴(yán)格的步驟,包括問(wèn)題規(guī)劃、數(shù)據(jù)收集、執(zhí)行決策以及生成和反饋等流程。
在將大語(yǔ)言模型應(yīng)用到專(zhuān)業(yè)領(lǐng)域時(shí),也必須有一個(gè)嚴(yán)格且可控的決策過(guò)程。基于大模型提供專(zhuān)業(yè)知識(shí)服務(wù)時(shí),就需要滿足以下條件:
首先,確保知識(shí)的準(zhǔn)確性,涵蓋知識(shí)邊界的完整性以及知識(shí)結(jié)構(gòu)和語(yǔ)義的清晰性;其次,具備邏輯嚴(yán)謹(jǐn)性、時(shí)間敏感性和數(shù)字敏感性;最后,還需要完備的上下文信息,以便在知識(shí)決策時(shí)獲取充分的支持信息。
2024年9月,螞蟻集團(tuán)和浙江大學(xué)聯(lián)合推出了基于知識(shí)增強(qiáng)的、面向垂直領(lǐng)域的可控生成框架 KAG(知識(shí)增強(qiáng)大模型服務(wù)框架 )。經(jīng)驗(yàn)證,在政務(wù)問(wèn)答場(chǎng)景中,相較于傳統(tǒng)的 Naive RAG 方法,KAG 技術(shù)將準(zhǔn)確率從 66% 提升到了 91%。在醫(yī)療問(wèn)答方面,準(zhǔn)確率超過(guò) 80%,在更垂直的指標(biāo)解讀任務(wù)上,已達(dá)到 90% 以上的準(zhǔn)確率。
KAG對(duì)比RAG的優(yōu)勢(shì)
對(duì)比RAG技術(shù),KAG有以下幾個(gè)明顯的優(yōu)勢(shì):
#用戶操作:在上傳文檔時(shí),RAG 支持常見(jiàn)的 pdf、word、txt 格式。KAG不僅能裝這些,還能上傳已有知識(shí)圖譜,知識(shí)來(lái)源豐富。
#技術(shù)路線:RAG 主要執(zhí)行自己的索引策略,把文檔轉(zhuǎn)化成向量存進(jìn)知識(shí)庫(kù),好比把書(shū)分類(lèi)放上書(shū)架。
KAG同時(shí)進(jìn)行 RAG 和 KG 兩種索引策略,一邊構(gòu)建向量知識(shí)庫(kù),一邊自動(dòng)構(gòu)建知識(shí)圖譜,相當(dāng)于同時(shí)打造兩個(gè)相互關(guān)聯(lián)的 “知識(shí)宮殿”,知識(shí)儲(chǔ)備更豐富、更有序。
#執(zhí)行問(wèn)答:RAG 向量化問(wèn)題后,從向量知識(shí)庫(kù)中檢索相關(guān)文本塊,然后生成答案,像在書(shū)架上找書(shū),找到就開(kāi)始讀。
KAG同時(shí)運(yùn)用 RAG 和 KG 兩種檢索策略,不僅召回相關(guān)文本塊,還從知識(shí)圖譜里撈出相關(guān)實(shí)體和關(guān)系,把這些信息組合起來(lái)后,讓大模型生成的答案更準(zhǔn)確、更有邏輯。
執(zhí)行問(wèn)答階段RAG與KAG的技術(shù)路線區(qū)別
KAG 技術(shù)的引入與應(yīng)用
金現(xiàn)代除了通過(guò)采用“創(chuàng)新性切分算法、自主召回策略、智能檢索重排、可視化切分配置”等手段對(duì)通用RAG進(jìn)行微調(diào),顯著推動(dòng)大模型在垂直領(lǐng)域的應(yīng)用和能力提升。
還率先將 KAG 技術(shù)應(yīng)用在金現(xiàn)代小金智問(wèn)?智能問(wèn)答平臺(tái)中,使得用戶對(duì)準(zhǔn)確率有極高要求時(shí),小金智問(wèn)可以靈活應(yīng)對(duì)。
以最常見(jiàn)的差旅費(fèi)管理場(chǎng)景為例,面對(duì)問(wèn)答場(chǎng)景 “2021 年普通員工出差到武漢住宿最高限額是多少” ,RAG僅靠向量庫(kù)檢索給出260 元的錯(cuò)誤答案,KAG 借助向量庫(kù)和知識(shí)圖譜檢索給出220元的正確答案。
金現(xiàn)代小金智問(wèn)借助KAG實(shí)現(xiàn)的問(wèn)答效果
從對(duì)通用 RAG 的優(yōu)化提升,到率先引入 KAG 技術(shù),金現(xiàn)代致力于通過(guò)技術(shù)創(chuàng)新讓智能問(wèn)答在各類(lèi)垂直領(lǐng)域發(fā)揮更大的價(jià)值,為企業(yè)AI場(chǎng)景落地提供有力支撐。
