作為托尼的得力助手,它既可靠又聰明,不僅可以連接到任意計算機終端,操控托尼的鋼鐵俠戰(zhàn)服,還會和托尼一起商量行動計劃。
擁有像賈維斯一樣的AI助手一直是人類對于機器伙伴的美好暢想。但在現(xiàn)實中,人們只能和沒那么聰明的Siri、Alex這樣的語音助手相處。直到大語言模型出現(xiàn)之后,新的可能性發(fā)生了——作為一種加持了大模型能力的智能體,新的AI Agent走進了人們的視野。
和Copilot不一樣,新一代的AI Agent(以下統(tǒng)一簡稱Agent)看上去更像賈維斯——只需要說出你想做什么,Agent就可以自己規(guī)劃并執(zhí)行任務(wù),也可以連接很多服務(wù)和工具來達成目標。相比之下,Copilot這樣的應(yīng)用則需要依賴清晰明確的prompt才能很好地發(fā)揮作用。
很多人認為Agent是大語言模型之后的下一個機會。比爾蓋茨認為,Agent公司的出現(xiàn)將對谷歌、亞馬遜以及其他大公司構(gòu)成潛在威脅:“這是一件大事。Agent會了解你所有的信息,也會知道更多你不知道的信息,這意味著,用戶永遠不會再訪問搜索網(wǎng)站,也不必使用生產(chǎn)力工作,一切都將通過Agent來完成!
“大型科技公司和創(chuàng)業(yè)公司都有可能抓住這次Agent的機會,如果微軟沒有介入,我會感到失望!北葼柹w茨說。
OpenAI的聯(lián)合創(chuàng)始人Andrej Karpathy認為:“普通人、創(chuàng)業(yè)者和極客在構(gòu)建Agents方面比OpenAI更有優(yōu)勢,大家處于平等競爭的狀態(tài)。”
近日在GitHub上,多Agent框架構(gòu)建的MetaGPT項目在短短2周時間就獲得了25.8k星。有人借助MetaGPT在十分鐘內(nèi)就制作了Flappy Bird小游戲,過程中完全不需要自己編寫代碼。
谷歌也在通過投資的方式關(guān)注這個領(lǐng)域的創(chuàng)新。今年5月,Agent公司Cognosys籌集了200萬美元的種子輪資金,領(lǐng)投方就是Alphabet風(fēng)險投資部門GV(Google Ventures)的普通合伙人SangeenZeb。Cognosys打造的是一種基于Web的Agent產(chǎn)品,旨在優(yōu)化工作流程、推進決策并提升各個領(lǐng)域的效能。
國內(nèi),我們也關(guān)注到一家聚焦于Agent方向的創(chuàng)業(yè)公司——瀾碼科技,今年8月,公司已獲得IDG資本、聯(lián)新資本、Atom Capital等頭部機構(gòu)的數(shù)千萬人民幣A輪融資。瀾碼的方向是基于底層⼤語⾔模型,開發(fā)新一代的智能助手(Agent)平臺,助力企業(yè)提升業(yè)務(wù)流程質(zhì)量和效率。公司成立于2023年2月,聚焦于to B領(lǐng)域,目前已經(jīng)與金山辦公等多家上市公司和獨角獸企業(yè)達成戰(zhàn)略合作。
想象一下,你和Agent說想去三亞旅行,接下來,它馬上就列出一個待辦事件清單,開始著手規(guī)劃。請假、訂酒店、買機票、做旅行規(guī)劃都不是問題,你唯一要做的事情就是等待出發(fā)。過程中,Agent會根據(jù)進展不斷調(diào)整和增加新的待辦來滿足你的需求,直到旅行結(jié)束。
論執(zhí)行力,沒有人能比得過Agent。GitHub上的明星Agent項目AutoGPT已經(jīng)被使用在各種場景中:有人把AutoGPT和其他軟件集成直接買到了披薩 ,有人用AutoGPT進行市場調(diào)查,以便隨時了解競爭對手信息;還有人直接用語音讓AutoGPT在電腦上部署了應(yīng)用程序。
Agent之所以在當下可以如此智能,最關(guān)鍵的技術(shù)變量就是大語言模型。此前,強化學(xué)習(xí)方法下訓(xùn)練的Agent,缺乏對于問題和技能的認識,只能在游戲等數(shù)字場景中進行分析規(guī)劃模擬對抗,或者在小范圍內(nèi)實現(xiàn)規(guī)劃運行,不具有泛化能力,也很難真正與人實現(xiàn)現(xiàn)實交互。大語言模型極大地拓展了Agent的能力邊界,它相當于大腦,讓Agent在接收到目標之后,可以自主進行邏輯推理和自我提示,不斷尋找達成目標的最好方式,通過和其他軟硬件相連,Agent可以熟練地使用計算機、瀏覽網(wǎng)頁、讀寫文件、用信用卡付款。人唯一需要做的就是提供一個目標。
OpenAI應(yīng)用研究主管LilianWeng在論文中對Agent的形容是:Agent=LLM(大型語言模型)+記憶+規(guī)劃技能+工具使用。其中LLM是核心大腦;記憶、規(guī)劃技能、工具使用則是Agents系統(tǒng)實現(xiàn)的三個關(guān)鍵組件。
如果大語言模型的Copilot是“副駕駛”,那自主拆解并執(zhí)行任務(wù)的Agent可以稱為“自動駕駛”,用戶只需要上車告訴它目的地。“Copilot模式強調(diào)一個人在完成整個業(yè)務(wù)流程的過程中,每一步都可以獲得AI輔助。這種模式的實用性非常強,可以用來生成面試問題、評估回答等。Agent比Copilot模式更具自主性,在接到人提出的目標后,可以自行計劃并完成任務(wù),還有可能去探索周圍環(huán)境!睘懘a科技CEO周健告訴「甲子光年」。
“當前我們主要在信息系統(tǒng)環(huán)境中使用AI,未來Agent可以和機器人融合,具有物理感知能力之后,就可以探索整個物質(zhì)世界。”周健說。這種情況下,Agent與人類成為了親密無間的伙伴,而不僅僅只是為人類服務(wù)的工具,人類也需要和Agent合作,做各種決策。
周健相信Agent背后大語言模型技術(shù)帶來的是一場全新的大機會:“就像斯坦福大學(xué)做的25個智能體的小村莊那樣,這種業(yè)務(wù)模式可以遷移到很多場景,比如做教育培訓(xùn),機構(gòu)可以在這樣一個虛擬環(huán)境中進行職場培訓(xùn),嵌入雇主打分功能,甚至還可以模擬創(chuàng)業(yè)環(huán)境!
周健曾擔(dān)任弘璣Cyclone CTO以及依圖的10號員工,并在Google、阿里和MediaV等企業(yè)具有10年工作經(jīng)驗,主要從事分布式系統(tǒng)研發(fā)。作為to B行業(yè)的老兵,他選擇從自己擅長的領(lǐng)域入手,創(chuàng)立了瀾碼科技,優(yōu)先做專業(yè)場景下to B領(lǐng)域的Agent。
他和「甲子光年」分享了他看到的機會:“一方面,B端企業(yè)會為了更高價值的工作流進行額外的準確率付費,另一方面,對于創(chuàng)業(yè)公司而言,服務(wù)圍著公司和崗位走,而不是人本身,更容易塑造自身的壁壘。”
“Agent平臺有可能成為to B領(lǐng)域人機交互的入口級平臺!敝芙≌f。目前,基于大語言模型,瀾碼研發(fā)了能夠連接人和系統(tǒng)的企業(yè)級Agent平臺“Ask XBot”,在Agent平臺“Ask XBot”上,員工可以用自然語言提出需求,調(diào)度Agent來完成任務(wù),提升工作質(zhì)量的同時降低了成本。
對于高喊著效率革命的to B領(lǐng)域而言,Agent的出現(xiàn)可能會掀起一輪新的生產(chǎn)力變革。英偉達機器學(xué)習(xí)專家Bojan Tunguz把新一代的Agent稱之為“自動化的自然終點”:“原則上,智能體可被用于自動化任何其他過程。不難想象,一旦這些智能體變得高度精密、可靠,各個領(lǐng)域和行業(yè)的自動化程度將呈指數(shù)級增長!
長久以來,“降本增效”一直是企業(yè)數(shù)字化、智能化的核心議題,這也是AI能在to B領(lǐng)域發(fā)揮關(guān)鍵作用的地方所在。從過去十幾年發(fā)展的歷程來看,AI的功能越強,覆蓋的業(yè)務(wù)環(huán)節(jié)越多,閉環(huán)越完整,發(fā)揮的效能越大。
大語言模型支撐的Agent讓企業(yè)智能化效率往前走了一大步。此前的自動化作業(yè)中,閉環(huán)和智能化能力有限,也只能作業(yè)在局部的場景和環(huán)節(jié),大多解決單點問題,Agent則可以在涵蓋大量信息的不可預(yù)測的環(huán)境中工作,拓寬了智能化的范疇。
“大語言模型帶來的最大變化是半結(jié)構(gòu)化或過程性的文檔也能夠被有效利用。”周健說,“此前的自動化解決的是基層員工的工作效率問題,只能處理很多重復(fù)性的工作,大語言模型之后,Agent可以復(fù)刻專家能力,解決更多的工作質(zhì)量問題!
比如,瀾碼招聘專家Agent基于大語言模型并充分學(xué)習(xí)了招聘專家知識,可以準確解析企業(yè)用人需求,并從各個渠道智能化、自動化的搜索人才,完成基于職位需求的崗位推薦,從而協(xié)助HR/獵頭在人才篩選工作中大幅提升工作質(zhì)量和效率,成為了企業(yè)內(nèi)部真正專業(yè)的一位數(shù)字員工!按饲,HR需要根據(jù)企業(yè)實際用人需求,在人才庫中,依靠固化的標簽,尋找合適的人選,整個過程耗時長且環(huán)節(jié)繁瑣,HR一般很難快速找到符合預(yù)期的人選信息!敝芙√岬。
在周健看來,諸如此類的場景有很多,對于企業(yè)而言,把專家知識通過技術(shù)手段賦能給Agent,讓Agent具備相應(yīng)的能力,就可以在企業(yè)的業(yè)務(wù)流程中,通過對話提供建議,從而顯著提升業(yè)務(wù)質(zhì)量和效率。
“以獵頭場景為例,過去很多銷售線索和簡歷信息分散在個人手中,公司很難做集中的個性化信息匹配。有了Agent之后,管理者就可以將信息沉淀在系統(tǒng)中,并通過簡單的標簽做個性化匹配,大大提升了銷售效率!
依靠這種邏輯,瀾碼構(gòu)建了Agent平臺“Ask XBot”,平臺分兩層:第一層是專家賦能,專家通過拖、拉、拽以及對話交互的方式定義工作流程,教給機器,從而協(xié)助一線員工構(gòu)建更高效工作的方法論;第二層是員工使用Agent,一線員工可以通過自然語言和Agent溝通并下達指令,讓Agent協(xié)助完成數(shù)據(jù)分析、資料調(diào)取等工作。
“我們想把瀾碼打造成一個兼具通用性和易用性的平臺,把這些API和Agent做好管理,讓Agent包裝不同的API,不同模型的Agent能夠在上面更好地協(xié)作,讓它們可以在平臺上更有效率、更智能地服務(wù)好客戶。”周健說道。目前,瀾碼除了有針對應(yīng)用調(diào)取等場景的Text To Action(文-功能)功能,還在針對數(shù)據(jù)分析場景打造Text To SQL(文-數(shù)據(jù)庫)、Text To Chart(文-圖標)等功能。
美國大語言模型明星創(chuàng)業(yè)公司Inflection AI也準備加入其中。據(jù)透露其正在開發(fā)一款私人助理,可以充當導(dǎo)師,以及處理在旅行過程中的行程預(yù)定、航班積分、酒店預(yù)定等任務(wù)。今年6月,Inflection AI的估值就達到40億美元,累計融資額15.25億美元,在基礎(chǔ)大模型公司中僅次于OpenAI。
此前,亞馬遜云科技也宣布了Amazon Bedrock Agents新功能,它可以把開發(fā)、部署和管理多個Agent的能力打包集成在一起,開發(fā)者只需要幾次點擊,就可以構(gòu)建Agent應(yīng)用。此舉大大降低了Agent應(yīng)用的開發(fā)門檻?梢灶A(yù)見,接下來,更多云服務(wù)也將在這個方向發(fā)力。
如火如荼的機會背后,現(xiàn)實的挑戰(zhàn)和不確定因素也在逐步顯現(xiàn)。技術(shù)層面,由于Agent面臨的是更復(fù)雜的環(huán)境和交互,需要擔(dān)任“大腦”的大語言模型在多模態(tài)能力上有所突破,才能更好地理解問題并解決問題;另一方面,由于物理世界的信息是多維度且動態(tài)的,Agent與物理世界的信息交互將會存在巨大的挑戰(zhàn)。
此外,在to B領(lǐng)域,Agent也會面臨一些現(xiàn)實難題。安全性首當其中!坝绕湓趖o B領(lǐng)域,不同客戶對數(shù)據(jù)安全和隱私保護的要求存在差異,Agent公司需要考慮保障數(shù)據(jù)的合規(guī)性,以便在符合法律法規(guī)的前提下使用相關(guān)數(shù)據(jù)!敝芙「嬖V「甲子光年」。
數(shù)據(jù)層,如何按照大型模型友好的方式對其進行記錄和整理也是一個關(guān)鍵難題!艾F(xiàn)有的數(shù)據(jù)并非都適合大型模型處理,在處理各種半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù):如簡歷、郵件、微信聊天記錄以及視頻直播等數(shù)據(jù)的過程中,需要按照大型模型友好的方式對其進行記錄和整理,才能真正的構(gòu)建數(shù)據(jù)閉環(huán),讓Agent打穿場景!敝芙√岬健_@意味著,對于企業(yè)而言,也需要即時記錄各類數(shù)據(jù),避免關(guān)鍵業(yè)務(wù)信息缺失對決策結(jié)果的影響。
他認為,安全可靠、數(shù)據(jù)閉環(huán),和基于這些產(chǎn)品形成的數(shù)據(jù)飛輪才是Agent公司的護城河!皵(shù)據(jù)是核心的競爭維度。數(shù)據(jù)有很多維度,互聯(lián)網(wǎng)上的很多行為數(shù)據(jù),企業(yè)內(nèi)部專家的知識數(shù)據(jù),企業(yè)自身業(yè)務(wù)閉環(huán)之后產(chǎn)生的決策數(shù)據(jù),這些組合在一起,才是Agent發(fā)揮最大價值的地方!
“Agent就像布滿太陽能的電板,把這些數(shù)據(jù)能量源源不斷的吸收進來,沉淀到企業(yè)內(nèi)部,形成可以復(fù)用的方法論和資產(chǎn),從而大幅提高企業(yè)的效能!敝芙≌劦健
現(xiàn)階段,瀾碼的重點是:持續(xù)構(gòu)建標桿客戶、通用性、易用性這三個x、y、z能力軸!扒捌诒厝粐@標桿客戶與產(chǎn)品通用性去打造,之后從提升毛利的必要性出發(fā),再去提升易用性!蹦壳盀懘a已經(jīng)跑通了很多場景,與金山辦公、特贊、輕流、優(yōu)云服等廠商達成了合作。頭部獵頭公司和某軟件外包上市企業(yè)是眼下的重要用戶。
“未來,我相信會形成一個類似于滴滴或美團的企業(yè)大腦,能夠與企業(yè)內(nèi)所有員工進行互動。這將使過去線性、僵化的自動化流程轉(zhuǎn)變?yōu)榛跀?shù)據(jù)和行為經(jīng)驗的決策流程。”周健說。