現階段的搜尋 AI,能取代不了傳統搜尋引擎嗎?我們用實際測試來判斷。
(前情提要:AI成未來法官?台灣司法院9月試行以人工智慧寫判決書 )
(背景補充:AI辦案!台灣檢警靠「ChatGPT」破獲1.5億虛擬貨幣詐騙案 )
在傳統搜尋引擎的時代,想要找到某個問題的答案,你會怎麼做?
也許你會開啟你的瀏覽器,輸入問題,然後點選搜尋按鈕。然後,你會看到一大堆的網頁連結。
但除了某些十分簡單、很顯而易見的問題外,只要是稍微複雜些的,需要提煉的知識,人們往往都難以直接從搜尋頁面中獲取答案。
於是,你不得不花費時間和精力去篩選和閱讀這些網頁,並不斷點選「下一頁」,才能找到你想要的資訊。
也正因如此,在生成式 AI 的浪潮下,如微軟的 New Bing、Google的 bard、Perplexit AI 推出的會話搜尋引擎,都在試圖解決人們的這一痛點。
而最近,這股 AI 搜尋引擎的大戰,也席捲到了中國。
幾天前,崑崙萬維推出了基於自身「天工」大模型的 AI 產品 —— 天工 AI 搜尋。可以說,這是目前第一款落地,並投入應用的獨立 AI 搜尋產品了。
該搜尋 AI 一出,即刻在中國掀起了不小波瀾,一些科技媒體紛紛盛讚,稱其會「革了傳統搜尋引擎的命!」
那麼,在表面的喧囂之下,天工 AI 搜尋,及其類似的一票 AI 搜尋引擎,真正的現狀究竟如何?
1 實際表現
鑑於到目前為止,關於天工 AI 搜尋的測評,已著實不少了。因此,本篇文章不打算再重複測試某些千篇一律、無關痛癢的功能,而是打算針對大部分普通使用者,在實際使用中最可能遇到的重點問題進行測評。
在這些重點中,最為人關切的,首先就是幻覺問題。
為了測試這點,我們分別將天工 AI 搜尋與 New Bing 進行了對比。
可以看到,在部分問題上,天工 AI 搜尋與 New Bing 都給出了較為準確的回答,沒有出現幻覺 / 錯誤的情況。
但可以明顯感到的是,天工 AI 搜尋的答案比 New Bing 要簡略了許多。
例如,在「Google今年推出了哪些 AI 產品」這一問題下,天工 AI 只是籠統地提到了 PaLM2 這一產品。
而這很可能是天工 AI 的向量語義檢索導致的。
這種檢索方式的好處,是隻需要計算向量之間的距離或相似度,而不需要對每個文字進行復雜的分析和處理。
在 New Bing 的精確模式下,AI 的回應也很簡略
通過對問題和潛在相關文件進行編碼,並計算它們之間的相似度,天工 AI 就能有效地過濾掉無關或低品質的資訊,只保留最相關和最有價值的資訊。
但這樣一來,生成的內容就會變得十分簡略。
可即便採用了向量語義檢索,也難以完全避免幻覺問題。
在這個回答中,天工 AI 犯了一個明顯的錯誤。眾所周知,在目前 OpenAI 的計劃中,GPT-4 是不開源的。
而同樣的,類似的錯誤與幻覺也出現在了 New Bing 中。
從理論上來說,如果搜尋 AI 能夠從網路上爬取到所有的資訊,並且能夠完美地理解和處理這些資訊,那麼它就不會產生幻覺或錯誤。但是,這在實際中是很難實現的。
至於具體的原因,暫時先留到文章第二部分解釋。
在這裡,我們先看看另一大使用搜索 AI 時的重點:理解和分析能力。
從功能上來說,AI 搜尋這個新物種,之所以被人們寄予了厚望,是因為自從其誕生的那天起,人們就不單單只想將其作為一個純粹的搜尋工具,而是希望它成為一個能集知識的發現、處理、分析和重新組織為一身的個人智慧助理。
畢竟,在這個資訊密度倍增的時代,人們已經越來越不滿足於接收那些未經「咀嚼」和「消化」的原始資訊了。
那麼在這方面,天工 AI 搜尋表現得怎樣呢?
我們可以用幾個比較考驗分析和理解能力的問題對其進行測試。
從這個回答,可以看出天工 AI 仍然保持了十分嚴謹的風格,對「核汙水是否會變核汙雨」沒有給出一個輕率的結論。
然而,這樣的回答,仍然停留在了一個「知其然」的層面,在對某些複雜問題進行詢問時,人們更渴望搜尋 AI 展現出更智慧、更具主觀能動性的一面。
在這個問題上,New Bing 的回答,則顯得詳細和深入得多。
而要想實現這樣的回答,就不能僅僅只對網頁中的資訊、資料進行簡單的蒐集,而是要依靠 AI 自身的智慧,對其進行提煉、分析和理解。
而這樣的智慧,在面對一些需要選擇和比較的問題時,就顯得尤為重要。
在某種程度上,AI 搜尋引擎邁向智慧助理的第一步,就是對問題形成自己的「看法」。
只有這樣經過深度處理後的資訊,才能更有效地幫助人們進行思考、決策。
而這樣具有「主動性」的特點,正是新一代 AI 搜尋引擎區別於傳統搜尋引擎最本質的區別。
2 人工智慧 VS 傳統搜尋
有了 AI 加成的搜尋引擎,究竟能否戰勝傳統的搜尋方式?
自從今年 New Bing 問世以來,這就是一個備受關注的話題,然而,最終的資料卻無情地表明了:現階段的搜尋 AI,暫時還幹不掉傳統搜尋引擎。
分析公司 StatCounter 的資料顯示,今年 7 月份,Bing 在全球的市場份額為 3%。這一份額與今年 1 月 (New Bing推出前一個月) 的基本相同。
分析公司 Similarweb 的另一份報告顯示,7 月份 Bing 的月訪問量約為Google的 1%,也與 1 月份大致相同。
儘管這樣的資料,並沒有對所有直接訪問 Bing 聊天頁面的人進行統計,但它仍印證了傳統搜尋引擎的地位。
這樣的現實,說明了在新式的搜尋 AI 推出許久之後,人們仍然不願捨棄傳統搜尋方式。
而這背後的原因,其實也很簡單:可靠性。
對很多人來說,用Google、百度搜索,雖然麻煩一點,但找到的內容足以讓自己的材料有足夠高的可信度。
而如果使用 AI 搜尋,哪怕所有的答案中,只有 5% 是幻覺和錯誤,就足以讓人在進行決策和判斷時翻車。
並且從技術環節上來說,聯網功能也並非根除幻覺的「靈丹妙藥」。
這主要是因為,網路上的資訊包含了很多噪聲,這些噪聲往往是一些不完整、不一致、不可靠的資訊。
而搜尋 AI 在識別和過濾噪聲方面的限制,是由多個技術環節共同造成的,這其中包括了網頁抓取、索引構建、連結分析等。而從這些噪音中,提取出有價值和意義的資訊卻絕非易事。
因為在這一過程中,連結的稀疏性、不均勻性,網頁的多樣化,都有可能影響搜尋 AI 判斷,導致噪聲的干擾。
既然如此,那這是否意味著,搜尋 AI 始終無法撼動傳統搜尋引擎的地位呢?
其實不然,因為一項新技術的前景,有時不在於其在原有賽道表現如何,而在於其是否能開闢新的賽道。
如上一部分所述,在這個資訊密度倍增的時代,未經處理的原始資訊,已經很難滿足人們的認知需求。
換句話說,在這個時代,人們想要的不僅是資訊、知識,而是智慧。
在目前 New Bing 等搜尋 AI 的應用場景中,最有價值,也最不可或缺的部分,就是其對某些晦澀、艱深內容的解讀。
有時候,只要使用了正確的提示詞,搜尋 AI 就能將資訊中難以理解的部分,轉化為簡明易懂的內容,
而這無疑大大地降低了個人的認知和理解成本。
從這個角度上說,搜尋 AI 有著傳統搜尋引擎無法取代的意義。
因為其不僅僅是簡單地將資訊擺在人們面前,並且還提供了一種見解、思路和策略,而這正是真正的個人智慧助理所必備的特質。
正如現在的某些瀏覽器,都會自帶「翻譯外掛」,方便人們在瀏覽外文網站時,能夠高效率地理解其中的內容一樣,或許在未來,搜尋 AI 也會以類似的形式,在人們閱讀網頁時,一邊進行總結,一邊提供思路,見解。
到了那時,人們甚至能要求其對網頁中的具體的某段文字,進行分析和總結。
3 未來的搜尋引擎
按照上面的思路,未來的搜尋引擎,也許將是結合了傳統搜尋與 AI 搜尋二者優勢的產物。
其最有可能的技術思路,則很可能類似於當下的 AI 智慧體。
具體來說,在獲取資訊時,搜尋 AI 可以先借助傳統搜尋引擎,爬取大量網頁,之後將這些龐大的,未經處理的資訊,交由一位智慧體專門進行篩選、提煉。
之後,這些經過提煉後的資訊,會交由一個負責稽核和糾錯的智慧體,以核驗資訊的準確性。
當確認無誤後,這些資訊最終將交由負責整理和輸出的智慧體,並通過其分析、推理能力,為人們提供有價值的思路、建議。
實際上,這樣的技術路線,在現實中並不遙遠,並且已經被某些團隊投入了使用。
例如,最近一個由哥大研究人員開發,名為 GPT Researcher 的 AI 智慧體專案,已經能獨立完成各種型別的網路科研任務。
其主要原理是執行「規劃者」和「執行者」智慧體。
其中規劃者生成研究問題,並提出針對該問題的一系列大綱、要領。
之後,執行者會針對大綱中的每個子問題,彙總 20 多個網路來源,形成客觀、真實的結論。
這樣的解決方案,避免了以往的 AI+ 聯網搜尋時,因為獲取的資源有限,以及內容的無規劃性,可能導致膚淺的結論或帶有幻覺的答案。
在可以預見的將來,倘若類似的技術,用在了 AI 搜尋上,那麼人們就可以既能借助傳統搜尋引擎的準確性,以及 AI 搜尋的智慧分析能力,極大地降低個人的認知成本,並以此將其作為每個人都能擁有智慧個人助理。