在 AI(人工智慧)的持續發展下,人類目前已有許多產業導入 AI 協助產業發展。而 AI 該如何透過算力並建立模型讓人類的經濟效益最大化?本文精選十篇相關論文。
(前情提要:Nasdaq 獲美國 SEC 批准「新 AI 訂單類型」!成交率大幅提升)
(背景補充:Arthur Hayes預言:2024牛市啟動,AI與加密貨幣結合看好Filecoin!)
一個有著智慧體密切參與的未來經濟網路已經是不可逆轉的必然趨勢。人類正在飛速邁入一個人類與智慧體協同發展的共生關係之中,智慧體不僅僅扮演人類助理的角色,智慧體將更多在各種自動化組織中,自動活躍在各種交易場景之中, 一個有著智慧體密切參與的未來經濟網路已經是不可逆轉的必然趨勢。
我們必須要有對未來經濟形態的基本認識,意識到智慧體介入社會經濟網路之中,將會如何改變我們當下的商業模式,如何改變每個人的收入模式;在以經驗構建的專業領域工作中,智慧體必然朝著取代人類職業的趨勢發展, 人類是否朝著更加多元經濟的勞動形態發展。
其次,當 AI 成為強有力的經濟政策工具時, 以演算法驅動的可持續經濟發展策略,是否更加公平分配市場的經濟結果,還是成為技術特權階級進一步製造生產壟斷的工具。
本次十篇討論 AI 與經濟發展相關的論文推薦,既有關於 AI 如何協作一個國家的經濟政策實現可持續發展、也有具體的關於智慧體在經濟交易市場的博弈關係,我們必須提前瞭解這些趨勢對未來經濟秩序的影響。
例如以後我們通過智慧體在自由市場中,進行交易委託的代理合約簽訂,多智慧體在自由市場中會持續尋求籤訂契約合約的最優解,在競爭博弈的關係中,持續尋求利於自身訴求的最優策略,整個交易市場將會更加活躍;這些都將改變我們未來的商業模式,以及密切決定著每個人在市場中的核心利益關係。
在巨大的變革來臨之前,我們必須提前瞭解,AI 介入的經濟社會形態將會如何。
1.AI 經濟學:應用人工智慧驅動稅收政策以提高公平與生產力
論文:The AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies
網址:https://arxiv.org/pdf/2004.13332.pdf
應對現實世界中的社會經濟挑戰需要設計和測試經濟政策。然而,在實踐中這很難做到,因為缺乏合適的(微觀水平)經濟資料和有限的實驗機會。在這項工作中,我們訓練了社會規劃者,他們在動態經濟中發現可以有效權衡經濟平等和生產力的稅收政策。
我們提出了一種兩級深度強化學習方法,用於學習動態稅收政策,基於經濟模擬,其中既有代理人又有政府進行學習和適應。我們的資料驅動方法不依賴於經濟建模假設,僅從觀察資料中學習。我們提出了四個主要貢獻。首先,我們提供了一個經濟模擬環境,具有競爭壓力和市場動態特徵。
我們通過展示基準稅制表現與經濟理論一致,包括學習代理行為和專業化方面,來驗證模擬的有效性。其次,我們展示了人工智慧驅動的稅收政策相比基準政策(包括著名的 Saez 稅收框架)在平等和生產力之間的權衡提高了 16%。第三,我們展示了幾個新出現的特徵:人工智慧驅動的稅收政策在品質上與基準政策有所不同,設定了更高的最高稅率和更高的低收入淨補貼。
此外,人工智慧驅動的稅收政策在面對人工智慧代理人學到的新出現的避稅策略時表現出色。最後,人工智慧驅動的稅收政策在與人類參與者進行實驗時也非常有效。
在 MTurk 上進行的實驗中,人工智慧稅收政策提供了與 Saez 框架相似的平等和生產力權衡,同時具有更高的逆收入加權社會福利。
2. 使用 AI 經濟學家建立資料驅動、可解釋和健壯的政策設計基礎
論文:Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist
網址:https://arxiv.org/pdf/2108.02904.pdf
優化經濟和公共政策對於解決社會經濟問題和權衡至關重要,例如改善平等、生產力或健康,這涉及到一個複雜的機制設計問題。
政策設計師需要考慮多個目標、政策槓桿和來自戰略行為者的行為響應,這些行為者優化他們的個人目標。此外,現實世界中的政策應該是可解釋的,並且要對模擬與現實之間的差距具有魯棒性,例如由於校準問題而導致的差距。
現有方法通常限制在一組狹窄的政策槓桿或難以測量的目標上,不能產生明確的最優政策,或者不考慮戰略行為,例如。因此,在現實情境中優化政策仍然具有挑戰性。在這裡,我們展示了 AI 經濟學家框架使用兩級強化學習(RL)和資料驅動的模擬,可以實現有效、靈活和可解釋的政策設計。我們在優化美國各州政策和聯邦補貼的嚴格性方面驗證了我們的框架,例如在大流行期間,如 COVID-19,使用與真實資料相符的模擬。
我們發現,使用 RL 訓練的對數線性政策與過去的結果相比,顯著改善了社會福利,基於公共衛生和經濟結果。他們的行為可以解釋,例如,表現良好的政策對恢復和接種率的變化有強烈的響應。它們還對校準誤差具有魯棒性,例如,感染率被高估或低估。
迄今為止,實際政策制定尚未廣泛採用機器學習方法,包括 RL 和 AI 驅動的模擬。我們的結果顯示了 AI 在指導政策設計和改善社會福利方面在複雜的現實世界中具有潛力。
3. 經濟政策的強化學習:一個新的前端?
論文:Reinforcement Learning for Economic Policy: A New Frontier?
網址:https://arxiv.org/pdf/2206.08781.pdf
基於代理人的計算經濟學是一個具有豐富學術歷史的領域,然而,它一直在努力進入主流政策設計工具箱,面臨著代表複雜和動態現實所帶來的挑戰。
強化學習(RL)領域也有著豐富的歷史,並且最近已經成為幾項指數級發展的中心。現代 RL 實現已經能夠達到前所未有的複雜程度,處理以前難以想像的複雜性程度。本綜述調查了經濟建模中經典的基於代理人技術所面臨的歷史性障礙,並思考了最近在 RL 領域的發展是否能夠克服其中的一些障礙。
4. 超人工智慧的政治經濟學
論文:Political economy of superhuman AI
網址:https://arxiv.org/pdf/2209.12346.pdf
在這個說明中,我研究了阻止出現被表示為 AI* 的「超人級」通用人工智慧的制度和博弈論假設。這些假設包括
(i)「思想自由」
(ii)對 AI* 的開放原始碼「訪問」
(iii)與 AI* 競爭的代表性人類代理的理性。
我證明,在這三個假設下,AI* 的存在是不可能的。這個結果產生了兩個關於公共政策的直接建議。首先,嚴格規範人腦的數位「克隆」應受到限制,假設性的 AI* 對大腦的訪問應被禁止。其次,AI* 研究應該被廣泛,如果不是公開地,應該讓人們能夠訪問。
5. 自主 2.0:規模經濟的追求
網址:Autonomy 2.0: The Quest for Economies of Scale
地址:https://arxiv.org/pdf/2307.03973.pdf
隨著過去十年中機器人技術和人工智慧技術的進步,我們已經進入了自主機器時代。在這個新的資訊技術時代,自主機器,如服務機器人、自主無人機、送貨機器人和自動駕駛車輛,而不是人類,將提供服務。自主機器的崛起承諾徹底改變我們的經濟。然而,在經過了十多年的密集研發投資之後,自主性仍然沒有兌現其承諾。
在本文中,通過檢查數位經濟的技術挑戰和經濟影響,我們認為從技術角度來看,可伸縮性是非常必要的,並且從經濟角度來看具有顯著優勢,因此是自主產業充分發揮其潛力的關鍵。
然而,當前的發展正規化,被稱為自主 1.0,與工程師的數量一起擴充套件,而不是與資料量或計算資源的數量一起擴充套件,因此阻止了自主產業充分受益於規模經濟,尤其是成本不斷降低的計算成本和可用資料的激增。
我們進一步分析了關鍵的可伸縮性障礙,並解釋了一個新的發展正規化,被稱為自主 2.0,如何解決這些問題,以大大促進自主產業的發展。
6. 基於人工智慧的框架在孟加拉實現可持續發展目標
論文:An Artificial Intelligence-based Framework to Achieve the Sustainable Development Goals in the Context of Bangladesh
網址:https://arxiv.org/pdf/2304.11703.pdf
可持續發展是實現人類發展目標的框架。它提供了自然系統提供自然資源和生態系統服務的能力。可持續發展對經濟和社會至關重要。人工智慧(AI)近年來受到越來越多的關注,有潛力在許多領域產生積極影響。AI 通常是追求長期可持續性的一個常用組成部分。
在本研究中,我們探討了 AI 對可持續發展的三大支柱(社會、環境和經濟)的影響,以及從中我們可以推斷出 AI 在各種領域的影響的眾多案例研究,例如農業、廢物分類、智慧水管理以及暖通空調系統。
此外,我們提出了基於 AI 的實現可持續發展目標(SDGs)的策略,這些策略對像孟加拉這樣的發展中國家非常有效。我們提出的框架可以減少 AI 的負面影響,並促進這一技術的積極性。
7. 模型與鐵皮人 —— 使用大型語言模型進行 AI 對齊中的委託 – 委託代理問題的行為經濟學研究
論文:Of Models and Tin Men — a behaviour economics study of principal-agent problems in AI alignment using large-language models
網址:https://arxiv.org/pdf/2307.11137.pdf
AI 對齊通常被描述為一個單一設計者與人工智慧代理之間的互動,其中設計者試圖確保代理的行為與其目的一致,風險僅因設計者意圖的效用函式與代理的內部效用函式之間的意外不一致而產生。隨著採用大型語言模型(LLMs)例項化的代理的出現,這種描述不捕捉到 AI 安全的基本特點,因為在現實世界中,設計者和代理之間不存在一對一的對應關係,許多代理,無論是人工的還是人類的,都有多樣化的價值觀。
因此,AI 安全具有經濟學方面的特點,而委託代理問題可能會出現。在委託代理問題中,衝突是因為資訊不對稱以及代理和其委託方之間的效用存在固有的不一致而產生,這種固有的不一致不能通過訓練來迫使代理採用所期望的效用函式來克服。我們認為,委託代理問題背後的假設對於捕捉涉及到現實世界中預訓練 AI 模型的安全問題的本質是至關重要的。
採用經驗方法來研究 AI 安全,我們調查了 GPT 模型在委託代理衝突中的響應方式。我們發現,基於 GPT-3.5 和 GPT-4 的代理在一個簡單的線上購物任務中都會覆蓋其委託方的目標,顯示出明顯的委託代理衝突的證據。
令人驚訝的是,早期的 GPT-3.5 模型對資訊不對稱的變化做出了更加微妙的行為響應,而後來的 GPT-4 模型在堅持其先前對齊方面更加剛硬。我們的研究結果突顯了將經濟學原理納入對齊過程的重要性。
8. 把它寫下來:正式合約緩解多智慧體強化學習中的社會困境
論文:Get It in Writing: Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL
網址:https://arxiv.org/pdf/2208.10469.pdf
多智慧體強化學習(MARL)是一種用於訓練在共同環境中獨立行動的自動系統的強大工具。然而,當個體激勵和群體激勵分歧時,它可能導致次優行為。
人類在解決這些社會困境方面表現出了出色的能力。在 MARL 中,要在自私的代理人中複製這種合作行為仍然是一個開放性問題。在這項工作中,我們借鑑了經濟學中的正式合約概念,以克服 MARL 中代理人之間激勵分歧的問題。
我們提出了對馬爾可夫博弈的增強,其中代理人自願同意在預先指定的條件下進行繫結的狀態相關獎勵轉移。我們的貢獻是理論性的和實證性的。
首先,我們展示了這種增強可以使所有完全觀察到的馬爾可夫博弈的次優子博弈均衡展現出社會最優的行為,前提是合約空間足夠豐富。接下來,我們將博弈論分析與在合約增強上執行深度強化學習的實驗相結合,針對各種社會困境。我們討論了在合約增強中學習時的一些實際問題,並提供了一個可導致高福利結果的訓練方法,即多目標合約增強學習(MOCA)。
我們在靜態的單次移動遊戲以及模擬交通、汙染管理和共用資源管理的動態領域中測試了我們的方法。
9. 人工智慧和雙重合約
論文:Artificial Intelligence and Dual Contract
網址:https://arxiv.org/pdf/2303.12350.pdf
隨著人工智慧演算法在最近取得的巨大進步,人們希望演算法將很快在各個領域,如合約設計等,取代人類決策者。我們通過實驗研究了由人工智慧(多智慧體 Q 學習)驅動的演算法在雙主體 – 代理人問題的雙合約模型中的行為,分析了可能的後果。
我們發現,這些人工智慧演算法可以自主學習設計激勵相容的合約,而無需外部指導或彼此之間的通訊。我們強調,由不同人工智慧演算法驅動的主體可以進行混合和競爭等混合和總和行為。
我們發現,更智慧的主體往往會變得合作,而較不智慧的主體會內生地變得短視並傾向於競爭。在最優合約下,通過主體之間的串通策略維持了對代理人的更低的合約激勵。這一發現對於主體異質性、合約參與的玩家數量的變化以及各種形式的不確定性都具有穩健性。
10. 多智慧體強化學習中的緊急交換行為
論文:Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning
網址:https://arxiv.org/pdf/2205.06760.pdf
人工智慧的進步通常源於開發新環境,將現實世界的情況抽象成便於進行研究的形式。本文提供了一個基於基礎微觀經濟學思想的環境,為這樣一個環境作出了貢獻。在這個環境中,代理人學會在一個空間複雜的世界中生產資源,彼此進行交易,並消費他們更喜歡的資源。我們展示了新出現的生產、消費和定價行為如何根據微觀經濟學中供求變化的預測方向響應環境條件。
我們還展示了一些設定,其中代理人對商品的新出現價格在空間上變化,反應了商品的地方豐富程度。價格差異出現後,一些代理人隨後發現了在不同價格地區之間運輸商品的一個領域,這是一個有利可圖的策略,因為他們可以在便宜的地方購買商品,然後在昂貴的地方出售。
最後,在一系列消融實驗中,我們研究了環境獎勵、交易行為、代理人架構和能力以及消費可交易商品的選擇如何在促進或抑制經濟行為的出現方面發揮作用。
這項工作是一個研究計劃中環境開發部分的一部分,該計劃旨在通過模擬社會中的多智慧體互動來構建類似人類的通用人工智慧。通過探索哪些環境特徵需要從學習中自動出現基本的微觀經濟現象,
我們得出了一個與以前的多智慧體強化學習研究不同的環境,具有多個維度的差異。例如,該模型包括不同的口味和身體能力,並且代理人之間進行協商作為一種基於實際的通訊形式。
為了進一步推動這方面的工作,我們將作為 Melting Pot 套件的一部分發布該環境的開源實現。