Menu

  • Home
  • Trending
  • Recommended
  • Latest

分類

  • #2021 新年特輯
  • 100天區塊鏈挑戰
  • 2019 台灣區塊鏈產業指南
  • 2020 台灣區塊鏈產業年鑑
  • 2022 台灣年度最影響力人物榜
  • 2023 台灣年度影響力人物榜
  • 2023 新春特輯
  • 2024 TON Hacker House
  • 2024新春特輯
  • ABS 2018 專題報導
  • AI
  • CBDC是什麼?為何全球都在積極研究、有什麼優點與隱憂
  • Cefi
  • dao
  • dApps
  • defi
  • DePIN 如何開啟去中心化物理網路革命?
  • Entertainment
  • EOS
  • EOS insights
  • Gaming
  • Howto & Style
  • ICO
  • JiaJia
  • Layer 2
  • Libra
  • Movie
  • Music
  • News
  • nft
  • Plurality 多元宇宙
  • Starknet 空投落地,後續帶來什麼影響?
  • TON的崛起之路》背靠 Telegram 如何實現 Web3 大規模應用?
  • Uncategorized
  • Web3.0
  • 中國
  • 亞太
  • 交易所
  • 人物專訪
  • 以太坊
  • 以太坊
  • 以太坊 Dencun 坎昆升級將臨,你需要知道的所有事
  • 以太坊再質押協議為何成為最熱門賽道?
  • 供應鏈
  • 保險
  • 債券
  • 元宇宙
  • 全台最大詐騙案!Ace交易所涉垃圾幣詐騙
  • 全球加密貨幣監管最新動態統整
  • 其他國家
  • 其他幣別
  • 分散式帳本技術
  • 創投
  • 加密貨幣「詐騙手法」整理,學習如何保護你的資產
  • 加密貨幣市場
  • 區塊鏈平台
  • 區塊鏈新手全攻略,你需要知道的加密貨幣基礎
  • 區塊鏈新手教學
  • 區塊鏈活動
  • 區鍵禧
  • 即時新聞
  • 台灣
  • 哈希派
  • 國際組織報告
  • 多元宇宙Plurality有多重要?未來20年人類躍進關鍵
  • 央行
  • 娛樂平台
  • 安全
  • 專欄作者
  • 巴拉區塊事
  • 市場分析
  • 幣安與美國司法部達成 43 億美元和解,CZ認罪
  • 影片測試的分類
  • 快訊
  • 技術
  • 抓住空投爆擊!值得埋伏的項目、互動教學總整理
  • 投資分析
  • 挖礦
  • 推薦閱讀
  • 搶先看
  • 支付
  • 政府報告
  • 數位產權
  • 數據報告
  • 概念
  • 歐洲
  • 比特幣
  • 比特幣現貨ETF上市,真帶來了增量資金?
  • 比特幣第四次減半將臨,行情怎麼走?
  • 比特幣銘文大爆發,Oridinal 如何改變 BTC 生態?
  • 比特彭
  • 汪彪
  • 法規
  • 測試網
  • 灰度
  • 物聯網
  • 犯罪
  • 獨立觀點
  • 瑞波
  • 環境永續
  • 社交
  • 私人機構報告
  • 稅務
  • 穩定幣
  • 管制
  • 美國
  • 肺炎
  • 能源
  • 訴訟
  • 評級報告
  • 財金哥 & 區塊妹
  • 身份驗證
  • 遊戲
  • 鄧庶杭
  • 金融市場
  • 銀行
  • 錢包

Subscriptions

  • 零壹財經 01 binary
    01 Binary
  • 0xdt
  • 0xJigglypuff
  • aaaaYYYY
  • ABCDELabs

Recent News

  • 圖解多元宇宙》V神、Glen力推的Plurality是什麼?為何協作技術是人類社會進步關鍵
  • 精選文章搶先看!動區登入Access質押訂閱服務,解鎖寶貴資訊快人一步
  • ABS獨家專訪》Gitcoin共同創辦人Scott:台灣是現實與Web3治理的重要交匯點
動區動趨-最具影響力的區塊鏈新聞媒體
  • Home
    • Home Layout 1
    • Home Layout 2
    • Home Layout 3
  • Browse
    • News
    • Movie
    • Music
    • Technology
    • Howto & Style
    • Entertainment
    • Gaming
  • Features
    • Youtube Video
    • Vimeo Video
    • Dailymotion Video
    • Self-hosted Video
    • User Profile
    • Playlists
    • User-created Playlist
    • Favorite Playlist (Private)
    • Watch Later Playlist (Private)
    • All JNews Features
No Result
View All Result
  • Login
  • Register
UPLOAD
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home AI

Google出AI殺招!回饋強化學習(RLAIF)要逼死人工標記公司?

Foresight News by Foresight News
2023-09-19
in AI, 專欄作者
1.7k 54
0
Google出AI殺招!回饋強化學習(RLAIF)要逼死人工標記公司?
2.5k
SHARES
11.2k
VIEWS
Share on FacebookShare on Twitter

Google 最近提出了一種用大模型替代人類進行偏好標記的方法,稱為 AI 回饋強化學習(RLAIF),這一技術將來真的會逼死那些靠人工「拉框」的資料標記公司嗎?本文源自 SinoDAO 舉大名耳所著文章,由 Foresight News 整理撰文。
(前情提要:監獄囚犯變成AI訓練員?芬蘭被批剝削勞力)
(背景補充:ChatGPT背後的非洲血汗工:判讀「暗網殘虐內容」、時薪不到 2 美元)

本文目錄

  • RelatedPosts
  • Reddit宣布深度合作OpenAI:提供內容給ChatGPT、新增AI工具..重新推出代幣獎勵制度
  • V 神:GPT-4已通過圖靈測試,研究顯示人類有56%機率誤認GPT-4為人類
  • Google強打OpenAI:Gemini Live和GPT-4o誰能更勝一籌?
  • 資料標記現狀
  • OpenAI 的方式
    • 1、人工回饋與強化學習相結合
    • 2、多樣化、大規模的資料來源渠道
  • 標準化 VS 小作坊

 

RelatedPosts

Reddit宣布深度合作OpenAI:提供內容給ChatGPT、新增AI工具..重新推出代幣獎勵制度

V 神:GPT-4已通過圖靈測試,研究顯示人類有56%機率誤認GPT-4為人類

Google強打OpenAI:Gemini Live和GPT-4o誰能更勝一籌?

如果說,當下的生成式 AI,是一個正在茁壯成長的孩子,那麼源源不斷的資料,就是其餵養其生長的食物。

而資料標記,就是製作這一「食物」的過程。然而,這一過程真的很卷,很累人。

進行標記的「標記師」不僅需要反覆地識別出影象中的各種物體、顏色、形狀等,有時候甚至需要對資料進行清洗和預處理。

隨著 AI 技術的不斷進步,人工資料標記的侷限性也日益顯現。人工資料標記不僅耗時耗力,而且品質有時難以保障。

為了解決這些問題,Google 最近提出了一種用大模型替代人類進行偏好標記的方法,稱為 AI 回饋強化學習(RLAIF)。

研究結果表明,RLAIF 可以在不依賴人類標記的情況下,產生與人類回饋強化學習(RLHF)相當的改進效果,兩者的勝率都是 50%。同時,RLAIF 和 RLHF 都優於監督微調(SFT)的基線策略。

這些結果表明,RLAIF 不需要依賴於人工標記,是 RLHF 的可行替代方案。

那麼,倘若這一技術將來真的推廣、普及,眾多還在靠人工「拉框」的資料標記企業,從此是否就真的要被逼上絕路了?

資料標記現狀

如果要簡單地總結目前中國標記行業的現狀,那就是:勞動量大,但效率卻不太高,屬於費力不討好的狀態。

標記企業被稱為 AI 領域的資料工廠,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。

為了控制成本,標記公司的老闆們會在縣城裡租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。簡單來說,這個工種有點類似馬路邊上的臨時裝修工。

在工位上,系統會隨機給「標記師」一組資料,一般包含幾個問題和幾個回答。之後,「標記師」需要先標記出這個問題屬於什麼型別,隨後給這些回答分別打分並排序。

此前,人們在談論國產大模型與 GPT-4 等先進大模型的差距時,總結出了中國資料品質不高的原因。

但資料品質為何不高?一部分原因,就出在資料標記的「流水線」上。

目前,中文大模型的資料來源是兩類,一類是開源的資料集;一類是通過爬蟲爬來的中文網際網路資料。

中文大模型表現不夠好的主要原因之一就是網際網路資料品質,比如,專業人士在查詢資料的時候一般不會用百度。

因此,在面對一些較為專業、垂直的資料問題,例如醫療、金融等,就要與專業團隊合作。

可這時,問題又來了:對於專業團隊來說,在資料方面不僅回報週期長,而且先行者很有可能會吃虧。

例如,某家標記團隊花了很多錢和時間,做了很多資料,別人可能花很少的錢就可以直接打包買走。

面對這樣的「搭便車困境」,中國大模型紛紛陷入了資料雖多,但品質卻不高的詭異困境。

既然如此,那目前國外一些較為領先的 AI 企業,如 OpenAI,他們是怎麼解決這一問題的?

其實,在資料標記方面,OpenAI 也沒有放棄使用廉價的密集勞動來降低成本。

例如,此前就曝出其曾以 2 美元 / 小時的價格,僱傭了大量肯亞勞工進行有毒資訊的標記工作。

但關鍵的區別,就在於如何解決資料品質和標記效率的問題。

具體來說,OpenAI 在這方面,與中國企業最大的不同,就在於如何降低人工標記的「主觀性」、「不穩定性」的影響。

延伸閱讀:ChatGPT背後的非洲血汗工:判讀「暗網殘虐內容」、時薪不到 2 美元

OpenAI 的方式

為了降低這樣人類標記員的「主觀性」和「不穩定性」,OpenAI 大致採用了兩個主要的策略:

1、人工回饋與強化學習相結合

這裡先說說第一點,在標記方式上,OpenAI 的人工回饋,與中國最大的區別,就在於其主要是對智慧系統的行為進行排序或評分,而不是對其輸出進行修改或標記。

智慧系統的行為,是指智慧系統在一個複雜的環境中,根據自己的目標和策略,做出一系列的動作或決策。

例如玩一個遊戲、控制一個機器人、與一個人對話等。

智慧系統的輸出,則是指在一個簡單的任務中,根據輸入的資料,生成一個結果或回答,例如寫一篇文章、畫一幅畫。

通常來說,智慧系統的行為比輸出更難以用「正確」或「錯誤」來判斷,更需要用偏好或滿意度來評價。

而這種以「偏好」或「滿意度」為標準的評價體系,由於不需要修改或標記具體的內容,從而減少了人類主觀性、知識水平等因素對資料標記品質以及準確性的影響。

誠然,中國企業在進行標記時,也會使用類似「排序」、「打分」的體系,但由於缺乏 OpenAI 那樣的「獎勵模型」作為獎勵函式來優化智慧系統的策略,這樣的「排序」和「打分」,本質上仍然是一種對輸出進行修改或標記的方法。

2、多樣化、大規模的資料來源渠道

中國的資料標記來源主要是第三方標記公司或科技公司自建團隊,這些團隊多為本科生組成,缺乏足夠的專業性和經驗,難以提供高品質和高效率的回饋。

而相較之下,OpenAI 的人工回饋則來自多個渠道和團隊。

OpenAI 不僅使用開源資料集和網際網路爬蟲來獲取資料,還與多家資料公司和機構合作,例如 Scale AI、Appen、Lionbridge AI 等,來獲取更多樣化和高品質的資料。

與中國的同行相比,這些資料公司和機構標記的手段要「自動」和「智慧」得多。

例如,Scale AI 使用了一種稱為 Snorkel 的技術,它是一種基於弱監督學習的資料標記方法,可以從多個不精確的資料來源中生成高品質的標籤。

同時,Snorkel 還可以利用規則、模型、知識庫等多種訊號來為資料新增標籤,而不需要人工直接標記每個資料點。這樣可以大大減少人工標記的成本和時間。

在資料標記的成本、週期縮短的情況下,這些具備了競爭優勢的資料公司,再通過選擇高價值、高難度、高門檻的細分領域,如自動駕駛、大語言模型、合成數據等,就可不斷提升自己的核心競爭力和差異化優勢。

如此一來,「先行者會吃虧」的搭便車困境,也被強大的技術和行業壁壘給消弭了。

標準化 VS 小作坊

由此可見,AI 自動標記技術,真正淘汰的只是那些還在使用純人工的標記公司。

儘管資料標記聽上去是一個「勞動密集型」產業,但是一旦深入細節,便會發現,追求高品質的資料並不是一件容易的事。

以海外資料標記的獨角獸 Scale AI 為代表,Scale AI 不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數十名博士,來應對各行業的專業資料。

資料標記品質,是 Scale AI 為 OpenAI 等大模型企業提供的最大價值。

而要想最大程度地保障資料品質,除了前面提到的使用 AI 輔助標記外,Scale AI 的另一大創新,就是一個統一的資料平臺。

這些平臺,包括了 Scale Audit、Scale Analytics、ScaleData Quality 等。通過這些平臺,客戶可以監控和分析標記過程中的各種指標,並對標記資料進行校驗和優化,評估標記的準確性、一致性和完整性。

可以說,這樣標準化、統一化的工具與流程,成為了區分標記企業中「流水線工廠」和「手工小作坊」的關鍵因素。

在這方面,目前中國大部分的標記企業,都仍在使用「人工稽核」的方式來稽核資料標記的品質,只有百度等少數巨頭引入了較為先進的管理和評估工具,如 EasyData 智慧資料服務平臺。

如果在關鍵的資料稽核方面,沒有專門的工具來監控和分析標記結果和指標,那對資料品質的把關,就仍舊只能淪為靠「老師傅」眼力見的作坊式水準。

因此,越來越多的中國企業,如百度、龍貓資料等,都開始利用機器學習和人工智慧技術,提高資料標記的效率和品質,實現人機協作的模式。

由此可見,AI 標記的出現,並不是中國標記企業的末日,而只是一種低效、廉價、缺乏技術含量的勞動密集型標記方式的末日。

📍相關報導📍

Google新AI模型「Gemini」將推出!曝算力比GPT-4強五倍,能打敗OpenAI?

十大AI論文精選:人工智慧如何驅動市場經濟政策、實現利益最大化?

OpenAI和微軟訓練ChatGPT再遭集體訴訟,被控盜用版權作品、個資

Tags: AIGoogleRLAIF人工智慧資料標記

Recommended videos

3:27

NIKI – La La Lost You (Official Music Video)

2.5k Views
2024-07-28
    13:20

    How Would You Dress If You Weren’t Online?

    2.5k Views
    2024-06-21
      2:21

      Netflix’s The Witcher Season 1 Review Roundup

      2.5k Views
      2024-07-27
        2:00

        圖解多元宇宙》V神、Glen力推的Plurality是什麼?為何協作技術是人類社會進步關鍵

        2.5k Views
        2024-09-09
          Show More
          Copyright (c) 2019 by Jegtheme.
          • About
          • Buy JNews
          • Request A Demo
          • Contact
          No Result
          View All Result
          • Account
          • BlockTempo Beginner – 動區新手村
          • Change Password
          • Forgot Password?
          • Home 1
          • Home 2
          • Home 3
          • Jin-homepage
          • Latest
          • Login
          • Profile
          • Register
          • Reset Password
          • Trending
          • Users
          • Users List Item
          • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
          • 所有文章
          • 關於 BlockTempo

          © 2025 JNews - Premium WordPress news & magazine theme by Jegtheme.

          Welcome Back!

          Login to your account below

          Forgotten Password? Sign Up

          Create New Account!

          Fill the forms below to register

          All fields are required. Log In

          Retrieve your password

          Please enter your username or email address to reset your password.

          Log In

          Add New Playlist