Google 最近提出了一種用大模型替代人類進行偏好標記的方法,稱為 AI 回饋強化學習(RLAIF),這一技術將來真的會逼死那些靠人工「拉框」的資料標記公司嗎?本文源自 SinoDAO 舉大名耳所著文章,由 Foresight News 整理撰文。
(前情提要:監獄囚犯變成AI訓練員?芬蘭被批剝削勞力)
(背景補充:ChatGPT背後的非洲血汗工:判讀「暗網殘虐內容」、時薪不到 2 美元)
如果說,當下的生成式 AI,是一個正在茁壯成長的孩子,那麼源源不斷的資料,就是其餵養其生長的食物。
而資料標記,就是製作這一「食物」的過程。然而,這一過程真的很卷,很累人。
進行標記的「標記師」不僅需要反覆地識別出影象中的各種物體、顏色、形狀等,有時候甚至需要對資料進行清洗和預處理。
隨著 AI 技術的不斷進步,人工資料標記的侷限性也日益顯現。人工資料標記不僅耗時耗力,而且品質有時難以保障。
為了解決這些問題,Google 最近提出了一種用大模型替代人類進行偏好標記的方法,稱為 AI 回饋強化學習(RLAIF)。
研究結果表明,RLAIF 可以在不依賴人類標記的情況下,產生與人類回饋強化學習(RLHF)相當的改進效果,兩者的勝率都是 50%。同時,RLAIF 和 RLHF 都優於監督微調(SFT)的基線策略。
這些結果表明,RLAIF 不需要依賴於人工標記,是 RLHF 的可行替代方案。
那麼,倘若這一技術將來真的推廣、普及,眾多還在靠人工「拉框」的資料標記企業,從此是否就真的要被逼上絕路了?
資料標記現狀
如果要簡單地總結目前中國標記行業的現狀,那就是:勞動量大,但效率卻不太高,屬於費力不討好的狀態。
標記企業被稱為 AI 領域的資料工廠,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。
為了控制成本,標記公司的老闆們會在縣城裡租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。簡單來說,這個工種有點類似馬路邊上的臨時裝修工。
在工位上,系統會隨機給「標記師」一組資料,一般包含幾個問題和幾個回答。之後,「標記師」需要先標記出這個問題屬於什麼型別,隨後給這些回答分別打分並排序。
此前,人們在談論國產大模型與 GPT-4 等先進大模型的差距時,總結出了中國資料品質不高的原因。
但資料品質為何不高?一部分原因,就出在資料標記的「流水線」上。
目前,中文大模型的資料來源是兩類,一類是開源的資料集;一類是通過爬蟲爬來的中文網際網路資料。
中文大模型表現不夠好的主要原因之一就是網際網路資料品質,比如,專業人士在查詢資料的時候一般不會用百度。
因此,在面對一些較為專業、垂直的資料問題,例如醫療、金融等,就要與專業團隊合作。
可這時,問題又來了:對於專業團隊來說,在資料方面不僅回報週期長,而且先行者很有可能會吃虧。
例如,某家標記團隊花了很多錢和時間,做了很多資料,別人可能花很少的錢就可以直接打包買走。
面對這樣的「搭便車困境」,中國大模型紛紛陷入了資料雖多,但品質卻不高的詭異困境。
既然如此,那目前國外一些較為領先的 AI 企業,如 OpenAI,他們是怎麼解決這一問題的?
其實,在資料標記方面,OpenAI 也沒有放棄使用廉價的密集勞動來降低成本。
例如,此前就曝出其曾以 2 美元 / 小時的價格,僱傭了大量肯亞勞工進行有毒資訊的標記工作。
但關鍵的區別,就在於如何解決資料品質和標記效率的問題。
具體來說,OpenAI 在這方面,與中國企業最大的不同,就在於如何降低人工標記的「主觀性」、「不穩定性」的影響。
延伸閱讀:ChatGPT背後的非洲血汗工:判讀「暗網殘虐內容」、時薪不到 2 美元
OpenAI 的方式
為了降低這樣人類標記員的「主觀性」和「不穩定性」,OpenAI 大致採用了兩個主要的策略:
1、人工回饋與強化學習相結合
這裡先說說第一點,在標記方式上,OpenAI 的人工回饋,與中國最大的區別,就在於其主要是對智慧系統的行為進行排序或評分,而不是對其輸出進行修改或標記。
智慧系統的行為,是指智慧系統在一個複雜的環境中,根據自己的目標和策略,做出一系列的動作或決策。
例如玩一個遊戲、控制一個機器人、與一個人對話等。
智慧系統的輸出,則是指在一個簡單的任務中,根據輸入的資料,生成一個結果或回答,例如寫一篇文章、畫一幅畫。
通常來說,智慧系統的行為比輸出更難以用「正確」或「錯誤」來判斷,更需要用偏好或滿意度來評價。
而這種以「偏好」或「滿意度」為標準的評價體系,由於不需要修改或標記具體的內容,從而減少了人類主觀性、知識水平等因素對資料標記品質以及準確性的影響。
誠然,中國企業在進行標記時,也會使用類似「排序」、「打分」的體系,但由於缺乏 OpenAI 那樣的「獎勵模型」作為獎勵函式來優化智慧系統的策略,這樣的「排序」和「打分」,本質上仍然是一種對輸出進行修改或標記的方法。
2、多樣化、大規模的資料來源渠道
中國的資料標記來源主要是第三方標記公司或科技公司自建團隊,這些團隊多為本科生組成,缺乏足夠的專業性和經驗,難以提供高品質和高效率的回饋。
而相較之下,OpenAI 的人工回饋則來自多個渠道和團隊。
OpenAI 不僅使用開源資料集和網際網路爬蟲來獲取資料,還與多家資料公司和機構合作,例如 Scale AI、Appen、Lionbridge AI 等,來獲取更多樣化和高品質的資料。
與中國的同行相比,這些資料公司和機構標記的手段要「自動」和「智慧」得多。
例如,Scale AI 使用了一種稱為 Snorkel 的技術,它是一種基於弱監督學習的資料標記方法,可以從多個不精確的資料來源中生成高品質的標籤。
同時,Snorkel 還可以利用規則、模型、知識庫等多種訊號來為資料新增標籤,而不需要人工直接標記每個資料點。這樣可以大大減少人工標記的成本和時間。
在資料標記的成本、週期縮短的情況下,這些具備了競爭優勢的資料公司,再通過選擇高價值、高難度、高門檻的細分領域,如自動駕駛、大語言模型、合成數據等,就可不斷提升自己的核心競爭力和差異化優勢。
如此一來,「先行者會吃虧」的搭便車困境,也被強大的技術和行業壁壘給消弭了。
標準化 VS 小作坊
由此可見,AI 自動標記技術,真正淘汰的只是那些還在使用純人工的標記公司。
儘管資料標記聽上去是一個「勞動密集型」產業,但是一旦深入細節,便會發現,追求高品質的資料並不是一件容易的事。
以海外資料標記的獨角獸 Scale AI 為代表,Scale AI 不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數十名博士,來應對各行業的專業資料。
資料標記品質,是 Scale AI 為 OpenAI 等大模型企業提供的最大價值。
而要想最大程度地保障資料品質,除了前面提到的使用 AI 輔助標記外,Scale AI 的另一大創新,就是一個統一的資料平臺。
這些平臺,包括了 Scale Audit、Scale Analytics、ScaleData Quality 等。通過這些平臺,客戶可以監控和分析標記過程中的各種指標,並對標記資料進行校驗和優化,評估標記的準確性、一致性和完整性。
可以說,這樣標準化、統一化的工具與流程,成為了區分標記企業中「流水線工廠」和「手工小作坊」的關鍵因素。
在這方面,目前中國大部分的標記企業,都仍在使用「人工稽核」的方式來稽核資料標記的品質,只有百度等少數巨頭引入了較為先進的管理和評估工具,如 EasyData 智慧資料服務平臺。
如果在關鍵的資料稽核方面,沒有專門的工具來監控和分析標記結果和指標,那對資料品質的把關,就仍舊只能淪為靠「老師傅」眼力見的作坊式水準。
因此,越來越多的中國企業,如百度、龍貓資料等,都開始利用機器學習和人工智慧技術,提高資料標記的效率和品質,實現人機協作的模式。
由此可見,AI 標記的出現,並不是中國標記企業的末日,而只是一種低效、廉價、缺乏技術含量的勞動密集型標記方式的末日。
📍相關報導📍
Google新AI模型「Gemini」將推出!曝算力比GPT-4強五倍,能打敗OpenAI?