Menu

  • Home
  • Trending
  • Recommended
  • Latest

分類

  • #2021 新年特輯
  • 100天區塊鏈挑戰
  • 2019 台灣區塊鏈產業指南
  • 2020 台灣區塊鏈產業年鑑
  • 2022 台灣年度最影響力人物榜
  • 2023 台灣年度影響力人物榜
  • 2023 新春特輯
  • 2024 TON Hacker House
  • 2024新春特輯
  • ABS 2018 專題報導
  • AI
  • CBDC是什麼?為何全球都在積極研究、有什麼優點與隱憂
  • Cefi
  • dao
  • dApps
  • defi
  • DePIN 如何開啟去中心化物理網路革命?
  • Entertainment
  • EOS
  • EOS insights
  • Gaming
  • Howto & Style
  • ICO
  • JiaJia
  • Layer 2
  • Libra
  • Movie
  • Music
  • News
  • nft
  • Plurality 多元宇宙
  • Starknet 空投落地,後續帶來什麼影響?
  • TON的崛起之路》背靠 Telegram 如何實現 Web3 大規模應用?
  • Uncategorized
  • Web3.0
  • 中國
  • 亞太
  • 交易所
  • 人物專訪
  • 以太坊
  • 以太坊
  • 以太坊 Dencun 坎昆升級將臨,你需要知道的所有事
  • 以太坊再質押協議為何成為最熱門賽道?
  • 供應鏈
  • 保險
  • 債券
  • 元宇宙
  • 全台最大詐騙案!Ace交易所涉垃圾幣詐騙
  • 全球加密貨幣監管最新動態統整
  • 其他國家
  • 其他幣別
  • 分散式帳本技術
  • 創投
  • 加密貨幣「詐騙手法」整理,學習如何保護你的資產
  • 加密貨幣市場
  • 區塊鏈平台
  • 區塊鏈新手全攻略,你需要知道的加密貨幣基礎
  • 區塊鏈新手教學
  • 區塊鏈活動
  • 區鍵禧
  • 即時新聞
  • 台灣
  • 哈希派
  • 國際組織報告
  • 多元宇宙Plurality有多重要?未來20年人類躍進關鍵
  • 央行
  • 娛樂平台
  • 安全
  • 專欄作者
  • 巴拉區塊事
  • 市場分析
  • 幣安與美國司法部達成 43 億美元和解,CZ認罪
  • 影片測試的分類
  • 快訊
  • 技術
  • 抓住空投爆擊!值得埋伏的項目、互動教學總整理
  • 投資分析
  • 挖礦
  • 推薦閱讀
  • 搶先看
  • 支付
  • 政府報告
  • 數位產權
  • 數據報告
  • 概念
  • 歐洲
  • 比特幣
  • 比特幣現貨ETF上市,真帶來了增量資金?
  • 比特幣第四次減半將臨,行情怎麼走?
  • 比特幣銘文大爆發,Oridinal 如何改變 BTC 生態?
  • 比特彭
  • 汪彪
  • 法規
  • 測試網
  • 灰度
  • 物聯網
  • 犯罪
  • 獨立觀點
  • 瑞波
  • 環境永續
  • 社交
  • 私人機構報告
  • 稅務
  • 穩定幣
  • 管制
  • 美國
  • 肺炎
  • 能源
  • 訴訟
  • 評級報告
  • 財金哥 & 區塊妹
  • 身份驗證
  • 遊戲
  • 鄧庶杭
  • 金融市場
  • 銀行
  • 錢包

Subscriptions

  • 零壹財經 01 binary
    01 Binary
  • 0xdt
  • 0xJigglypuff
  • aaaaYYYY
  • ABCDELabs

Recent News

  • 圖解多元宇宙》V神、Glen力推的Plurality是什麼?為何協作技術是人類社會進步關鍵
  • 精選文章搶先看!動區登入Access質押訂閱服務,解鎖寶貴資訊快人一步
  • ABS獨家專訪》Gitcoin共同創辦人Scott:台灣是現實與Web3治理的重要交匯點
動區動趨-最具影響力的區塊鏈新聞媒體
  • Home
    • Home Layout 1
    • Home Layout 2
    • Home Layout 3
  • Browse
    • News
    • Movie
    • Music
    • Technology
    • Howto & Style
    • Entertainment
    • Gaming
  • Features
    • Youtube Video
    • Vimeo Video
    • Dailymotion Video
    • Self-hosted Video
    • User Profile
    • Playlists
    • User-created Playlist
    • Favorite Playlist (Private)
    • Watch Later Playlist (Private)
    • All JNews Features
No Result
View All Result
  • Login
  • Register
UPLOAD
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home AI

實測》Google承認造假「Gemini」,解答數學題果真不堪?

元宇宙日爆 by 元宇宙日爆
2023-12-11
in AI
685 14
0
實測》Google承認造假「Gemini」,解答數學題果真不堪?
961
SHARES
4.4k
VIEWS
Share on FacebookShare on Twitter

Google 自主研發的多模態大模型 Gemini Ultra 宣稱在多個方面碾壓 GPT-4V,聽說讀寫能力樣樣通。不過近日有網友發現其展示功能影片造假、考試成績也有疑慮…
(前情提要:Google最強AI「Gemini」爆造假!谷歌承認影片經剪輯、非即時語音、有用 Prompt)
(背景補充:Google新AI模型Gemini為何強大?iKala創辦人:ChatGPT難以對抗谷歌的生態版圖)

本文目錄

  • RelatedPosts
  • Reddit宣布深度合作OpenAI:提供內容給ChatGPT、新增AI工具..重新推出代幣獎勵制度
  • V 神:GPT-4已通過圖靈測試,研究顯示人類有56%機率誤認GPT-4為人類
  • Google強打OpenAI:Gemini Live和GPT-4o誰能更勝一籌?
  • 那麼,Gemini 真的比 GPT-4 強嗎?
  • Google展示 Gemini 「聽說讀寫」 能力
  • Ultra 的 MMLU 「試卷」 疑為Google版

 

RelatedPosts

Reddit宣布深度合作OpenAI:提供內容給ChatGPT、新增AI工具..重新推出代幣獎勵制度

V 神:GPT-4已通過圖靈測試,研究顯示人類有56%機率誤認GPT-4為人類

Google強打OpenAI:Gemini Live和GPT-4o誰能更勝一籌?

最大、最有能力、「最佳」、「最高效」,Google為其 12 月 7 日新發布的多模態大模型 Gemini 冠上了好幾個 「最」,與 OpenAI GPT-4 「比高還高」 的勝負欲呼之欲出。

區分為 Ultra、Pro、Nano 三個尺寸的 Gemini,不僅號稱在各種 「AI 考試」 中得了 「高分」,演示影片裡顯示的 Gemini 簡直就是 「聽說讀寫」 樣樣拿的 「超級工具」。

按照官方說法,Gemini Ultra 最為強大,兼具多模態能力、專業性與準確度,能以圖文、語音的形式輸入輸出不說,具體還能批改數學作業,指導運動員的動作與發力,還能夠執行復雜的繪製圖表、編碼等任務,在 MMLU(大規模多工語言理解)測試裡甚至 「超越了人類專家」。

不過,目前能供 C 端普通使用者體驗的是 Gemini Pro 版,按官方定位是 「在各種任務上擴充套件的最佳模型」,已整合至Google此前釋出的對話機器人 Bard 中;「在裝置上執行任務的最高效模型」 Gemini Nano 將置入Google智慧手機 Pixel8 Pro;而 「最大且最有能力,適用於高度複雜任務」 的 Gemini Ultra,Google的計劃是在明年年初開放給開發者和企業使用者。

那麼,Gemini 真的比 GPT-4 強嗎?

有網友發現,Google給出的 Gemini Ultra 「考試成績」 用的是自家的 「試卷」(測試方法);而彭博社指出,Gemini 的演示影片非即時,網友們也覺得該影片有剪輯痕跡。

《元宇宙日爆》實測了 Bard 的數學能力,該對話機器人已植入了精調的 Gemini Pro 模型,結果顯示,Bard 對複雜的數學題仍有理解錯誤,尤其是識圖方面。

Google展示 Gemini 「聽說讀寫」 能力

Gemini 是Google從頭構建的多模態人工智慧大模型。儘管在時間上落後 GPT-4 許多,但被Google以 「能力最強」 對外推出,「強」 的一面是 Gemini 的多模態能力。

它能夠同時處理和解析文字、影象、音訊、影片以及程式碼等多種資料型別,也就是說,使用者可以將各種形式的資訊輸入給 Gemini,它不僅能理解,還能分析甚至按你的需求處理任務。

目前,Gemini 還在 1.0 版,按規模不同分為 Ultra、Pro 和 Nano。Ultra 版本是適用於高度複雜的任務,而 Pro 版本則專注於多工處理,Nano 版本則針對移動裝置上的應用。三種版本有針對性地適用於多個不同場景,且在多項基準測試中展現出超群實力。

Google官方放出的宣傳影片展示了 Gemini 超強的多模態能力,相信看完後你會驚呼。

Let's go hands-on with #GeminiAI.

Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini's multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj

— Google (@Google) December 6, 2023

「超級模型」 Gemini Ultra 的背後有Google釋出的測試資料支撐。在 32 個廣泛用於測評大型語言模型(LLM)的學術基準中,它在 30 個上效能超過了大模型領域當前的技術水平。

Gemini Ultra 號稱以 90.0% 的得分成為第一個在 MMLU(大規模多工語言理解)上 「勝過人類專家的模型」,該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文字和編碼在內的一系列基準測試中超越了目前的技術水平。

MMLU 是一種針對大模型的語言理解能力的測評,包含了 57 個關於人類知識的多選題回答任務,涵蓋了初等數學、美國歷史、電腦科學、法律等,難度覆蓋高中水平到專家水平的人類知識,是目前主流的的大模型語義理解測評之一。

從Google給出的測試結果來看,Gemini 在理解複雜資料和執行高階任務方面將對 GPT-4 構成強有力的競爭。

谷歌稱 Gemini 在 MMLU 評估中首次超越人類專家

由於從一開始構建就基於多模態訓練,Gemini Ultra 理論上對文字、圖片、語音、影片、程式碼等各種形態的資訊都能理解,這就給 AI 應用和使用場景帶來了更多可能性。

例如在教育領域,藉助 Gemini Ultra 的多模態推理技能,凌亂的手寫筆記能被理解,學生解題時出錯的步驟能被發現,然後給出題目的正確解答和過程。這一套下來,不能說要淘汰教師吧,至少老師們也得到了一個高能 AI 助手。

Gemini 可以批改學生作業

在影片的理解與推理上,Gemini Ultra 甚至展現出 「足球教練」 的素養,能分析運動員的動作與發力,還會給出具體的改進建議。

Gemini 可理解影片內容並提供運動員指導建議

對於複雜的影象理解、程式碼生成、指令追蹤,Gemini Ultra 也不在話下。輸入影象與提示次 「我希望你採用左上角子圖中描繪的函式,將其乘以 1000,然後將其新增到左下子圖中描繪的函式中,生成 matplotlib 程式碼單個結果圖」 後,Gemini Ultra 能夠完美的執行逆圖形任務來推斷生成繪圖的程式碼、執行額外的數學轉換並生成相關程式碼。

從Google給出的這些案例看,Gemini Ultra 簡直是 「地表最強」 的大模型,觀眾朋友們最想知道的是,這個大模型界的 「超級賽亞人」,咱啥時候能用上?

按照Google的披露,從 12 月 6 號開始,Bard 就會上載 Gemini Pro 的精細調整版本,用於更高階的推理、規劃、理解等,這是 Bard 自推出以來的最大升級。

需要注意的是,集成了 Gemini Pro 的 Bard 只提供英語支援,可在全球 170 多個國家和地區使用,計劃在不久的將來擴充套件到不同的模態,支援新的語言和地區。也就是說,中文使用者目前還無法完美體驗 Gemini Pro。

Gemini Nano 最先在Google的 Pixel 8 Pro 智慧手機上應用,從 WhatsApp 開始,明年將支援更多的訊息應用。

在未來幾個月中,Gemini 還將在更多的產品和服務中推出,包括 Search、Ads、Chrome 和 Duet AI。也就是說,Google的搜尋引擎中也將輸入 Gemini 能力。

至於 「最強」 的 Gemini Ultra,普通使用者還得等等。Google說,它正在進行信任和安全性檢查,在推出前還得通過對人類回饋的微調和強化學習(RLHF)的進一步改進。

在這個過程中,Gemini Ultra 會有選擇地給客戶、開發人員、合作伙伴以及安全和責任專家拿來早期實驗,等待回饋,然後在明年初向開發人員和企業客戶開放。

Ultra 的 MMLU 「試卷」 疑為Google版

展示的是最強的 Gemini Ultra,但推出和使用要緩一緩,Google這樣的操作很快就惹來了懷疑,真比 GPT-4 強嗎?

彭博社就出來 「打臉」 說,Google的模型和 OpenAI 相比還仍有差距,現在這能力也僅憑演示,而影片演示還是錄製的,又不即時,很可能是 「精心調整的文字提示與靜態影象」。彭博社還指出,Gemini 的回答需要其他資訊的輔助,在真正的互動中需要暗示性很強的提示。

圍觀演示影片的網友們也覺得,影片中有很明顯的剪輯痕跡,「強大的能力存在水分」。

而Google給 Gemini Ultra 考試的 MMLU 測評,被網友指出用的是自家出的 「試卷」。在 57 個科目的多選題測試中,得了 90 分的 Ultra,底下分明標著 「CoT@32*」,這是Google自己除錯的測評方案。如果採用和 GPT-4 同樣的標準,它的得分只有 83.7,還不如得分 86.4 的 GPT-4。

Gemini Ultra 在Google調整的測試方案中得分 90

學術上的事情太專業,好在Google已經把 Gemini 植入了 Bard,儘管用的是 Utral 的低配版 Pro,但也號稱能多工處理,這是普通大眾最能直接測試 Gemini 的方式了。

《元宇宙日爆》直接選用了數學題,因為 ChatGPT 對數學就不太精通,而有唯一正確性的數學被 OpenAI 視作通往 AGI 的基礎,咱來看看被輸入 Gemini 能力的 Bard 是否擅長數學。

我們統一用英文進行提問,題 1 為求算圓錐體積,題 2 為稍難的幾何證明題。

測試結果表明,Gemini Pro 能夠準確識別影象以及圖片內的文字,也能夠正確解決簡單數學問題,但在處理複雜數學題時,仍然存在明顯錯誤。題 2 中的錯誤就很明顯,Bard 在第 2 步將 EG 與 AB 兩條線錯誤地證明為相互垂直。

有 GeminI Pro 能力的 Bard 做數學題還不完美

這難道是因為 Bard 用的是 Gemini Pro 而顯得不夠強大?那我們只能等 Ultra 加入再測試了。

而會引入智慧手機 Pixel 8 Pro 的 Gemini Nano,將應用在 「記錄器摘要」 和 「Gboard 智慧回覆」 兩項功能中。

按Google說法,即使手機不連網,記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要;而智慧回覆功能類似結束通話電話後的自動回覆,Gemini Nano 可以識別來信的內容,生成對應的回覆。不過,這兩項功能,目前也只支援英文文字的識別。

按照 DeepMind 曾提出的 AGI 評估框架,在 AGI-1 階段,人工智慧將能夠跨領域和跨模態地進行學習和推理,在多個領域和任務上表現出智慧,如問答、摘要、翻譯、對話等,實現與人類和其他 AI 進行基本的溝通和協作,感知和表達簡單的情感和價值。

綜合 Google 官方釋出與實際測試體驗來看,值得期待並有希望超越 GPT-4 模型的仍是尚未公開發布的 Ultra 版本,如果這個版本的多模態能力真能如演示般表現,那麼 Google 距離它定義的 AGI 也就不遠了。

📍相關報導📍

輾壓GPT-4!Google出殺手鐧「Gemini原生多模態模型」: AI 理解力首超人類、離線可用、搭載Pixel 8 Pro

Google新AI模型「Gemini」將推出!曝算力比GPT-4強五倍,能打敗OpenAI?

科技一周速報》Google發表Gemini、IBM推出量子晶片、蘋果 Vision Pro 新應用..

Tags: AIGeminiGoogleGPT-4

Recommended videos

7:28

Liv Tyler Just Got A Major Hair Makeover For Fall

2.5k Views
2024-06-26
    49:06

    UK Election 2019: Who won and what happens now?

    2.5k Views
    2024-07-19
      9:46

      Mount Batur Black Lava 4WD Jeep Adventure

      2.5k Views
      2024-07-13
        【動區|獨家專訪】「華爾街玩家」進入台灣加密市場——量化交易能與加密貨幣激起什麼火花?

        【動區|獨家專訪】「華爾街玩家」進入台灣加密市場——量化交易能與加密貨幣激起什麼火花?

        6k Views
        2018-07-28
          Show More
          Copyright (c) 2019 by Jegtheme.
          • About
          • Buy JNews
          • Request A Demo
          • Contact
          No Result
          View All Result
          • Account
          • BlockTempo Beginner – 動區新手村
          • Change Password
          • Forgot Password?
          • Home 1
          • Home 2
          • Home 3
          • Jin-homepage
          • Latest
          • Login
          • Profile
          • Register
          • Reset Password
          • Trending
          • Users
          • Users List Item
          • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
          • 所有文章
          • 關於 BlockTempo

          © 2025 JNews - Premium WordPress news & magazine theme by Jegtheme.

          Welcome Back!

          Login to your account below

          Forgotten Password? Sign Up

          Create New Account!

          Fill the forms below to register

          All fields are required. Log In

          Retrieve your password

          Please enter your username or email address to reset your password.

          Log In

          Add New Playlist