Google 正試圖通過其旗艦生成式AI模型套件 Gemini 在市場上掚起波濤,這一套模型包括了應用程序和服務。
那麼 Gemini 是什麼?您如何使用它?它又與競爭對手相比如何?
為了更輕鬆地跟上最新的 Gemini 發展,我們為您準備了這份方便的指南,並將隨著新的 Gemini 模型、功能以及關於 Google 對 Gemini 計劃的消息的公佈而不斷更新。
Gemini 是什麼?
Gemini 是 Google 早已承諾推出的下一代 GenAI 模型系列,由 Google 的 AI 研究實驗室 DeepMind 和 Google Research 開發。它有三種不同的型號:
- Gemini Ultra,性能最高的 Gemini 模型。
- Gemini Pro,一種“輕型” Gemini 模型。
- Gemini Nano,一種更小的“蒸餾”模型,可在像 Pixel 8 Pro 這樣的移動設備上運行。
所有 Gemini 模型都經過訓練,能夠“本地多模式” — 换句话说,能夠處理和使用不僅僅是文字。它們在各種音頻、圖像和視頻上進行了預訓練和微調,並涉及不同語言的大量程式碼庫和文本。
這一點使 Gemini 不同於諸如 Google 自家的 LaMDA 等模型,後者僅接受文本數據訓練。LaMDA 無法理解或生成除文本以外的任何内容(例如散文、郵件草稿),但 Gemini 模型就不同了。
Gemini 應用程序和 Gemini 模型之間有什麼區別?
Google 再次證明了自己在品牌塑造方面的能力有限,從一開始就未明確表明 Gemini 是與 Web 和移動端的 Gemini 應用程序(之前稱為 Bard)分開且不同的。Gemini 應用程序僅是一個接口,可通過該接口訪問某些 Gemini 模型 — 將其視為 Google 的 GenAI 的客戶端。
值得一提的是,Gemini 應用程序和模型也與 Imagen 2 完全獨立,後者是 Google 的文字到圖像模型,可在一些公司的開發工具和環境中使用。
Gemini 能做什麼?
由於 Gemini 模型是多模式的,理論上它們可以執行一系列多模式任務,從轉錄語音到為圖像和視頻加標題,再到生成藝術品。其中一些功能已經達到了產品階段(稍后將進一步介紹),而 Google 承諾到未來不久的某個時候將實現所有這些功能 — 甚至更多。
當然,很難相信公司說的話。
Google 在最初推出 Bard 時出現了嚴重的問題。最近,公司公布的一個演示視頻宣稱展示了 Gemini 的能力,結果發現該視頻經過了嚴重的篡改,基本上是一種虛幻的情況。
Google 最佳的 Gemini 演示是假的
儘管如此,假設 Google 在其聲稱上比較真實,這裡是不同級別的 Gemini 一旦充分發揮潛力將能夠實現的功能:
Gemini Ultra
Google 表示,由於其多模式,Gemini Ultra 可被用於幫助解決物理作業,逐步解決工作表上的問題,並指出可能在已填寫答案中存在的錯誤。
Google 還表示,Gemini Ultra 可應用於識別與特定問題相關的科學論文,從這些論文中提取信息,并且通過生成需要重新用更近期數據重建圖表的公式來“更新”一份圖表。
正如前面提到的,Gemini Ultra 在技術上支持圖像生成。但這種能力尚未納入產品化版本的模型中 — 這可能是因為該機制比 apps 如 ChatGPT 生成圖像的機制更複雜。與 ChatGPT 的 DALL-E 3 一樣,Gemini 不需要將提示提供給圖像生成器,而是“本地”輸出圖像,無需經過中間步驟。
通過 Vertex AI,即 Google 的全面管理的AI開發人員平臺,以及 AI Studio,即 Google 的面向應用程序和平臺開發人員的基於 Web 的工具,Gemini Ultra 作為 API 可用。它還為 Gemini 應用程序提供動力 — 但不是免費的。通過 Google 所謂的 Gemini Advanced 訪問 Gemini Ultra 需要訂閱 Google One AI 高級計劃,價格為每月 20 美元。
AI 高級計劃還將 Gemini 連接到您的更廣泛的 Google Workspace 帳戶 — 您可以考慮在 Gmail 中的電子郵件、Docs 中的文檔、Sheets 中的簡報和 Google Meet 錄製中使用 Gemini 來進行摘要或在視頻通話期間記錄笔记。
Gemini Pro
Google 表示,Gemini Pro 在推理、計劃和理解能力方面優於 LaMDA。
由卡內基梅隆大學和 BerriAI 研究人員進行的獨立研究發現,Gemini Pro 的初始版確實比 OpenAI 的 GPT-3.5 更擅長處理更長、更複雜的推理鏈。但該研究還發現,與所有大型語言模型一樣,這個版本的 Gemini Pro 在涉及幾個數位的數學問題上尤其困難,而用戶也發現一些錯誤的推理和明顯的錯誤例子。
有关 Google 的 Gemini 的早期印象不佳
Google 承諾提供解決方案 — 第一個解決方案就是 Gemini 1.5 Pro。
Gemini 1.5 Pro 被設計為可以直接替換,與前身相比,在許多方面都有改進,也許最顯著的是它可以處理的數據量。Gemini 1.5 Pro 可以處理約 70 萬個單詞或約 3 萬行代碼 — 是 Gemini 1.0 Pro 可處理的 35 倍。而且 — 由於該模型是多模式的 — 它不僅限於文本。Gemini 1.5 Pro 可以分析多達 11 小時的音頻或一小時的視頻,支持不同語言,盡管速度較慢(例如,在一小時視頻中搜索一個場面需要 30 秒到一分鐘的處理時間)。
Gemini 1.5 Pro 在 Vertex AI 上的公開預覽於四月開始。
另外一個端點,Gemini Pro Vision,可以處理文本和圖像 — 包括照片和視頻 — 並輸出類似於 OpenAI 的 GPT-4 with Vision 模型的文本。
在 Vertex AI 中,開發人員可以通過微調或“grounding”過程將 Gemini Pro 定制為特定情境和用例。 Gemini Pro 還可以連接到外部第三方 API 以執行特定操作。
Google 將 Gemini Pro 帶入 Vertex AI
在 AI Studio 中,有用於使用 Gemini Pro 創建結構化聊天提示的工作流程。開發人員可以訪問 Gemini Pro 和 Gemini Pro Vision 端點,並可以調整模型溫度以控制輸出的創意範圍,並提供示例以提供語氣和風格指導 — 還可以調整安全設置。
Gemini Nano
Gemini Nano 是 Gemini Pro 和 Ultra 模型的更小版本,足夠高效地在一些手機上運行,而不是將任務發送到遠程服務器。到目前為止,它為 Pixel 8 Pro、Pixel 8 和三星 Galaxy S24 上的一些功能提供動力,包括 Recorder 中的 Summarize 和 Gboard 中的 Smart Reply。
Recorder 應用程序允許用戶點擊按鈕錄製和轉錄音頻,其中包括 Gemini 驅動的簡要版本的您錄製的對話、訪談、演講和其他片段。即使沒有信號或 Wi-Fi 連接,用戶也可以獲得這些摘要 — 而且為了保護隱私,在此過程中不會有數據離開他們的手機。
Gemini Nano 還存在于 Google 的 Gboard 鍵盤應用程序中。在那裡,它支持一個名為 Smart Reply 的功能,這有助於在消息應用程序中進行對話時建議您下一步想要說的話。該功能最初僅與 WhatsApp 配合使用,但日后將擴展到更多應用程序,Google 表示。
而且在支持的設備上的 Google Messages 應用中,Nano 還啟用了 Magic Compose,該功能可以以“興奮”、“正式”和“抒情”等風格創作信息。
Gemini 是否比 OpenAI 的 GPT-4 更好?
Google 多次吹噓 Gemini 在基准测试上的優越性,聲稱 Gemini Ultra 超出當前最先進的大型語言模型研究和開發中使用的“32種基准中的 30種”的結果。公司表示,與 Gemini Ultra 在某些情境中相比,Gemini 1.5 Pro 在總結內容、集思廣益和撰寫方面更具能力;可以預期隨著下一代 Ultra 模型的推出,這種情况將發生改變。
但撇開基准測試是否真正表明一個更好的模型這個問題不談,Google 指出的分數似乎只比 OpenAI 的相應模型略好。而且 — 正如之前提到的 — 一些早期印象並不好,用戶和學術人士指出,老版本的 Gemini Pro 往往犯基本錯誤,翻譯困難,並提供糟糕的編碼建議。
Gemini 的價格是多少?
Gemini 1.5 Pro 在 Gemini 應用程序中及目前在 AI Studio 和 Vertex AI 中均可免費使用。
但一旦 Gemini 1.5 Pro 在 Vertex 中退出預覽階段,這個模型將需要支付每個字符 0.0025 美元的費用,而輸出將支付每個字符 0.00005 美元的費用。在 Vertex 客戶端,客戶按每 1000 個字符(約 140 到 250 個單詞)支付費用,而對於像 Gemini Pro Vision 這樣的模型,則根據每張圖像(0.0025 美元)支付費用。
假設一篇 500 字的文章包含 2,000 個字符。使用 Gemini 1.5 Pro 總結該文章將花費 5 美元。而生成一篇相似長度的文章將花費 0.1 美元。
Ultra 的價格尚未宣布。
您可以在哪裡嘗試 Gemini?
Gemini Pro
體驗 Gemini Pro 最簡單的地方是在 Gemini 應用程序中。Pro 和 Ultra 也正在回答各種語言的查詢。
此外,Gemini Pro 和 Ultra 可以在 Vertex AI 的 API 預覽中免費使用“在限制範圍內”(暫時),並支持歐洲等特定地區,還包括聊天功能和過濾功能。
在其他地方,Gemini Pro 和 Ultra 可以在 AI Studio 中找到。使用這項服務,