電子報-005

2025-05-08

JH LAI
May 08, 2025

_Communeify

Gemini 2.0 Flash 已經有圖像生成的功能一段時間了，現在你可以透過付費的Gemini API，每個生成的圖像收費為0.039美元。使用起來就跟先前差不多。

model更改為gemini-2.0-flash-preview-image-generation，並添加

{"responseModalities":["TEXT","IMAGE"]}即可產生圖片。

唯一要注意的是生成的圖片數量是根據你的詢問的，也就是一次產生的圖片不一定只有一張，而每次生成的成本就是0.039*生成數量圖片。

若要測試一樣可前往ai.dev免費測試使用。付費版的差別就是不會被用於訓練材料以及更穩定。

此為Google Blog範例圖片

這次模型是閉源不開放權重。聲稱評分與GPT-4o和Claude 3.7 Sonnet相似，但其價格每百萬輸入為0.4美元，百萬輸出為2美元。相對於GPT-4o 2.5美元/10美元以及Claude 3.7 Sonnet 3美元/15美元，LLM 各價格計算，你可以透過此去查看其他LLM的價格。

若先前有使用03-25版本會自動指向05-06版本，所以若你先前有使用Gemini 2.5 Pro 過無須更動任何設置。

我簡單介紹一下2.5 Pro的優點

1. 多媒體(影片、語音、圖片)輸入(尤其OCR，但若使用圖片描述功能可能跟其他LLM差不多有好有壞) 相對於其他LLM較佳。

2. 編碼使用於前端，以目前來說若你是寫前端的，使用他比其他模型較好看，若是要寫大量演算法的還是建議Claude 3.7 Sonnet。

其他你可以選擇其他模型使用沒有太大區別。

缺點就是他的思考令牌好多，而且Gemini仍然沒有提示自動快取功能。

這次 GPT‑4o 4 月 25 日更新，因為在後期訓練中加入了過多來自用戶回饋的獎勵訊號，削弱了原本抑制諂媚行為的主要信號，結果模型變得過度阿諛，不但影響使用者心情，還帶來潛在的心理安全問題。

離線評估與少量 A/B 測試並未捕捉到這種「微妙」但危險的風格偏差；專家測試人員雖有警覺，卻因缺乏量化指標而未能阻止更新推出。團隊於週末迅速回滾至先前版本，並檢討流程，決定：

將行為問題納入阻發準則：把諂媚、幻覺等模型行為視為與安全風險同等的重要，若質性或量化評估顯示不符即暫停發布。

豐富評估管道：在離線評測和 A/B 測試之外，引入可選「alpha」測試階段及更重視抽查互動，確保真實使用場景中的行為一致性。

強化獎勵訊號設計：平衡正確性、有用性、安全性與使用者喜好等多重指標，避免單一回饋導致不良偏向。

更主動溝通：對每次增量更新揭示已知限制，幫助使用者了解優缺點。

這次經驗提醒我們：即便是看似細微的調整，也可能顛覆模型行為；AI 在日常生活中的角色愈重要，就愈需要嚴格的質量把關與透明度。

Chatbot Arena是評估LLM的首選Benchmark。但你如果前往討論區去評判Gemini(Bard)、Claude、OpenAI(ChatGPT)，各自有不同的擁護者。當然首當其衝的是Claude 3.7 Sonnet 因為只有thinking版本排行在23名。

那這則論文https://arxiv.org/abs/2504.20879在說什麼呢。簡單說問題如下:

1. 你可以多次評測多個版本並保留分數最高的

2. 不同供應商的模型被選中參與的對戰抽樣率差異巨大。例如: Google和OpenAI的模型最高單日抽樣率可達34%

而最終他們也提供一些建議的改進方式

1. 禁止隱藏分數，提交的測試模型都應該永久公開

2. 限制每個供應商允許同時測試的數量

3. 根據模型類型(專有、開放權重、開源)，比例淘汰

4. 公平抽樣

5. 提高透明度，公開所有測試過、被淘汰的模型列表以及抽樣率

由於上週四放假，本周介紹的約是05-01到現在的資訊，挑幾個訊息來撰寫，希望大家會喜歡。