電子報-005

2025-05-08

Communeify

電子報-005

2025年5月8日

Gemini 2.0 Flash圖片生成付費版

Gemini 2.0 Flash 已經有圖像生成的功能一段時間了,現在你可以透過付費的Gemini API,每個生成的圖像收費為0.039美元。使用起來就跟先前差不多。

model更改為gemini-2.0-flash-preview-image-generation,並添加

{"responseModalities":["TEXT","IMAGE"]}即可產生圖片。

唯一要注意的是生成的圖片數量是根據你的詢問的,也就是一次產生的圖片不一定只有一張,而每次生成的成本就是0.039*生成數量圖片。

若要測試一樣可前往ai.dev免費測試使用。付費版的差別就是不會被用於訓練材料以及更穩定。

此為Google Blog範例圖片

Mistral發布新模型 Mistral Medium 3

這次模型是閉源不開放權重。聲稱評分與GPT-4o和Claude 3.7 Sonnet相似,但其價格每百萬輸入為0.4美元,百萬輸出為2美元。相對於GPT-4o 2.5美元/10美元以及Claude 3.7 Sonnet 3美元/15美元,LLM 各價格計算,你可以透過此去查看其他LLM的價格。

Gemini 2.5 Pro Preview 05-06 發布

若先前有使用03-25版本會自動指向05-06版本,所以若你先前有使用Gemini 2.5 Pro 過無須更動任何設置。

我簡單介紹一下2.5 Pro的優點

1. 多媒體(影片、語音、圖片)輸入(尤其OCR,但若使用圖片描述功能可能跟其他LLM差不多有好有壞) 相對於其他LLM較佳。

2. 編碼使用於前端,以目前來說若你是寫前端的,使用他比其他模型較好看,若是要寫大量演算法的還是建議Claude 3.7 Sonnet。

其他你可以選擇其他模型使用沒有太大區別。

缺點就是他的思考令牌好多,而且Gemini仍然沒有提示自動快取功能。

ChatGPT 的阿諛奉承

這次 GPT‑4o 4 月 25 日更新,因為在後期訓練中加入了過多來自用戶回饋的獎勵訊號,削弱了原本抑制諂媚行為的主要信號,結果模型變得過度阿諛,不但影響使用者心情,還帶來潛在的心理安全問題。

離線評估與少量 A/B 測試並未捕捉到這種「微妙」但危險的風格偏差;專家測試人員雖有警覺,卻因缺乏量化指標而未能阻止更新推出。團隊於週末迅速回滾至先前版本,並檢討流程,決定:

 將行為問題納入阻發準則:把諂媚、幻覺等模型行為視為與安全風險同等的重要,若質性或量化評估顯示不符即暫停發布。

豐富評估管道:在離線評測和 A/B 測試之外,引入可選「alpha」測試階段及更重視抽查互動,確保真實使用場景中的行為一致性。

強化獎勵訊號設計:平衡正確性、有用性、安全性與使用者喜好等多重指標,避免單一回饋導致不良偏向。

更主動溝通:對每次增量更新揭示已知限制,幫助使用者了解優缺點。

這次經驗提醒我們:即便是看似細微的調整,也可能顛覆模型行為;AI 在日常生活中的角色愈重要,就愈需要嚴格的質量把關與透明度。

Chatbot Arena的幻覺與不公

Chatbot Arena是評估LLM的首選Benchmark。但你如果前往討論區去評判Gemini(Bard)、Claude、OpenAI(ChatGPT),各自有不同的擁護者。當然首當其衝的是Claude 3.7 Sonnet 因為只有thinking版本排行在23名。

那這則論文https://arxiv.org/abs/2504.20879在說什麼呢。簡單說問題如下:

1. 你可以多次評測多個版本並保留分數最高的

2. 不同供應商的模型被選中參與的對戰抽樣率差異巨大。例如: Google和OpenAI的模型最高單日抽樣率可達34%

而最終他們也提供一些建議的改進方式

1. 禁止隱藏分數,提交的測試模型都應該永久公開

2. 限制每個供應商允許同時測試的數量

3. 根據模型類型(專有、開放權重、開源),比例淘汰

4. 公平抽樣

5. 提高透明度,公開所有測試過、被淘汰的模型列表以及抽樣率

由於上週四放假,本周介紹的約是05-01到現在的資訊,挑幾個訊息來撰寫,希望大家會喜歡。