電子報-002

2025-04-14

Communeify

電子報-002

2025年4月14日

ByteDance 推出 Multi-SWE-bench

ByteDance 的多語言程式碼修復基準 Multi-SWE-bench 來了!看看它如何幫助大型語言模型更聰明地解決真實世界的開發難題。你可以透過基準評測找尋哪種語言模型更適合哪種程式碼。當然這個評測更適合查找SLM或是量化開源模型而不是主流閉源模型(否則編碼一律都使用Claude sonnet)。

Google 重磅發布 69 頁提示工程聖經 

雖然提示詞在思考模式下已經沒有很重要去學習,但是若你想寫出更準確的提示詞,你仍然需要這些能力。而Google發布了一份足足有 69 頁的白皮書,專門探討「提示工程」。如果你很愛買教學建議先讀完。可以直接透過此連結 Google Prompt Engineering White Paper on Kaggle 前往。

OpenRouter的Optimus Alpha

由於上一期推薦的 Quasar Alpha ,雖然在網頁很早就發布了,但因為電子報比較晚,導致隔一天就下架了,所以在此順便續接 Optimus Alpha 。注意該模型是用來測試的,不要使用於有關隱私的訊息使用

ChatGPT 推出記憶功能

OpenAI 為 ChatGPT Plus/Pro 用戶悄悄推出「記憶」功能,讓 AI 不再健忘,能記住你的偏好,提供更個人化的互動。跟舊版的差別是他會自動處理而不是主動要求。但其實市面上也有很多記憶平台可以記憶,例如: mem0,可以用於不同平台的語言模型。不太懂為何Sam Altman會說睡不著覺。

介紹GPT-4.5的開發歷程與突破

主要介紹GPT-4.5的開發歷程與突破,其他內容大概是說,GPT-4.5的性能超過GPT-4(順便提GPT-4要退休了,將以GPT-4o全面取代),獲得使用者好評。開發團隊包括資料處理、系統架構與演算法專家,合作克服了系統擴充與訓練過程中的挑戰。隨者規模變大,資料效率與系統設計變得越來越重要。未來將持續探索有效的演算法與訓練方式推動AI發展。

最後,如果有看到的話,每週一和週四會送出。若是上週四到當週一沒有什麼新消息,則不會送出。