12 月 1 日,DeepSeek 一口氣發(fā)布了兩款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
幾天過去,熱度依舊不減,解讀其技術(shù)報(bào)告的博客也正在不斷涌現(xiàn)。知名 AI 研究者和博主 Sebastian Raschka 發(fā)布這篇深度博客尤其值得一讀,其詳細(xì)梳理了 DeepSeek V3 到 V3.2 的進(jìn)化歷程。
圖片
機(jī)器之心編譯了這篇深度技術(shù)博客,以饗讀者:
圖片
博客標(biāo)題:A Technical Tour of the DeepSeek Models from V3 to V3.2
博客地址:https://sebastianraschka.com/blog/2025/technical-deepseek.html
與 DeepSeek V3 的發(fā)布策略如出一轍,DeepSeek 團(tuán)隊(duì)再次選擇在一個(gè)美國主要節(jié)假日周末發(fā)布了他們的新旗艦?zāi)P汀?br />鑒于 DeepSeek V3.2 展現(xiàn)出了極佳的性能水平(在基準(zhǔn)測試中對標(biāo) GPT-5 和 Gemini 3.0 Pro),加之它本身也是一個(gè)開放權(quán)重模型,這無疑值得重點(diǎn)關(guān)注。
圖片
圖 1:DeepSeek V3.2 與專有旗艦?zāi)P椭g的基準(zhǔn)測試對比。來自 DeepSeek V3.2 報(bào)告 并加上了注釋。
我曾在文章《大型 LLM 架構(gòu)對比》的開篇介紹過它的前身 ——DeepSeek V3。隨著新架構(gòu)的不斷涌現(xiàn),我在過去幾個(gè)月里一直在持續(xù)更新那篇文章。
原本,我剛和家人度完感恩節(jié)假期回來,計(jì)劃「只是」在原文章中增加一個(gè)新章節(jié)來簡單介紹這次新發(fā)布的 DeepSeek V3.2。但隨后我意識到,這次更新包含太多有趣的信息和細(xì)節(jié),僅僅一個(gè)章節(jié)無法涵蓋。因此,我決定將其寫成一篇篇幅較長的獨(dú)立文章。
他們的技術(shù)報(bào)告中涵蓋了大量有趣的領(lǐng)域和值得學(xué)習(xí)的知識,讓我們開始吧!