當(dāng)你打開短視頻 App,手指上下滑動的每一秒,背后都藏著一套決定 “你接下來看什么” 的排序邏輯。
過去十年,行業(yè)里的推薦排序大多依賴 “人工設(shè)計公式”—— 工程師們把 “用戶會不會點贊”、“能看多久” 等指標(biāo),按經(jīng)驗分配權(quán)重、套進公式,算出每個視頻的 “優(yōu)先級分數(shù)”。
但這套模式正在遭遇瓶頸:有人喜歡 “短平快” 的搞笑視頻,有人偏愛 “慢節(jié)奏” 的生活記錄,一套公式怎么滿足千萬用戶的個性化需求?當(dāng) “留存”、“時長”、“播放量” 等目標(biāo)沖突時,比如推長視頻能提升時長,卻可能降低播放量,人工調(diào)權(quán)重又該如何平衡?
為解決這些問題,快手策略算法團隊提出了一套全新框架 —— 端到端多目標(biāo)融合排序 EMER。它用 “會比較、能進化的 AI 模型”,徹底替代了傳統(tǒng)推薦排序,不僅在快手主 App 和極速版實現(xiàn) “七日留存 + 0.23%~0.3%、停留時長 +1.2%~1.4%” 的顯著提升,更給行業(yè)提供了一套可落地的 “智能排序” 解決方案。
那么,這一效果是怎么實現(xiàn)的?在快手發(fā)布的技術(shù)論文中,我們能找到完整答案。

- 論文標(biāo)題:An End-to-End Multi-objective Ensemble Ranking Framework for Video Recommendation
- 鏈接:https://arxiv.org/pdf/2508.05093
一、讓模型學(xué)會 “比較”,而不是 “單獨打分”
在深入 EMER 的技術(shù)細節(jié)前,我們先搞懂推薦排序的 “行業(yè)常規(guī)操作”。
簡單來說,工業(yè)界廣泛應(yīng)用的推薦排序模塊范式是兩階段的,第一階段通過大體量模型預(yù)估用戶在多個維度上的滿意度,第二階段將多目標(biāo)標(biāo)量化作為最終排序依據(jù),即多目標(biāo)融合排序。工業(yè)界普遍采用的標(biāo)量化方法是人工設(shè)計的啟發(fā)式排序公式,把這些預(yù)估結(jié)果合并成一個 “最終排序分”,分數(shù)高的視頻優(yōu)先展示。
這套模式的優(yōu)點很明顯 —— 成本低、調(diào)整靈活、可解釋性強。但缺點也同樣突出:
- 個性化不足:一套公式覆蓋所有用戶,無法適配 “有人愛刷短劇、有人愛刷知識” 的差異需求。
- 非線性能力弱:公式只能處理簡單的線性關(guān)系,沒法捕捉 “用戶看了 A 視頻后,更可能喜歡 B 視頻” 這類復(fù)雜關(guān)聯(lián)。
- 多目標(biāo)平衡難:當(dāng) “留存” 和 “播放量” 沖突時,只能靠工程師反復(fù)試錯調(diào)權(quán)重,既耗時又難找到最優(yōu)解。
過去的排序模型,本質(zhì)是 “給每個視頻打個獨立的分,按分數(shù)排序”。快手提出的端到端多目標(biāo)融合排序 EMER 的核心思路是 —— 排序的本質(zhì)是 “比較”,得讓模型看多個視頻之間的相對好壞。
為了實現(xiàn)這點,EMER 從數(shù)據(jù)、特征、模型三個層面做了創(chuàng)新性的設(shè)計:
1、數(shù)據(jù):給模型看 “全量候選”,而非 “個別樣本”
傳統(tǒng)模型只關(guān)注 “用戶最終互動過的視頻”(比如用戶點贊了 A 視頻,就只拿 A 視頻當(dāng)訓(xùn)練樣本),相當(dāng)于 “只看考試分數(shù),不看考生在全班的排名”。EMER 則反其道而行:把用戶一次請求中的所有候選視頻(哪怕沒被用戶看到)都打包成一個訓(xùn)練樣本。這樣做有兩個好處:1)解決 “曝光偏差”:避免模型只學(xué)過 “被推薦過的視頻”,忽略那些沒機會展示的優(yōu)質(zhì)內(nèi)容;2)提供 “比較基礎(chǔ)”:讓模型能直接對比 “同一批候選里,哪個視頻更適合用戶”,和線上真實的排序場景完全對齊。
2、特征:給模型加 “相對位置信息”
光有全量候選還不夠,EMER 還為每個視頻增加了Normalized Ranks(original item rank/total number of candidate items )特征 —— 簡單說,就是告訴模型:“這個視頻在這一批候選中的排名是第幾(從某單一維度的信號來看)”,讓模型明確知道每個 item 在當(dāng)前候選集中的相對地位。
3、模型:用 Transformer 捕捉 “視頻間的關(guān)聯(lián)”
為了處理 “多個視頻之間的比較關(guān)系”,EMER 基于Transformer 的網(wǎng)絡(luò)架構(gòu)。本身 Transformer 天然就擅長處理序列和關(guān)系,它能顯式地捕捉候選 item 之間的復(fù)雜關(guān)系,評估每個 item 對其他 item 的影響。最終,模型給出的得分,不再僅僅是 item 本身的質(zhì)量分,更包含了它在當(dāng)前上下文中的相對價值
