多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場(chǎng)景級(jí)理解。
而場(chǎng)景級(jí)理解 ≠ 視覺(jué)理解的終點(diǎn),現(xiàn)實(shí)任務(wù)(如自動(dòng)駕駛、機(jī)器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對(duì)象級(jí)(object-level)詳細(xì)理解。
然而,當(dāng)下的研究工作,如英偉達(dá)的Describe Anything Model (DAM)局限于單個(gè)物體的描述,難以深入理解多對(duì)象屬性、交互關(guān)系及其時(shí)序演變,且犧牲了模型本身的通用理解能力。
針對(duì)這一問(wèn)題,浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個(gè)統(tǒng)一的時(shí)空像素級(jí)區(qū)域級(jí)理解框架,可實(shí)現(xiàn)任意粒度下的精細(xì)視覺(jué)指代與推理,在多項(xiàng)像素級(jí)細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時(shí)間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。

PixelRefer能夠?qū)θ我饽繕?biāo)實(shí)現(xiàn)準(zhǔn)確語(yǔ)義理解以及時(shí)空物體區(qū)域理解。
