10月20日消息,百度10月16日開源的多語言文檔解析模型PaddleOCR-VL,連續三天霸榜Hugging Face趨勢榜第一。

PaddleOCR-VL能識別109種語言的文本、表格、公式和圖表等復雜元素,包括全球主要語言以及俄語、阿拉伯語和印地語等多種語言。在最新的用于評估現實場景中多樣化文檔解析性能的基準測試工具OmniDocBench榜單中,PaddleOCR-VL以92.6綜合得分拿下全球第一,并且在OmniDocBench v1.5、OmniDocBench v1.0均是第一。
PaddleOCR-VL在OmniDocBench v1.5上實現了整體、文本、公式、表格和閱讀順序的SOTA性能,在所有關鍵指標上均超越現有流水線工具、通用VLM和其他專用文檔解析模型。

論文中提到,PaddleOCR-VL在文檔解析任務中實現了最佳性能,其擅長識別復雜的文檔元素,例如文本、表格、公式和圖表,適用于手寫文本和歷史文檔等各種具有挑戰性的內容類型。
百度給出的官方手寫文本示例中,圖片中文字寫作相對規范,有較少不清晰文字,模型識別結果中錯誤較少。

▲手寫文本(左)、識別結果(右)
隨后智東西上傳了一張蘇軾手札,相對上面的圖片僅憑肉眼很難辨認清楚且有較多繁體字,模型的識別結果中錯誤較多。

▲手寫文本(上)、識別結果(左下)、古詩文網原文(右下)
該方案的核心組件PaddleOCR-VL 0.9B基于NaViT風格的視覺編碼器和ERNIE-4.5-0.3B語言模型構建,具有快速推理和低資源消耗的特點,適合實際部署。
在訓練數據方面,研究人員采用了開源數據集、合成數據集、網絡可訪問數據集和內部數據集。同時,其開發了高質量訓練數據構建流程,通過公共數據采集和數據合成收集了超過3000萬個訓練樣本,以基于專家模型的識別結果指導通用大型模型進行自動標注。