
過去,CVPR 關心的是機器如何看見世界,而到了 Agent 時代,問題已經變得復雜:AI? 看見之后固原櫥柜臺面膠,能不能理解世界、生成世界,并把這些能力接入真實業(yè)務?
這也讓批來自真實業(yè)務的新問題進入研究視野。
個在真實場景里工作的 Agent,面對的世界不會只是行簡單的 prompt。它可能看到份圖文混排的同、張被反復修改過的設計稿,或者組互相矛盾的外部資料。Agent 不只要讀懂,還要判斷、檢索、生成、修改,后把結果交出去。
這也是為什么,過去年行業(yè)對 Agent 的討論,越來越集中在系統(tǒng)能不能閉環(huán)上。會回答問題只是起點,真正決定 Agent 能否進入業(yè)務流程的,是它能不能處理復雜輸入、控制運行成本,并產出可交付的結果。
在國內科技公司中,阿里云是 Agent 實踐中經驗豐富的廠商之,他們提出的全棧支持 Agent,不是單個模型,而是套從力、模型、理、工具、平臺到應用開發(fā)的能力棧。今年阿里入選 CVPR 的批論文,則進步展示了在 AI 前沿域阿里云的新探索。
把這批論文放在起,可以看到條清晰的研究脈絡:從 Agent 落地中涌現(xiàn)出的真實需求出發(fā),通過新的數據、結構和訓練法,探索多模態(tài) Agent 能力的下步。
這些探索集中指向 Agent 落地要過的三道門檻:看得懂、跑得起、能交付。
看得懂:Agent 如何理解復雜文檔
很多 Agent Demo 看起來十分順滑,是因為輸入已經被人為整理過。但真實業(yè)務不是這樣。同里同時有表格、條款和批注,財報里混著文字、圖表和腳注,技術文檔中包含公式、截圖與代碼。麻煩的是,這些材料彼此之間甚至還可能存在相互沖突。
因此,Agent 的"看得懂",遠不只是識別圖片中有什么。
CodePercept ( Code-Grounded Visual STEM Perception for MLLM ) ?處理的是個被長期低估的瓶頸: STEM 圖像理解。過去,多模態(tài)模型在理工科學類任務中頻繁出錯,常常被歸因于理能力不足。但 CodePercept 指出,瓶頸可能早就出現(xiàn)在視覺感知階段:模型連圖像的結構都沒有準確讀出來,后續(xù)理自然從談起。
找到瓶頸之后固原櫥柜臺面膠,CodePercept 提出了個學術界此前很少嘗試的思路:用可執(zhí)行代碼作為視覺理解的"驗證標準",讓模型通過生成代碼來圖像結構。這樣來,模型不再只是根據視覺表面作出判斷,而是能夠沿著圖像背后的生成邏輯理解復雜內容。
看懂單張圖像的結構之后,Agent 還要能從大量文檔中"找對信息"。
Evo-Retriever ( LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval ) ?做的正是找信息檢索。它面向復雜視覺文檔檢索,處理的是圖文混排、版式多變、信息分散的文檔環(huán)境。過去文檔檢索模型的訓練策略通常是固定的,但模型在不同訓練階段遇到的問題并不相同。Evo-Retriever 引入 LLM 作為元控制器,根據模型當前狀態(tài)動態(tài)調整訓練內容,同時通過多視角圖像對齊和雙向對比學習處理視覺與文本之間的混淆。
在阿斯利康多模態(tài)知識庫問答測評中,Evo-Retriever 相比純文本基線,檢索準確率提升了 14.1。相關技術也正在落地阿里云 OpenTrek 站式智能體工廠,讓 Agent 在面對企業(yè)知識庫、技術文檔和圖表密集型材料時,能夠真正準確利用文檔中的視覺信息。
但找到材料還不是終點。真實業(yè)務中,不同來源之間甚至可能互相矛盾。
CC-VQA ( Conflict-and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering ) ?關注的就是知識型視覺問答中的沖突。它做了兩個過去少有人做的嘗試:是把視覺信息重新放回知識沖突判斷的中心,讓模型圍繞視覺信息去判斷外部上下文和內部參數知識之間的沖突;二是在不重新訓練模型的情況下,通過壓縮低相關上下文的位置編碼,并在解碼階段根據沖突程度動態(tài)調整輸出。
落到產品里,客服 Agent、數據分析 Agent、辦公 Agent,都會遇到同個問題:外部材料很多,但不是每條都該信。真正可用的 Agent,需要知道哪些信息和當前業(yè)務問題真正相關。
綜來看,這三篇論文通過新的解決思路,回應了 Agent "看得懂"的三個層次:讀懂結構、找準依據、在矛盾信息中作出可靠判斷。
跑得起:理解生成如何進入生產環(huán)境
Agent 的另道硬門檻,是成本。
很多 Agent 的多模態(tài)能力在 Demo 里已經可以實現(xiàn)固原櫥柜臺面膠,但進入真實業(yè)務后卻未可持續(xù)。次任務跑通并不難,難的是把同種能力放進每天成千上萬次調用的業(yè)務系統(tǒng)里,同時控制延遲、吞吐、顯存和單位調用成本。
尤其如此。理解需要處理大量幀和視覺 token,生成則要在多個擴散步驟中反復計。當 Agent 需要反復調用模型、不斷檢查和修正結果時,這些開銷會在整條任務鏈路中被成倍放大。
阿里云這批 ?CVPR? 論文中,RAPID 和 EarlyTom 分別從生成和理解兩端優(yōu)化這個問題。
RAPID ( Reusing Attention Sparsity with Inter-step Adaptation ) ?從注意力機制入手,抓住了個規(guī)律:擴散模型要走很多步才能生成結果,而相鄰兩步之間的計其實度相似,沒要每步都從頭。RAPID 的新意在于自適應:它根據每步的實際注意力稀疏程度動態(tài)決定復用策略,在生成質量基本不受影響的前提下,大幅降低擴散理的計量。
在 Wan2.1-14B 和 HunyuanVideo 上,RAPID 的保真模式在相同計預下過已有基線,Turbo 模式則分別實現(xiàn) 1.79 倍和 2.01 倍加速,同時維持較強的視覺質量。
EarlyTom ( Early Token Compression Completes Fast Video Understanding ) ?針對的是理解的速度。它在早期就對 token 做壓縮,讓模型還沒看完所有幀時就能開始有理??吹蒙?,也能給出準確判斷,對實時要求的場景尤其有用。
在單張 NVIDIA A100 上運行 LLaVA-OneVision-7B 時,PVC管道管件粘結膠EarlyTom 多將 Token 延遲 2.65 倍,F(xiàn)LOPs 減少 61,并保持與完整 Token 基線接近的準確率。
篇減少生成中的重復計,篇壓縮理解中的冗余信息,兩篇論文處理的環(huán)節(jié)不同,但指向同個目標:讓多模態(tài)能力在 Agent 的任務鏈路中真正跑得起。
生產環(huán)境中的模型能力,從來不只是個準確率數字。延遲、吞吐、顯存、單位調用成本,都是產品能力的部分。"跑得起"不是單純把模型做小或把速度做快,而是用新的法減少被忽視的計冗余,讓次調用足夠快、足夠便宜,連續(xù)調用也不會拖垮系統(tǒng)。
能交付:生成結果如何變成可用產出
很多生成式 AI 產品到今天仍然卡在后步:它能生成個結果,但用戶很難把它改到可用。
Qwen-Image-Layered ? ( Towards Inherent Editability via Layer Decomposition ) ?研究的正是圖像的可編輯。它把單張 RGB 圖像拆成多個語義上相互立的 RGBA 圖層,讓人物、背景、文字、裝飾元素等可以被分別操作。
Qwen-Image-Layered 團隊:現(xiàn)在很多圖像編輯法,本質上是重新生成遍,或者只在局部區(qū)域做 inpainting,所以很容易"牽發(fā)而動全身"。比如用戶只是想把人物往右移動,背景里的海浪卻也被改掉了。我們想做的是像 Photoshop 樣,把圖像拆成多個圖層,人物、背景、文字、裝飾元素都能單編輯。
傳統(tǒng)法通常是先分割,再補全,流程比較割裂。圖片分割可能不干凈準確,補背景又會引入新的瑕疵。我們的案是 end-to-end 的,在個 diffusion 過程中直接完成圖層分解,不需要把分割、補全、編輯拆成多個步驟。
生成只是開始,只有當結果能被用戶、設計師、運營或下游工具繼續(xù)使用,才真正進入工作流。這也是為什么"可編輯"比"生成得好看"接近產業(yè)需求。
Wan-Weaver ( Interleaved Multi-modal Generation via Decoupled Training ) ?解決的是另種交付問題:圖文交錯生成。圖文交錯生成通常面臨個矛盾:把圖文能力聯(lián)訓練,容易互相干擾;拆開,又難以保持內容連貫。Wan-Weaver 嘗試將文本規(guī)劃和視覺致建模解耦,讓模型先確定敘事與結構,再生成與上下文致的視覺內容。它被選為CVPR? Oral,也說明這類"完整多模態(tài)內容單元"的生成正在成為值得關注的研究向。
Wan-Weaver 圖文交錯生成已經在萬相 2.6 (Wan 2.6) 版本中上線。到后續(xù) 2.7 版本,產品形態(tài)則進步聚焦組圖生成能力。未來的內容型 Agent 交付的,除了素材,還可以是個有結構、有敘事、有視覺連續(xù)的內容單元。
數字人相關論文,則展示了另條具產業(yè)落地感的交付鏈路。
OMG-Avatar ( One-shot Multi-LOD Gaussian Head Avatar ) 和 MeshLAM ( Feed-Forward One-Shot Animatable Textured Mesh Avatar Reconstruction ) ?解決的是建模門檻:只用張圖,就能重建出可驅動的 3D 頭像。前者通過多精度層適配不同力和渲染需求,后者選擇 mesh + texture 路線,強調快進入現(xiàn)有動畫、游戲和數字人制作流程。
AnyID ( Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References ) ?解決的是身份致:當模型用多張照片或作為參考,生成同個人在不同場景、動作、表情下的時,如何保證這個人始終像本人。
AnyID 團隊:過去很多法只用單張圖片作為人物參考,但用張 2D 靜態(tài)圖去斷個人的 3D 動態(tài)結構,本身就是信息不足的。單張圖看不到另側臉,也不知道這個人在不同表情、動作下的肌肉和骨骼運動。所以生成結果可能"乍看像",但熟悉這個人的人會覺得怪。我們的思路是引入同個人的多個參考,照片或都行,指定張主參考做錨點,只用 differential prompt 說明要改什么,其余自動和主參考致。
與傳統(tǒng)依賴三維渲染、材質和骨骼綁定的數字人流程相比,這種式門檻低,用戶用 text prompt 就能控制背景、動作和衣著發(fā)型。當然,它目前還不能替代精度、強穩(wěn)定的傳統(tǒng) 3D 流程,但已經展示了靈活的內容生產路徑。
PortraitDirector ( A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment ) ?則處理實時驅動和精細控制,把頭姿、嘴型、眼、表情和情緒拆開,再重新組成自然的輸出。
這幾篇論文放在起看,數字人能力正在從單點生成,走向條完整內容生產鏈:建模、驅動、保持身份致、實時表達。
這正是"能交付"的含義:Agent 不只完成次生成,而是把結果做成可編輯的文件、可直接消費的內容,或能夠繼續(xù)流轉的生產資產。
尾聲
CVPR 上的這批論文,是組仍在進的關于 Agent 落地的前沿探索。它們研究的問題都來自真實場景:看得懂,Agent 才能從復雜圖像、文檔和外部知識中獲得可靠信息。跑得起,這些能力才有可能被頻、持續(xù)地調用。后能交付,模型輸出才不會停留在 Demo,而會成為真正進入工作流的結果。
很多 Agent 終不是敗在不會調用工具,而是敗在讀錯材料、成本失控,或者只交出個不能繼續(xù)使用的半成品。而論文里這些法則提供了批新的判斷、新的法和經過實驗驗證的新路徑。
所以,"全棧支持 Agent "不僅只是底層力、云平臺和理服務,模型側同樣需要補齊理解、率與交付三種能力。阿里云這批 ?CVPR? 論文所展示的,正是這三塊拼圖:看得懂、跑得起、能交付。
當這三件事同時成立,Agent 才真正具備進入真實業(yè)務的條件。相關詞條:管道保溫施工 塑料擠出設備 預應力鋼絞線 玻璃棉廠家 保溫護角專用膠
奧力斯 萬能膠生產廠家 聯(lián)系人:王經理 手機:13903175735(微信同號) 地址:河北省任丘市北辛莊鄉(xiāng)南代河工業(yè)區(qū)
1.本網站以及本平臺支持關于《新廣告法》實施的“極限詞“用語屬“違詞”的規(guī)定固原櫥柜臺面膠,并在網站的各個欄目、產品主圖、詳情頁等描述中規(guī)避“違禁詞”。
2.本店歡迎所有用戶指出有“違禁詞”“廣告法”出現(xiàn)的地方,并積極配合修改。
3.凡用戶訪問本網頁,均表示默認詳情頁的描述,不支持任何以極限化“違禁詞”“廣告法”為借口理由投訴違反《新廣告法》,以此來變相勒索商家索要賠償的違法惡意行為。
