AI邊刷視頻邊思考!快手最新多模態大模型開源,80億參數,實測推理超快

智東西作者 李水青編輯 心緣
智東西9月4日報道,9月3日,快手開源最新多模態大模型Keye-VL-1.5。該模型擁有80億個參數,支持128ktokens擴展上下文,在視頻理解、圖像理解和推理方麵能力出色。
▲Keye-VL-1.5開源地址截圖
在Video-MME、Video-MMMU、TempCompass等一係列權威的公共視頻基準測試中,Keye-VL-1.5在同等規模模型中取得了SOTA(最佳表現),趕超阿裏Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等規模優秀模型;在WeMath、MathVerse等需要複雜邏輯推理和數學問題解決的評估集上,Keye-VL-1.5-8B也展現出較強性能。
▲Keye-VL-1.5測評情況一覽
據悉,相比於隻會識別標簽和片段的傳統模型,Keye-VL-1.5能捕捉視頻中的細節與時間邏輯,實現對長視頻與複雜語義的深度理解。這一模型可用於視頻推薦、創作、互動以及內容審核和商業化全鏈條。
這意味著,從自動生成吸睛標題,到智能剪輯精彩片段,再到實時互動解說,Keye-VL-1.5或許能為短視頻生態注入了前所未有的可能性。
智東西對這一模型進行一手體驗後發現,Keye-VL-1.5在圖像理解和邏輯推理上效果較好,且速度較快,10秒左右可完成針對數分鍾視頻內容的處理。值得一提的是,在近日廣受關注的AI生成內容的識別上,Keye-VL-1.5表現出了較高的準確率。
同時,在體驗中,Keye-VL-1.5暫時無法完成音頻理解、圖像/視頻創作等任務,且在數學及推理、語言生成的精妙性方麵仍有進步空間。
▲Keye-VL-1.5技術報告截圖
技術報告地址:http://arxiv.org/pdf/2509.01563Hugging Face地址:http://huggingface.co/Kwai-Keye/Keye-VL-1_5-8B體驗地址:http://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
一、能看懂視頻,懂邏輯推理,勝任AI生成內容識別
首先,智東西用近日廣受關注的AI生成內容識別任務來測試Keye-VL-1.5。隨著《人工智能生成合成內容標識辦法》,AI生成合成內容的審核管理工作量隨之變大。
當智東西上傳了一個實拍的熊貓視頻,輸入提示詞:“這個視頻是AI生成的嗎?”。如下圖所示,Keye-VL-1.5采用非思考模型,在幾秒見即給出“不是”的正確答案。
国产AV蜜桃网站增加難度,上傳一個男士拿著貓罐頭的視頻,輸入提示詞:“這個視頻是AI生成的嗎?有沒有廣告推銷?”如下圖所示,這次Keye-VL-1.5自己選擇了深度思考模式,經過近10秒鍾的思考後,輸出了正確答案:“是,該視頻可能是AI生成的,並且有廣告推銷(貓糧)。”
接下來,国产AV蜜桃网站上傳了一個荷花池的風景視頻,要求Keye-VL-1.5“根據視頻創作一首七言絕句”,如下圖所示,這對Keye-VL-1.5幾乎沒有難度,生成詩句:“夏日池塘荷葉綠,粉苞初放映晴天。蜻蜓點水驚飛蝶,清香浮動入詩篇。”詩句全麵覆蓋了視頻中的景物,並且創作了了“蜻蜓點水驚飛蝶”全新意象,還聯想到了“清香浮動”嗅覺感受,可見其兼具圖像理解和邏輯推理能力,但在語言生成的精妙性方麵仍有進步空間。
国产AV蜜桃网站上傳了關於兩隻貓相處的視頻,要求Keye-VL-1.5“對這個視頻進行剪輯,剪去兩隻貓停頓部分,保留動態部分,7秒左右”。但Keye-VL-1.5目前無法執行視頻剪輯和生成的動作,而是給出了應該刪去和保留哪些視頻幀。
當国产AV蜜桃网站上傳了一個男孩和女孩走在校園跑道上的照片,輸入提示詞:“視頻中出現了幾個人?他們可能多大歲數,是什麽關係?”,Keye-VL-1.5很快給出準確答案:“2個人,年齡約16-22歲,可能是情侶、好友或同學關係。”可見Keye-VL-1.5在邏輯推理上有一定的能力。
国产AV蜜桃网站上傳了一個關於女性宣言合集視頻,問Keye-VL-1.5:“視頻中出現了幾個女孩?她們在談論什麽話題,有什麽意義?”這次Keye-VL-1.5誤把前兩個黑色頭發女孩識別為了同一個,且沒有識別出音頻,所以無法總結出話題主題。從思考過程可知,Keye-VL-1.5差一點成功確認視頻中出現了三個女孩,但最終卻因誤以為第一、二個女孩為同一人,而沒有得到正確答案。
根據Keye-VL-1.5自己的官方回複:“目前,我作為基於文本的AI模型,無法直接處理視頻中的聲音內容。我的能力主要集中在文本分析、圖像描述和邏輯推理上。”
二、拿下同規模通用視覺-語言測試SOTA,能理解視頻、看懂邏輯
看完實測,再來看看Keye-VL-1.5的基準測試情況。通過在公開基準上的評估和內部人工評估,Keye-VL-1.5相較於現有模型表現出顯著的改進,尤其在視頻理解任務中表現出色,同時在通用視覺-語言任務上也保持了較好性能。
在通用視覺-語言任務上,Keye-VL-1.5在大多數基準測試中展現出具有競爭力的性能,常常取得最先進(SOTA)或接近最先進的結果,總體上優於其他模型。
在大規模通用基準測試OpenCompass、MMMU-val、AI2D等測試中,Keye-VL-1.5分別獲得79.5%、71.4%和86.7%的分數,超過了所有其他模型。
在MMBench和MMStar上,Keye-VL-1.5也取得了最佳性能。在數學推理任務中,Keye-VL-1.5顯著優於Qwen2.5-VL 8B和InternVL3-8B,其結果與小米的MiMo-VL 7B-RL相當。
在以視頻為中心的場景中,對視頻內容的準確理解是Keye-VL-1.5的核心優勢。在公開的視頻基準測試中,Keye-VL-1.5顯著優於其他模型,尤其是在Video-MMMU上,絕對提升了6.5%。
▲Keye-VL-1.5(思考模式)與Keye-VL-Preview及其他模型在多視覺-語言基準測試中的比較
由於公開基準任務覆蓋有限、存在過於簡單的問題形式、潛在數據汙染風險等問題,快手還對Keye-VL-1.5進行了內部基準測試。
如下表所示,Keye-VL-1.5-8B以3.53的整體綜合得分大幅領先,較Keye-VL-Preview顯著提升了0.51。該模型在提供準確且全麵的響應方麵能力的增強,且響應與用戶查詢的匹配度有所改善。與MiMoVL-7B-RL-2508對比,Keye-VL-1.5-8B在綜合性能上確立了0.13的優勢,且在準確性方麵表現尤為突出(+0.19)。雖然快手的模型在事實準確性上更勝一籌,但在語言生成的精妙性方麵仍麵臨挑戰。
▲Keye-VL-1.5-8B以3.53的整體綜合得分大幅領先
詳細的能力分析揭示了特定領域的優勢和優化重點:下表中的細粒度評估顯示,Keye-VL-1.5-8B在推理能力(3.81)、時間信息理解(3.36)和穩健性(4.29)方麵具有顯著優勢;在視覺元素識別(3.49)和創造能力(3.66)上與MiMoVL-7B-RL-2508相當。
▲Keye-VL-1.5-8B詳細的能力分析
三、三項關鍵創新,破解視頻理解挑戰
近年來,多模態大語言模型加速發展,然而由於視頻具有動態性和信息密集性的特點,視頻理解仍然是一個具有挑戰性的領域。
現有模型在處理視頻內容時,難以在空間分辨率和時間覆蓋範圍之間取得平衡。現有方法通常在固定分辨率約束下采用均勻幀采樣,這在內容理解需要細粒度視覺細節和時間一致性時,會導致性能欠佳。
為了解決這些局限性,快手推出了擁有80億參數的多模態基礎模型Keye-VL-1.5,它通過三項關鍵創新解決了視頻理解中的基本挑戰:
1、高效多模態處理的架構創新:慢-快視頻編碼策略,解決時空權衡問題
首先,快手引入了一種新穎的慢-快視頻編碼策略,該策略基於幀間相似度動態分配計算資源,對具有顯著視覺變化的關鍵幀采用更高分辨率處理(慢速路徑),而對相對靜態的幀則以更低分辨率增加時間覆蓋範圍(快速路徑)。
這種由基於補丁的相似度函數引導的自適應方法,有效地解決了空間細節和時間廣度之間的權衡問題。
▲Keye-VL-1.5的慢-快視頻編碼策略演示
2、漸進式預訓練策略:四個精心設計階段,確保訓練穩定性
其次,快手實施了一種漸進式的四階段預訓練方法,逐步構建多模態能力。
從跨模態對齊和多任務學習開始,在退火階段,国产AV蜜桃网站係統地將模型的上下文長度從8K擴展到128K tokens,使其能夠處理更長的視頻和更複雜的視覺內容。
這種漸進式方法確保了訓練的穩定性,同時最大限度地利用擴展的上下文窗口來增強視頻理解能力。最後的模型融合階段將使用不同數據混合訓練的模型結合起來,以提高穩健性並減少偏差。
▲Keye-VL-1.5的四層漸進式預訓練流程
3、全麵的訓練後方法:三個組件,推理增強和人類偏好對齊
第三,他們開發了一個全麵的訓練後pipeline,專注於推理增強和人類偏好對齊。他們開發了一個包含三個關鍵組件的綜合流程。
首先,他們設計了一個五步思維鏈推理數據構建流程,以生成高質量的冷啟動數據;其次,采用GSPO算法進行可驗證的基於獎勵的強化學習訓練。這包括漸進式提示采樣,以處理困難樣本;最後,進行對齊強化學習訓練,以增強指令遵循、響應格式和偏好對齊能力。
這種係統化方法確保Keye-VL-1.5在基準測試中取得優異性能,同時提供符合人類期望和偏好的響應。
四、基於穀歌、阿裏開源模型訓練,克服基礎設施三大挑戰
快手Keye-VL-1.5模型架構基於Qwen3-8B語言模型,遵循經典的多模態大語言模型架構,包含三個關鍵組件:視覺Transformer(ViT)、多層感知機(MLP)投影器和語言解碼器。
▲Keye-VL-1.5的模型架構
在ViT組件方麵,快手采用穀歌開源的SigLIP-400M-384-14作為視覺編碼器來提取視覺信息。在大語言模型(LLM)組件方麵,他們使用阿裏的Qwen3-8B作為語言解碼器,以提供通用的世界語義知識理解能力。對於投影器,他們隨機初始化其參數,並在第一階段對其進行充分的預訓練。
在模型預訓練階段,快手團隊在數據構建流程中,組建了一個多樣化、高質量的語料庫,包含超過1萬億個標記,用於支持模型訓練,其來源既有公共數據集,也有內部專有數據。
訓練數據涵蓋六大主要類別:圖像描述、光學字符識別與視覺問答、目標定位與計數、交錯數據、視頻理解以及純文本數據。團隊針對每個數據類別的特點設計了定製化的過濾機製,以確保整體數據質量。
為了高效訓練多模態大語言模型,快手團隊進行了深入的基礎設施優化,以解決三大主要挑戰:架構異構性、負載不均衡和輸入/輸出瓶頸。
1、異構混合並行策略:對於計算模式相對固定的ViT組件,僅采用數據並行(DP)以最大化吞吐量;而對於參數和內存消耗極大的LLM,則采用結合流水線並行(PP)、張量並行(TP)和數據並行(DP)的混合並行策略。這種精細化策略是實現Keye-VL-1.5的128K超長序列訓練的關鍵技術前提。
2、動態負載均衡機製:預先估計每個樣本的時間複雜度,然後使用貪心算法在不同GPU之間分配樣本,從而平衡所有GPU的總步驟時長,提高整體硬件利用率。
3、靈活且可擴展的數據加載器:設計了一種靈活且可擴展的數據加載器,它能深度感知並行訓練的拓撲結構;實施了一種I/O服務器架構,將視頻解碼等CPU密集型任務從訓練節點卸載出去,有效解決了複雜媒體處理帶來的CPU瓶頸問題;實現了實例級的完美恢複機製,確保任務在中斷後能夠從最後一個成功處理的樣本無縫恢複,顯著提高了大規模訓練的穩定性和效率。
結語:AI加速讀懂視頻,或重塑視頻行業交互與商業化
在本研究中,快手提出的Keye-VL-1.5顯著提升了視頻理解和視覺-語言任務的性能。該模型高效地平衡了時間覆蓋範圍和空間分辨率,且能夠處理更長的視頻和複雜的視覺內容,且提升了指令遵循能力和推理能力。
當AI能夠真正理解視頻的細節與語義,視頻行業的推薦、創作、互動和商業化都將被重塑。Keye-VL-1.5仍處於初步階段,在音頻理解、多模態內容生成、邏輯推理等方麵仍存在一些不足。但基於短視頻平台的海量數據儲備,該模型有望在之後快速迭代。