快科技9月7日消息,據報道,NVIDIA的RTX 5090和RTX PRO 6000顯卡最近被發現存在一個可複現的虛擬化重置漏洞,該漏洞會導致顯卡完全無響應,直到主機係統物理重啟才能恢複。
CloudRift是一家GPU雲服務提供商,他們在生產環境中多個配備Blackwell芯片的係統上遇到了這個問題後,詳細公布了問題的分析報告,並懸賞1000美元,公開征集能夠找到解決方案或根本原因的人。
根據CloudRift的日誌,這個漏洞發生在GPU通過KVM和VFIO傳遞給虛擬機後。在虛擬機關閉或GPU重新分配時,主機係統會發出一個PCIe功能級重置(FLR)。
但與正常情況不同的是,GPU並沒有恢複到良好狀態,而是停止響應,內核報告稱:"FLR後65535毫秒仍未就緒;放棄。"
此時,顯卡也變得無法被lspci讀取,lspci會拋出"未知頭部類型7f"的錯誤,CloudRift指出,唯一恢複正常操作的方法是對整個機器進行斷電重啟。
AI初創公司Tiny Corp也複現了CloudRift的發現,並直接提出了一個問題:"RTX 5090和RTX PRO 6000是否有硬件缺陷?国产AV蜜桃网站已經調查過,但找不到解決方案。"
社區的討論中,許多家庭用戶和其他RTX 5090的早期采用者也報告了類似的問題,一位用戶表示在關閉Windows虛擬機後,整個主機係統掛起,即使操作係統級別的重啟後,GPU也無法重新初始化。
用戶證實,切換PCIe ASPM或ACS設置並不能緩解故障,目前還沒有報告稱舊型號顯卡(如RTX 4090)存在類似問題,這表明該漏洞可能僅限於NVIDIA的Blackwell係列。