GPT-5爆改時尚圈,讓Excel原地複活!OpenAI黑客鬆大獎出爐
作者:lqs蕪湖 來源:德陽 瀏覽: 【大中小】 發布時間:2025-09-16評論數:
新智元報道
編輯:元宇 桃子
【新智元導讀】剛剛結束的OpenAI黑客鬆上,全球共有六支團隊衝進榜單。他們探索了GPT-5在營銷活動、時尚AI、電子表格、電腦代理、知識學習、智能電網等場景的應用極限。
OpenAI剛發布GPT-5,便在舊金山舉辦了GPT-5黑客馬拉鬆挑戰賽。
這場比賽選擇在周末,從8月9日上午10點開始,到8月9日下午5點結束。
OpenAI邀請了500多位黑客來到舊金山,挑戰GPT-5的極限,共有95支隊伍參賽,角逐5萬美元獎金。
值得一提的是,來自韓國的AI初創公司Gentoo的團隊勇奪大賽第一。
他們開發的係統,通過GPT-5讓商家「預演」營銷活動,不用真金白銀試錯,AI連退貨率都能算準。
除Gentoo外,還有五支團隊入圍黑客鬆決賽。
那麽,他們都用GPT-5做了啥?
AI讓電商人「躺賺」,不再踩坑
創業公司Gentoo將GPT-5用於營銷活動模擬,幫助電商平台上的商家把產品創意變成模擬實驗。
簡單來說,商家不用真正砸錢去做,隻通過模擬,就可以判斷哪些營銷活動會有效。
借助GPT-5 thinking,Gentoo可以為真實用戶創建真實的「數字分身」,幫助這些Shopify賣家預測他們的未來。
比如,「參與度分數」(engagement score)可以評估用戶行為:分數越高,越可能產生購買、撰寫評價行為,說明用戶會越「投入」。
Gentoo還用GPT-5,在Cursor的CLI和IDE裏,從零起步搭建了管理後台頁麵。
用戶隻要點擊「如何賣掉那些不是暢銷款的庫存」,GPT-5就會給出策略。
既然是仿真模擬,需要先設定一個「假設」。當選擇想要模擬的假設並點擊運行時,那些基於你的真實用戶構建的AI分身便會「投票」,判斷這個假設是否有效。
更妙的是,如果缺乏足夠的曆史數據來驗證某個假設,GPT-5會直接給出「unknown(無法確定)」的結論。
這有助於降低大模型幻覺,無疑是一個飛躍。
另外,Gentoo還做了一個很酷的功能,叫做「Vibe Operations」(氛圍運營/編排),它可以生成直接落地的行動方案。
選擇其中一個方案,並點擊「部署到商店」,它就會一鍵自動部署到你的Shopify商店。
這意味著GPT-5可以接管你店鋪的UI布局,比如一下生成「特價分類」專區、立刻突出展示「熱銷商品」模塊等。
Gentoo的主產品是AI對話導購,也支持輸入自定義提示詞。
在新提示詞注入後,會實際改變AI禮賓的對話風格與行為。
值得注意的是,這些AI分身都是基於真實用戶構建的,所以每個分身都有檔案信息,還會給出「為什麽支持/為什麽反對某個假設」的具體理由。
所有這些全由GPT-5驅動,用戶可以清晰看到某個營銷活動是否會在自己的店鋪裏奏效。
AI 穿搭「時裝秀」,承包3D分身造型
Fashion AI結合擴散模型與GPT-5,基於AI服裝推薦,為用戶的3D虛擬形象搭配造型。
在比賽現場,Fashion AI展示了過去24小時趕出來的一款「小遊戲」,現場觀眾可以在屏幕上選擇不同的角色。
在現場,用GPT-5生成了一大堆穿搭分類,然後再通過一個GPT-5做的轉盤隨機抽取一種風格。
現場抽到的是「混搭風」,並以此為虛擬形象Sarah搭配造型。
確定了著裝風格,智能體就會在GPT-5的驅動下去搜衣服、挑單品、做試穿。
整個操作過程,會實時在界麵右側的直播畫麵裏顯示出來,同步顯示它的決策過程。
找到衣服後,接下來是為Sarah確定最喜歡的搭配。
在左上角,是用搜索功能生成的「衣櫥」,背後是多個大語言模型協作完成的:它們會分析圖片,然後找出最符合搜索關鍵詞的結果。
確定搭配風格後,會有AI智能體給Sarah做試穿。
然後,由觀眾來決定選哪套。
選定衣服後,是風格化階段,在這個階段可以為Sarah加點造型。
這可以通過提示詞來實現,比如什麽顏色的帽子,什麽款式的手表等。
最後,是生成最終的造型結果,這是GPT-5給Sarah做的風格化效果。
這個係統是參賽團隊用24小時拚出來的,圖像生成全程用的是GPT-5,寫代碼是在Cursor編輯器裏配合GPT-5完成的,具體編碼GPT-5也幫了很多忙。
演示者表示,這個項目中,最難的是智能體框架的設計,要把所有模塊串起來。
比如評估的、找衣服的智能體等,找完衣服還要回頭問評估智能體:這個夠好嗎?符合主題嗎?怎麽改?
這個流程打通是最難的,而且圖像生成耗時很長,這要求團隊要盡量把用戶體驗做得流暢。
當然,如果沒有GPT-5,這個項目幾乎不可能完成。GPT-5的工具調用又快又準,讓整個體驗不卡頓,讓大家都覺得很好玩。
Excel「活了」,打工人狂喜
電子表格的後台智能體編排工具(Background Agent Orchestration for spreadsheets),這是一個麵向Excel的Codex,它可以並行運行多個後台任務,自動回答問題並更新電子表格模型。
現場展示的是一個簡單的財務模型,它會根據2025年損益表前7個月的數值,預測8月份的數值。
假如你是一名銷售負責人,現在是8月10日,發現自己可能達不到預期銷售目標,這時可以向電子表格提問,而它可以「看見」那些數據並把它拉進來,然後回答你的問題,或者執行更進階的操作。
這些都是後台Asian編排,類似Codex,国产AV蜜桃网站可以啟動任務、查看它們的當前進度,還能看到国产AV蜜桃网站其他的任務。
它的一大好處,是你不需要一直在電子表格裏工作。
如果有問題或者想做修改,你可以把這些任務在後台發起,它們會運行,然後再回來審閱結果。
比如,你可以發起幾個與損益表相關的問題。等這些任務發起之後,国产AV蜜桃网站可以看到智能體的思考過程,看它在幕後做了什麽步驟分解;国产AV蜜桃网站能看到它調用了哪些工具,這讓整個事情變得很簡單。
對国产AV蜜桃网站來說,GPT-5讓国产AV蜜桃网站能做一些過去必須用多個智能體、並且大量提示詞才能「把工具調對」的事情。
它讓模型和工具配合起來很容易,比如它可以和Sharepoint交互,直接和Excel表交互並進行修改。
它可以通過提示詞,來修改模型的假設。
比如通過提示詞,把模型更新為「用戶費用降低10%」的假設。它會通過差異視圖,來展示這個改動如何影響模型,国产AV蜜桃网站可以繼續提交並保存這些更改。
讓書籍和論文,秒變視頻
BeFreed是一家致力於讓知識變得有趣且簡單的公司。
它們在過去24小時內開發了一個知識可視化工具,把書籍與論文轉化為引人入勝的教育視頻。
你可以輸入任意文本,它會解析其中的複雜概念,並將其轉化為一個易於理解的解釋視頻。
他們利用GPT-5開發了一個指揮型智能體(Direct Agent)。
它會首先理解你輸入的概念,並設計出完整的故事板,規劃需要表達的內容。
同時,它會協調另外兩個專用智能體,它們各自擅長使用特定工具來生成不同部分的內容,並對生成結果進行評估,確保準確無誤。
也就是說,當你輸入一段內容後,係統會解析文本,生成故事板,然後兩個專用智能體分別生成所需的圖像和動畫,最後由指揮型智能體將所有內容整合、合成語音,並輸出成品視頻。
在用例1中,智能體用視頻為国产AV蜜桃网站解釋了什麽是「強化學習」,這適用於解釋行業術語的場景。
智能體用視頻解釋「強化學習」
在用例2中,智能體根據《人類簡史》中的一段文字,生成了解釋性視頻。這適用於沉浸式閱讀場景。
因為這個世界上存在很多看似複雜的概念,它們的難點不在內容本身,而在表達形式不當;同時,不少學習者更擅長通過視覺去理解知識,這正是BeFreed開發Knowledge Visualizer的初衷:讓更多人能更輕鬆地掌握知識。
GPT-5接管電腦,自主玩遊戲
GPT-5「電腦使用」智能體,可在遊戲與應用間自動化交互。
Serena Delarry,用GPT-5開發了一個「計算機使用模型」(computer use model)。
因為「計算機使用」涉及很多截圖和高強度的交互操作,所以Serena Delarry錄了一個簡單的演示視頻。
視頻裏他在玩GeoGuessr遊戲,模型會觀察地圖、點擊畫麵,試圖猜出国产AV蜜桃网站位於哪個地方。
接下來是另一個遊戲,畫麵裏有一隻浣熊在撿蔬菜。
這個模型的流程是:先截圖,然後借助GPT-5規劃下一步操作,使用鍵盤和鼠標來執行計劃,再不斷調整。
還有一個遊戲是經營檸檬水攤。它會理解屏幕內容,點擊操作,嚐試分析這個遊戲並一步步推進。
在屏幕底部顯示了一個提示詞(prompt),整場操作就是由它驅動的,模型會邊看邊學,自己決定下一步。
快進到最後,它在這個遊戲裏獲得了67%的顧客滿意度。
Serena Delarry在回答評委問題時提到,這個智能體支持接管電腦界麵。
比如從備忘錄應用中輸入一個提示詞,模型就開始點擊屏幕,嚐試理解遊戲內容。每隔幾秒鍾它會截一次圖,然後基於這些截圖來規劃接下來的操作路徑。
你可以看到它在分析規劃,並嚐試執行操作。
Serena Delarry表示,OpenAI曾經發布過一個計算機使用模型,但那個運行速度非常慢,效果也不太好。這次他開發的智能體,雖然還不算「非常優秀」,但至少已經「可用且順暢」。
為了測試模型的性能,Serena Delarry還會發布一個操作係統層麵的性能基準測試(OS-level benchmark)。
智能體「軍團」作戰,AI電網超決策
電力公司每天要服務數百萬用戶,管理數十億美元的資產,同時,還受到各種約束:監管政策、市場機製、電網的物理運行極限等。
這意味著電力公司每分鍾都要處理海量數據,並基於這些信息快速決策。
打開智能體式電網編排係統首頁,你會看到一個調度員的典型界麵:峰值負載、當前負載、電網壓力狀態、電網拓撲圖等,還有不同數據源的詳細信息。
同時你還可以看到哪些輸電線路正在高負載運行、麵臨風險。
係統後端有五個獨立智能體,每個都有自己的優化目標函數。同時還有一個主控智能體,負責綜合所有智能體的建議,做出最終決策。
為了模擬真實的電網,演示中選擇了加州某個區域的典型電網結構。係統中包含實際發電站、住宅區、商業負載中心,並且建模了各類故障場景——所以,這是一個實時、動態的電網仿真平台。
進入平台後可以開始模擬運行。過程中會考慮各種係統損耗,比如技術損耗、輸電/配電損耗等。
係統的核心是五個智能體,對應現實中電力公司內部的各類角色:
戰略規劃智能體:確保在任何時候供需平衡;
戰術調度智能體:以最低成本完成負載分配;
資產管理智能體:如處理樹木倒塌導致電纜故障等突發情況;
以及其他支持型智能體,它們之間密切協同,而非各自為政。
每個智能體都有自己的目標函數和可調用的工具,它們會提前模擬未來10到12個時間步,預測自己的行動對電網係統造成的影響。
由於目前尚未對模型進行深入微調(fine-tuning),所以目前智能體在一些關鍵指標上表現不太理想。
當前一個主要挑戰是:當国产AV蜜桃网站直接使用GPT-5作為智能體核心時,它在每一個時間步往往無法真正實現目標最優,而是傾向於采取「最安全」的保守路徑。
上圖展示了每個時間點各個智能體的行為:戰略規劃智能體可能會嚐試切換電容組(capacitor bank),戰術調度智能體則可能會激活電池儲能係統(BESS)進行放電。
演示者表示,針對上述問題的優化目標是,依次滿足多層次的目標函數,比如:保證電力供應的可靠性;控製成本、提高運行效率;保證係統持續在線運行。
參考資料:
http://threadreaderapp.com/user/AlexReibman
http://threadreaderapp.com/
http://threadreaderapp.com/user/AlexReibman
http://x.com/jihyuk_gentoo/status/1954791809382518972
- {loop type="catelog" row=10}{$vo.title}