字節(jié)按下 AI Agent 加速鍵

極客公園 ? 5天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

DeepSeek-R1 的好文筆、GPT-4o 的吉卜力畫風(fēng)、OpenAI o3 的看圖推導(dǎo)地理位置……

這是過去兩個(gè)月里此起彼伏刷屏的現(xiàn)象級(jí) AI 產(chǎn)品，你能明顯看到：強(qiáng)化學(xué)習(xí)終于可以泛化了，多模態(tài)模型也越來越可用了。這也意味著，2025 年真的進(jìn)入了 Agent 應(yīng)用落地、加速落地的時(shí)間點(diǎn)。

此前爆火的 AI Agent——Manus 團(tuán)隊(duì)曾透漏，去年底 Claude 3.5 Sonnet 在長程規(guī)劃任務(wù)、逐步解決問題的能力上達(dá)到了做 Agent 所需要的程度，這是 Manus 誕生的前提。

現(xiàn)在，隨著深度思考模型和多模態(tài)模型能力的進(jìn)一步成熟，一定會(huì)有更多能處理復(fù)雜任務(wù)的 Agent。

基于這個(gè)判斷，4 月 17 日，字節(jié)跳動(dòng)旗下的云和 AI 服務(wù)平臺(tái)「火山引擎」面向企業(yè)市場發(fā)布了更強(qiáng)的模型——豆包 1.5?深度思考模型，這也是字節(jié)跳動(dòng)旗下 AI 應(yīng)用豆包 App 背后的推理模型首次亮相。一同推出的，還有豆包?文生圖模型 3.0、以及升級(jí)版的視覺理解模型。

對(duì)于這次發(fā)布的模型，火山引擎總裁譚待認(rèn)為，「深度思考模型是構(gòu)建 Agent 的基礎(chǔ)，模型要有能力做好思考、規(guī)劃和反思，并且一定要支持多模態(tài)，就像人類具備視覺和聽覺一樣，Agent 才能更好地處理復(fù)雜任務(wù)。」

而當(dāng) AI 進(jìn)化出端到端的自主決策和執(zhí)行能力，走向核心生產(chǎn)環(huán)節(jié)，火山引擎也準(zhǔn)備了讓 Agent 操作數(shù)字世界和物理世界的架構(gòu)和工具——OS Agent 解決方案及 AI 云原生推理套件，幫助企業(yè)更快、更省地構(gòu)建和部署 Agent 應(yīng)用。

在譚待看來，開發(fā) Agent 就像開發(fā)一個(gè)網(wǎng)站或 APP 一樣，僅有模型 API 無法完全解決問題，需要很多云上的 AI 云原生組件。過去，云原生有其核心定義，如容器、彈性等；現(xiàn)在，AI 云原生也會(huì)有類似的關(guān)鍵要素。通過在 AI 云原生方面的持續(xù)思考、探索與快速行動(dòng)——比如圍繞模型做各種中間件、評(píng)測、監(jiān)控、可觀察性、數(shù)據(jù)處理、安全保障以及相關(guān)組件如 Sandbox 等，火山引擎致力于成為 AI 時(shí)代基礎(chǔ)設(shè)施的最優(yōu)解。

01 豆包深度思考模型，像人一樣邊看邊想邊搜

年初 DeepSeek-R1 發(fā)布以來，不少 ToC 應(yīng)用都接入了 R1 推理模型，豆包 App 除外。3 月初在豆包 App 上線的「深度思考」模式，背后是字節(jié)跳動(dòng)自研的豆包深度思考模型。

現(xiàn)在，這一推理模型——豆包 1.5 · 深度思考模型正式發(fā)布，可以在火山方舟平臺(tái)體驗(yàn)和調(diào)用。

點(diǎn)擊聯(lián)網(wǎng)模式，豆包就可以像人類思考問題時(shí)一樣，想一想、搜一搜、再接著想……，最終以解決問題為目的。

這是在購物場景的一個(gè)例子，在給定預(yù)算、大小等限制條件后，讓豆包推薦一套合適的露營裝備。

在這個(gè)問題上，豆包首先拆解了注意事項(xiàng)，規(guī)劃了需要的信息，接著判斷出缺失的信息、并進(jìn)行聯(lián)網(wǎng)搜索。這里它搜索了 3 輪，先是搜索價(jià)格和性能，確保符合預(yù)算和需求；還考慮了兒童單獨(dú)的需求，最后考慮到天氣，搜索了相關(guān)的詳細(xì)評(píng)測。邊想邊搜，直到獲取了做決策所需的全部必要上下文，給出了推理答案。

除了邊搜邊想，豆包深度思考模型還具備視覺推理能力，像人一樣，不光能基于文字思考，也能基于看到的畫面來思考。

就拿點(diǎn)菜這個(gè)場景來說，五一黃金周馬上到了，出國旅游的朋友們不用拍照上傳給翻譯軟件翻譯菜單了，豆包深度思考模型可以直接根據(jù)圖片幫你點(diǎn)菜。

在下面這個(gè)例子中，豆包深度思考模型首先進(jìn)行了匯率換算來控制預(yù)算，接著考慮到了老人、孩子的喜好，同時(shí)仔細(xì)避開了他們過敏的菜肴，直接給出了菜單方案。

聯(lián)網(wǎng)、思考、推理、多模態(tài)，豆包 1.5?深度思考模型展現(xiàn)了綜合推理能力，能夠解決更加復(fù)雜的問題。

根據(jù)技術(shù)報(bào)告，豆包 1.5?深度思考模型在專業(yè)領(lǐng)域的推理任務(wù)中完成度較高，比如在數(shù)學(xué)推理 AIME 2024 測試得分追平 OpenAI o3-mini-high，編程競賽和科學(xué)推理測試成績也接近 o1。在創(chuàng)意寫作、人文知識(shí)問答等通用任務(wù)上，模型也展示出優(yōu)秀的泛化能力，能勝任更廣泛的使用場景。

豆包深度思考模型還具備低延遲的特性，其技術(shù)報(bào)告顯示，該模型采用了 MoE 架構(gòu)，總參數(shù)為 200B，激活參數(shù)僅 20B，以較小參數(shù)實(shí)現(xiàn)媲美頂尖模型的效果。基于高效算法和高性能推理系統(tǒng)，豆包模型 API 服務(wù)在保障高并發(fā)的同時(shí)，延遲低至 20 毫秒。

同時(shí)，它也有多模態(tài)能力，可以把深度思考模型用于各種各樣的場景，例如它可以看懂復(fù)雜的企業(yè)項(xiàng)目管理流程圖表，快速定位到關(guān)鍵信息，并以強(qiáng)大的指令遵循能力，嚴(yán)格按照流程圖，回答客戶的問題；分析航拍圖時(shí)，能結(jié)合地貌特征判斷區(qū)域開發(fā)可行性。

除了推理模型，這次豆包大模型家族還帶來了兩個(gè)模型的更新。在文生圖模型方面，豆包推出了最新的 3.0 升級(jí)版本，這個(gè)版本能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級(jí)的圖像生成效果，以及 2K 的高清圖片生成方式。

字節(jié)按下 AI Agent 加速鍵

新版模型不僅較好地解決了小字和長文本的生成難題，還改善了圖片排版。比如最左邊生成的「現(xiàn)形」和「豐收計(jì)劃」兩幅海報(bào)，細(xì)節(jié)生成比較精細(xì)，排版也比較自然，可以拿來即用。

另一個(gè)升級(jí)的是豆包 1.5 視覺理解模型。新版本有兩個(gè)關(guān)鍵更新，視覺定位更精準(zhǔn)，以及對(duì)視頻的理解更智能。

在視覺定位方面，豆包 1.5 視覺理解模型支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位，并支持定位計(jì)數(shù)，描述定位內(nèi)容，以及 3D 定位等。視覺定位能力的提升，可以讓模型進(jìn)一步擴(kuò)展應(yīng)用場景，例如線下門店的巡檢場景、GUI agent、機(jī)器人訓(xùn)練、自動(dòng)駕駛訓(xùn)練等。

在視頻理解能力上，該模型也有大幅提升，比如記憶能力、總結(jié)理解能力、速度感知能力、長視頻理解等。企業(yè)可以基于視頻理解打造更加有趣的商業(yè)化應(yīng)用，比如在家庭場景，我們可以基于視頻理解能力，加上向量搜索，對(duì)家中的監(jiān)控視頻進(jìn)行語義搜索。

比如下面這個(gè)例子中，養(yǎng)貓的人希望了解貓每天的活動(dòng)情況，現(xiàn)在直接搜索「今天小貓?jiān)诩叶几墒裁戳耍俊咕湍軌蚩焖俜祷卣Z義相關(guān)的視頻片段，供用戶查看。

借助帶視覺理解的推理模型和較大的推理能力儲(chǔ)備，以前很多做不了的事情現(xiàn)在都可以實(shí)現(xiàn)，可以解鎖更多的場景，比如有這樣功能的攝像頭一定會(huì)更受歡迎，AI 眼鏡、AI 玩具、智能攝像頭、門鎖等也會(huì)有新的發(fā)展空間。

02 云，進(jìn)入 Agentic AI 時(shí)代

這兩天，OpenAI 研究員姚順雨（Deep Research、Operator 核心作者）在「AI 的下半場」一文中指出，隨著強(qiáng)化學(xué)習(xí)終于找到了可以泛化的路徑，不只是在特定領(lǐng)域奏效，比如打敗人類棋手的 AlphaGo，而是可以做到在軟件工程、創(chuàng)意寫作、IMO 級(jí)別的數(shù)學(xué)、鼠標(biāo)和鍵盤操作等等各方面都做到接近人類競賽的水平。這種情況下，比拼榜單分?jǐn)?shù)、在更復(fù)雜的榜單上得更高的分?jǐn)?shù)會(huì)更容易，但這種評(píng)價(jià)方式已經(jīng)過時(shí)了。

現(xiàn)在比拼的是定義問題的能力。換句話說，AI 要在現(xiàn)實(shí)生活中解決什么問題？

2025 年，這個(gè)答案是生產(chǎn)力 Agent。當(dāng)前，AI 的應(yīng)用場景正在快速邁入 Agentic AI 時(shí)代，AI 逐漸能完成專業(yè)度較高、耗時(shí)較長的完整任務(wù)。在這種情況下，火山引擎也為企業(yè)「定義自己的通用 Agent」搭建了一系列基礎(chǔ)設(shè)施。

其中最重要的是模型，能夠自主規(guī)劃、反思、端到端地自主決策和執(zhí)行，走向核心生產(chǎn)環(huán)節(jié)。同時(shí)，也需要多模態(tài)推理能力，讓其在真實(shí)世界可以通過耳朵、嘴巴和眼睛來共同完成任務(wù)。

模型之外，Infra 技術(shù)棧也需要不斷進(jìn)化。就比如隨著 MoE 架構(gòu)顯示出更高效的優(yōu)勢，逐漸成為模型的主流架構(gòu)，隨之而來地，調(diào)度適配 MoE 模型需要更復(fù)雜、靈活的云計(jì)算架構(gòu)和工具。

現(xiàn)在在企業(yè)通用 Agent 的場景下，火山引擎推出了更好的架構(gòu)和工具——OS Agent 解決方案，支持大模型來操作數(shù)字和物理世界，比如由 Agent 操作瀏覽器，搜索商品頁，實(shí)現(xiàn) iPhone 比價(jià)的任務(wù)，甚至由 Agent 在遠(yuǎn)程計(jì)算機(jī)上用剪映進(jìn)行視頻編輯、配樂等等。

當(dāng)前，火山引擎 OS Agent 解決方案包含豆包 UI-TARS 模型，以及 veFaaS 函數(shù)服務(wù)、云服務(wù)器、云手機(jī)等產(chǎn)品，實(shí)現(xiàn)對(duì)代碼、瀏覽器、電腦、手機(jī)以及其他 Agent 的操作。其中，豆包 UI-TARS 模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起，突破傳統(tǒng)自動(dòng)化工具依賴預(yù)設(shè)規(guī)則的局限性，為 Agent 的智能交互提供了更接近人類操作的模型基礎(chǔ)。

在通用型 Agent 場景里，火山引擎通過這套 OS Agent 解決方案讓企業(yè)內(nèi)部、個(gè)人或特定領(lǐng)域，根據(jù)需要進(jìn)行 Agent 定義和探索。

在垂直類 Agent 上，火山引擎則會(huì)基于自身優(yōu)勢領(lǐng)域進(jìn)行探索，比如之前推出「智能編程助手 Trae」以及數(shù)據(jù)產(chǎn)品「Data Agent」，后者通過構(gòu)建數(shù)據(jù)飛輪，將數(shù)據(jù)處理能力發(fā)揮到極致。

另一方面，隨著 Agent 的滲透，也會(huì)帶來更大量的模型推理消耗。面對(duì)大規(guī)模推理需求，火山引擎專門打造了 AI 云原生 ServingKit 推理套件，讓模型部署更快、推理成本更低，GPU 消耗相比傳統(tǒng)方案降低 80%。

在譚待看來，為了滿足 AI 時(shí)代的需求，火山引擎會(huì)在三個(gè)方面持續(xù)發(fā)力：持續(xù)優(yōu)化模型，保持競爭力；不斷降低成本，包括費(fèi)用、延遲和提高吞吐率；讓產(chǎn)品更易于落地，比如像扣子、HiAgent 面向開發(fā)者的工具，還有云原生組件 OS Agent 等。保持產(chǎn)品和技術(shù)領(lǐng)先，市場份額也會(huì)領(lǐng)先。此前 IDC 發(fā)布的《中國公有云大模型服務(wù)市場格局分析，1Q25》顯示，火山引擎以 46.4% 的市場份額位居第一。

去年 12 月，豆包大模型的日均 tokens 調(diào)用量是 4 萬億。截至今年 3 月底，這個(gè)數(shù)字已經(jīng)超過了 12.7 萬億，相比豆包大模型剛發(fā)布時(shí)，在短短不到一年的時(shí)間里，實(shí)現(xiàn)了超過 106 倍的高速增長。未來，隨著深度思考模型、視覺推理的進(jìn)一步成熟和 AI 云基礎(chǔ)設(shè)施的優(yōu)化，Agent 還會(huì)帶動(dòng)更大的 tokens 調(diào)用量。

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

字節(jié)按下 AI Agent 加速鍵

01 豆包深度思考模型，像人一樣邊看邊想邊搜

02 云，進(jìn)入 Agentic AI 時(shí)代

隨意打賞