欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

NVIDIA新模型DAM

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

4 月 24 日消息, 科技 媒體 marktechpost 昨日(4 月 23 日)發布博文,報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題, 最新推出了 Describe Anything 3B(DAM-3B)AI 模型

視覺-語言模型(VLMs)在生成整體圖像描述時表現出色,但對特定區域的細致描述往往力不從心,尤其在視頻中需考慮時間動態,挑戰更大。

英偉達推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標區域,生成精準且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態圖像和動態視頻,模型已在 Hugging Face 平臺公開。

獨特架構與高效設計

DAM-3B 的核心創新在于“焦點提示”和“局部視覺骨干網絡”。

NVIDIA新模型DAM

焦點提示技術融合了全圖信息與目標區域的高分辨率裁剪,確保細節不失真,同時保留整體背景。

局部視覺骨干網絡則通過嵌入圖像和掩碼輸入,運用門控交叉注意力機制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領域,通過逐幀編碼區域掩碼并整合時間信息,即便面對遮擋或運動也能生成準確描述。

數據與評估雙管齊下

為解決訓練數據匱乏問題,NVIDIA 開發了 DLC-SDP 半監督數據生成策略,利用分割數據集和未標注的網絡圖像,構建了包含 150 萬局部描述樣本的訓練語料庫。

NVIDIA新模型DAM

通過自訓練方法優化描述質量,確保輸出文本的高精準度,團隊同時推出 DLC-Bench 評估基準,以屬性級正確性而非僵硬的參考文本對比衡量描述質量。

NVIDIA新模型DAM

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準測試中領先,平均準確率達 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領域的技術空白,其上下文感知架構和高質量數據策略還為無障礙工具、機器人技術及視頻內容分析等領域開辟了新可能。

【來源: IT之家

本文被轉載1次

首發媒體 砍柴網 | 轉發媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 黄片a级毛片| 99精品视频免费观看 | 亚洲 中文 欧美 日韩 在线人 | 久久免费毛片 | 天天干天天做天天操 | 一级片aaaaaa | 久久久久久免费精品视频 | 精品综合久久久久久88小说 | 综合久久久久久中文字幕 | 国产精品6| 日本乱中文字幕系列在线观看 | 护士日本xxxxx丰满hd4k | 337p欧美超大胆日本人术艺术 | 777午夜精品被窝影院 | 欧美色视频超清在线观看 | 加勒比黑人在线 | 色婷婷在线观看视频 | 国产精品国产欧美综合一区 | 成人国产三级在线播放 | 国产91精品系列在线观看 | 国产成人在线看 | 国产精品综合久成人 | 欧美激情在线免费观看 | 免费一级毛片在播放视频 | 日韩欧美日本 | 亚洲自拍第二页 | 久久网在线 | 国产精品久久自在自线观看 | 成人欧美日韩高清不卡 | 日本最新免费二区三区 | 国产精品免费看久久久香蕉 | 91社区在线观看精品 | 中文字幕视频二区 | 亚洲欧美色综合一区二区在线 | 国语偷拍视频在线观看 | 在线国产欧美 | 亚洲va国产日韩欧美精品色婷婷 | 韩国xxxx色视频在线观看 | 亚洲成在人线影视天堂网 | 精品一区二区三区免费爱 | 精品无码久久久久国产 |