

Meta 再度在開源 AI 領域投下震撼彈,正式推出 Segment Anything Model 3(SAM 3) 與 SAM 3D。
兩者結合後,AI 不只「看得見」,更開始能「聽得懂」、「想得通」,甚至「重建」真實世界。
從第一代的 去背神器(SAM 1),到能處理動態影像(SAM 2),再到如今能理解語意、生成 3D 模型的 SAM 3 + SAM 3D,這場升級已不只是版本提升,而是視覺 AI 的 質變時刻。
視覺 AI 從辨識物體到理解世界
過去的視覺 AI 依賴固定的標籤庫,例如「貓」、「車」、「杯子」。
而 SAM 3 帶來的關鍵革命,是能理解 開放式語彙(Open Vocabulary)——即使沒有在標籤庫裡,它也能理解語句中的語意並找出對應物件。
例如:
- 「紅白條紋的那把傘」
- 「坐著但手中沒有禮物的人」
- 「前景中最小的咖啡杯」
SAM 3 已從過去的「像什麼」辨識,進化到「你說的是哪一個」的語意理解層級。

SAM 3:語意驅動的影像與影片分割基礎模型
🔍 文本 + 視覺的深度融合
SAM 3 能直接接受自然語言描述並進行影像分割,具備:
- 語意理解(不是固定標籤)
- 多物件分割能力
- 跨影格一致的語意追蹤
- 能理解複雜描述與場景
⭐ 性能提升 2 倍
在官方測試中,SAM 3 在開放式語彙分割表現上,比包括 Google Gemini 2.5 Pro 在內的現有系統 高出整整 2 倍。
這使得 SAM 3 不再只是影像模型,而是具備「基礎語意能力」的視覺模型。

影片處理:接近即時的多目標追蹤能力
SAM 3 在影片處理上達到「接近即時」:
- 30 毫秒處理超過 100 個目標
- 長時間連續追蹤
- 自動辨識特定人物
- 支援語意追蹤(例如:「穿紅外套、在畫面左側的人」)
實際應用:Instagram Edits
Meta 即將把 SAM 3 放入 Instagram 的影片創作工具:
- 特定人物自動去背
- 一鍵動態特效
- 人物追蹤免逐格調整
- 創作者的時間成本大幅下降
SAM 3D:從單張影像重建 3D 世界的重大突破
SAM 3D 是本次最重要的技術之一,由兩大模型組成:
- SAM 3D Objects:物件與場景重建
- SAM 3D Body:人體姿態與形體重建
這兩個模型讓 AI 能真正理解影像中的空間與結構,而不是平面的像素。

SAM 3D Objects:自然影像中的 3D 物件重建
SAM 3D Objects 能在 日常照片 中做到:
- 產生具紋理的 3D Mesh
- 重建物體姿態、大小、形狀
- 處理遮擋、斷裂、間接視角
- 重建整個場景的空間布局
這讓 3D 建模不再需要專家、昂貴設備或多視角資料。
核心技術:打破 3D 資料瓶頸
Meta 建立了一個前所未有的 3D 資料引擎:
- 標註 近 100 萬張影像
- 產生 314 萬組模型內循環 Mesh(model-in-the-loop)
- 結合 AI、自動排序、人類評分、3D 專家修補
- 打造全新評測資料集 SA-3DAO
SAM 3D Objects 在人類偏好測試中以 5:1 勝過其他模型。
實際應用
- 遊戲開發:自動產生素材
- 電商:商品 3D 試擺
- AR/VR:加速內容建立
- 機器人:即時 3D 感知模組

SAM 3D Body:單張影像的高精度 3D 人體重建
SAM 3D Body 能做:
- 單張影像 3D 人體姿態
- 處理遮擋、奇特姿勢、多類衣著
- 接受 Mask 或 2D Keypoints 進行提示(promptable)
- 預測搭配「MHR(Meta Momentum Human Rig)」人體模型
🧩 技術細節
- 以 800 萬張高質量影像 訓練
- 包含多視角拍攝、動作捕捉資料、專業級影像
- 大幅提升 3D 姿態、骨架、皮膚變形、衣著等細節
- 多步驟精煉(multi-step refinement)
- 支援互動式提示(segmentation mask、2D 點位)
SAM 3D Body 已成為 Meta Codec Avatars 的重要基礎技術之一。

AM 3D 的限制:專業端使用時需注意
SAM 3D Objects 的限制
- 中等解析度,細節表現仍可提升
- 缺乏物理推理(物件接觸、碰撞、支撐等)
SAM 3D Body 的限制
- 目前無法處理多人互動
- 手勢細節仍略遜於專門手部建模模型
AI × 人類的資料引擎:突破 3D 訓練瓶頸
Meta 使用的資料流程:
- 模型自動產生多個 3D 選項
- 人類評估品質
- 3D 專家處理少數困難案例
- 模型吸收新資料並迭代
- 重複循環,模型愈來愈強
這種「model-in-the-loop」策略成功解決:
- 3D Ground Truth 難以獲得
- 3D 資料昂貴且難產出
- 過去只能依靠少量合成資料訓練的限制
科學與保育應用:AI 作為科學家的「數位望遠鏡」
Meta 與 Conservation X Labs 推出 SA-FARI:
- 超過 1000 萬部野生動物影片
- SAM 3 能自動偵測、追蹤稀有物種
- 串接 FathomNet 進行深海生物辨識
SAM 3 已走向科研領域的實際應用。
Segment Anything Playground:讓頂尖 AI 走入每個人手中
Meta 推出全新的 Segment Anything Playground:
- 不需要寫程式
- 上傳圖片 → 選物件 → 自動重建 3D
- 支援 SAM 3 + SAM 3D
- 可自由旋轉、調整視角、自訂輸出
這是一個讓 AI 從實驗室走向大眾的關鍵產品。
產品應用:Marketplace、Instagram、Meta AI 全面升級
Facebook Marketplace
「View in Room」已整合 SAM 3 與 SAM 3D:
- 自動生成 3D 商品
- 可在使用者房間中擬真呈現
- 比例、光線、視覺保持一致
Instagram Edits
- 一鍵追蹤人物
- 自動去背特效
- 動態特效快速套用
Meta AI Vibes
- 自動影片混剪
- 語意選取與特效套用
開源策略:Meta 的 AI 大棋局
Meta 採取全面開源策略:
- 開放 SAM 3D 模型權重
- 推出推論程式碼
- 開放評測資料集
- 未來發布 SA-3DAO
這讓產業能依需求打造自家版本:
- 醫療影像版 SAM
- 製造業檢測版 SAM
- 生物顯微鏡版 SAM
- 半導體檢測版 SAM
Meta 正打造視覺 AI 的全球標準。
未來趨勢與專業建議
1. 視覺工作流程全面進入「語意提示(Prompt)」時代
專業人士需要開始建立屬於自己的提示語模板,提升影像處理效率。
2. 垂直產業將開始打造「領域專屬版 SAM」
建議企業從現在開始:
- 整理影像資料庫
- 建立專業名詞語意標註
- 規劃微調模型流程
- 建立半自動資料引擎
這將成為 AI 生產力競爭的下一階段。




