Seer

Seer 是 Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation 中实现的 end-to-end PIDM（Predictive Inverse Dynamics Model）。它把 conditional visual foresight 和 inverse dynamics prediction 放进同一个 Transformer policy：用 [FRS] token 预测 future RGB image，用 [INV] token 在 attend 到 [FRS] 的基础上预测 intermediate action sequence。

模型结构

Seer 输入 language instruction、multi-view RGB images 和 robot state。Image 由 MAE-pretrained ViT 编码并经 Perceiver Resampler 压缩；language 用 CLIP ViT-B/32 text encoder；robot state 用 MLP。GPT-2-style Transformer backbone 中的 [FRS] token 负责 future image latent，[INV] token 负责 action latent，并通过 unidirectional attention attend 到 [FRS]。

flowchart LR
  O["RGB history"] --> E["image encoder<br/>ViT + perceiver"]
  S["robot state history"] --> M["state MLP"]
  L["language or goal"] --> T["CLIP text encoder"]
  E --> B["GPT-style transformer"]
  M --> B
  T --> B
  B --> F["FRS token<br/>future image"]
  F --> I["INV token<br/>inverse dynamics"]
  I --> A["7D action<br/>arm + gripper"]

Evidence from Source

LIBERO-LONG 中，Seer 平均成功率为 87.7%；CALVIN ABC-D 中，Seer-Large average length 为 4.28。Real-world Franka tasks 中，Seer 平均成功率/score 为 78.4% / 39.5，高于 scratch、MVP、MPI 和 OpenVLA baselines。Ablation 显示 $L_{fore}$ 与 $L_{inv}$ 同时用于 pretraining/finetuning 优于只做 future image prediction 或 vanilla BC。

Niuverse LLM Wiki

探索

Seer

Seer

模型结构

Evidence from Source

关系图谱

目录

反向链接