Latent Dynamics Action Models

Latent Dynamics Action Model（LDA，潜在动力学动作模型）是 LDA-1B source 中提出的 robot foundation model training paradigm：它把 action policy、forward dynamics、inverse dynamics 和 visual forecasting 统一到一个 diffusion model 中，但把 future visual state 表示为 DINO latent，而不是 pixel/VAE reconstruction。核心目标是从 heterogeneous embodied data 中学习 action-induced state transitions，并让 mixed-quality data 不再只能作为 noisy imitation data。

Seer 和 DeFI 从两个方向强化了同一判断：action representation 不应只靠 behavior cloning。Seer 在 action-labeled robot data 上把 future RGB prediction 与 inverse dynamics action prediction end-to-end 结合；DeFI 则让 inverse dynamics pretraining 从 unlabeled video transitions 中学习 latent action tokens。LDA-1B 把 inverse dynamics 放进 shared diffusion objective；DeFI 则把 forward dynamics 和 inverse dynamics 分开预训练，先让 GIDM 学 latent action tokens，再在 downstream robot data 上用 action adapter grounding 到 executable command。

数学结构

设 $o_{t}$ 是当前 observation， $ℓ$ 是 language instruction， $a_{t + 1 : t + k}$ 是 future action chunk， $z_{t + 1 : t + k}$ 是由 DINO encoder 提取的 future visual latent。LDA 继承 UWM（Unified World Model）的四个 objective：

Policy: Forward dynamics: Inverse dynamics: Visual forecasting/planning: p_{θ} (a_{t + 1 : t + k} ∣ o_{t}, ℓ) p_{θ} (z_{t + 1 : t + k} ∣ o_{t}, a_{t + 1 : t + k}, ℓ) p_{θ} (a_{t + 1 : t + k} ∣ o_{t}, z_{t + 1 : t + k}, ℓ) p_{θ} (z_{t + 1 : t + k} ∣ o_{t}, ℓ)

Source 中的 UWM 写法使用 future observations $o_{t + 1 : t + k}$ ；LDA 的关键替换是令 visual target 进入 structured DINO latent $z_{t + 1 : t + k} = f_{DINO} (o_{t + 1 : t + k})$ 。模型对 action chunk 与 visual latent 分别加 Gaussian noise，并训练 vector field/denoising heads。抽象地写：

L_{θ} = λ_{a} E [∥ v_{θ}^{a} (\tilde{a}_{τ_{a}}, \tilde{z}_{τ_{z}}, o_{t}, ℓ, e_{m}) - (ϵ_{a} - a_{t + 1 : t + k}) ∥_{2}^{2}] + λ_{z} E [∥ v_{θ}^{z} (\tilde{a}_{τ_{a}}, \tilde{z}_{τ_{z}}, o_{t}, ℓ, e_{m}) - (ϵ_{z} - z_{t + 1 : t + k}) ∥_{2}^{2}],

其中 $\tilde{a}_{τ_{a}}$ 是 noisy action chunk， $\tilde{z}_{τ_{z}}$ 是 noisy future DINO latent， $ϵ_{a}, ϵ_{z}$ 是 Gaussian noise， $e_{m}$ 是 task/objective embedding（policy、forward dynamics、inverse dynamics、visual forecasting）， $λ_{a}, λ_{z}$ 表示该 training task 是否激活 action loss 或 visual loss。没有某个 modality 时，LDA 使用 learnable register token 作为 placeholder。

直觉

Behavior cloning 只问“这个 observation 下 expert 做了什么 action”。LDA 还问三个额外问题：给定 action 会导致什么 future state，给定 current/future state 需要什么 action，以及没有 action label 时 future visual state 如何变化。这让 low-quality trajectories 和 actionless videos 仍能提供 dynamics supervision，而不是被 BC 当成有害数据丢掉。

DINO latent 的作用是把 prediction target 从 appearance-heavy pixels 移到 semantic/spatial features。Pixel/VAE target 会把 illumination、texture、background 和 camera view 的低层变化也算进 loss；DINO features 更偏 object structure、affordance 和 spatial layout，因此更适合学习 action-induced transitions。代价是模型继承了 DINO representation 的盲点：没有被 DINO 编进 latent 的 force、tactile 或 material state 很难由 downstream dynamics head 补回来。

flowchart LR
  D1["high-quality trajectories"] --> O1["policy + forward + inverse + forecasting"]
  D2["low-quality trajectories"] --> O2["forward dynamics + visual forecasting"]
  D3["actionless human videos"] --> O3["visual forecasting"]
  O1 --> M["MM-DiT<br/>shared latent-action model"]
  O2 --> M
  O3 --> M
  V["DINO latent state<br/>z_t"] --> M
  L["language / task embedding"] --> M
  M --> A["action chunk"]
  M --> Z["future DINO latent"]

Failure Modes

Frozen visual representation bottleneck：source 明确把 fixed DINO visual features 列为 limitation；如果 DINO latent 不编码 contact force、tactile slip、transparent objects 或 fine tool geometry，latent dynamics 可能预测得 coherent 但控制所需 state 不完整。
Data-role misrouting：low-quality trajectories 对 dynamics 有用，但如果质量标签、action availability 或 objective selection 错误，bad actions 可能污染 policy loss，或者 useful actions 被排除。
Actionless video ambiguity：actionless egocentric videos 只能提供 visual forecasting supervision；没有动作条件时，模型可能学到 common motion priors，但无法区分哪些 state changes 是 robot-controllable。
Egocentric viewpoint bias：source 说训练和 evaluation 主要依赖 egocentric camera viewpoints；换成 third-person、multi-camera、tactile/depth-heavy setup 时，latent/action alignment 可能需要重建。
Offline proxy gap：scaling analysis 使用 held-out action prediction L1 error；它稳定可复现，但不等于 closed-loop success，尤其在 contact-rich tasks 中误差的 timing 和 direction 比平均 L1 更重要。
Source-level reproducibility：paper 报告 large-scale dataset 和 model training，但 independent reproduction 依赖 code/data/checkpoint availability 和 evaluation protocol release。

实践含义

对 robot foundation model pretraining，LDA 的重要启发是把 data quality 变成 training objective routing，而不是 dataset filtering。收集到的 pauses、retries、suboptimal motion 可能不适合作为 policy target，但仍可能告诉模型物体如何移动、什么 contact 会失败、哪些 visual transitions 常见。

对 world models，LDA 是一个 practical middle ground：它不需要生成 high-fidelity RGB video，也不把 world model 单独拿来做 MPC rollout，而是用 latent forward/inverse dynamics 改善 downstream action policy。

对 VLA，LDA、Seer 和 DeFI 共同提供了 BC 之外的 scaling path。Policy head 仍然输出 action chunks，但训练信号不只来自 expert action likelihood，还来自 action-conditioned future-state prediction、future-state-to-action inverse dynamics，以及 action-free video transition reconstruction。

Niuverse LLM Wiki

探索

Latent Dynamics Action Models

Latent Dynamics Action Models

数学结构

直觉

Failure Modes

实践含义

关系图谱

目录

反向链接