Task-Generalist Policy Evaluation

Task-generalist policy evaluation（任务泛化策略评估）关注的不是一个 policy 能否在单个 scripted manipulation task 上成功，而是它能否在未专门 co-train 的 diverse tasks、language variants、objects、scenes 和 perturbations 上保持可解释的 performance。RoboLab 把这个问题变成可运行 benchmark：task library 定义 goals 与 predicates，environment registration 组合 robot/policy/sensors，evaluation scripts 记录 success、subtask score、trajectory metrics 和 wrong-object failures。

数学结构

一个 task 可以写成 $T_{i} = (S_{i}, O_{i}, L_{i}, G_{i}, H_{i})$ ： $S_{i}$ 是 scene（USD scene 与初始布局）， $O_{i}$ 是 objects/contact objects， $L_{i} = {ℓ_{i}^{v a gu e}, ℓ_{i}^{d e f a u lt}, ℓ_{i}^{s p ec i f i c}}$ 是 instruction variants， $G_{i} = {g_{i 1}, \dots, g_{i K}}$ 是 success/subtask predicates， $H_{i}$ 是 episode horizon。Policy $π_{ϕ}$ 接收 observation history $o_{\leq t}$ 与 instruction $ℓ$ ，输出 action chunk $a_{t : t + h}$ ：

a_{t : t + h} \sim π_{ϕ} (a ∣ o_{\leq t}, ℓ, c),

其中 $c$ 是 optional context，例如 policy backend、robot action mode 或 metadata。对第 $e$ 个 episode，success indicator $y_{i, e}$ 可以写成：

y_{i, e} = 1 g \in G_{i} ⋀ g (x_{0 : H_{i}}) = true,

其中 $x_{0 : H_{i}}$ 是 episode trajectory。若 task 有 subtasks，RoboLab-style score 可以抽象为：

s_{i, e} = \frac{\sum _{k = 1}^{K} w _{k} z _{i, e, k}}{\sum _{k = 1}^{K} w _{k}},

其中 $z_{i, e, k} \in [0, 1]$ 是第 $k$ 个 subtask/condition group 的 completion progress， $w_{k}$ 是 subtask weight。总体 success estimate 是 $\overset{p}{^}_{i} = \frac{1}{n _{i}} \sum_{e} y_{i, e}$ ；language sensitivity 可以写成 $Δ_{i} = \overset{p}{^}_{i} (ℓ^{s p ec i f i c}) - \overset{p}{^}_{i} (ℓ^{v a gu e})$ 。

直觉

这个 formalism 的重点是把“policy 能做什么”拆成多个可诊断 axes。Task predicate 决定什么算成功，instruction variant 决定语言歧义有多大，scene/object distribution 决定是否真的 OOD，perturbation parameters 决定 robustness 的测试范围。一个高分但只在 default language、seen objects、固定 camera 下成功的 policy，与一个在 vague/specific variants、视觉相似 objects、camera/lighting perturbations 下稳定的 policy，代表的能力不同。

Robotics Simulation Infrastructure 补充了一个 benchmark engineering 视角：evaluation 是否可扩展，不只取决于 task list，也取决于 task/API layer、asset management、rendering throughput/fidelity、visualizer diagnostics 和 ML integration。也就是说，benchmark 的 scientific value 依赖 infrastructure 能否稳定生成 scenes、并行 rollout、暴露 failure state、记录 reward/trajectory/policy behavior，并把这些数据连接到 evaluation metrics。

flowchart TD
  A["Task library"] --> B["Instruction variant"]
  A --> C["Scene and object distribution"]
  A --> D["Success/subtask predicates"]
  B --> E["Policy rollout"]
  C --> E
  D --> F["Score and success"]
  E --> F
  E --> G["Wrong-object and trajectory diagnostics"]

Failure Modes

Domain overlap / benchmark saturation：如果 evaluation tasks 与 training data 太接近，success rate 可能高估 true generalization。
Language ambiguity：same scene/same goal 的 vague wording 会显著降低 policy success，说明 language grounding 仍是 bottleneck。
Wrong-object grasp：source 中报告的典型错误包括视觉相似（lime/lemon）、几何 bias（box/can）、语义混淆（measuring spoon/cup）和 proximity bias。
Sim-proxy mismatch：RoboLab 的 six-task real/sim verification 对 π0.5 和 π0-FAST 呈现相近趋势，但 π0 是明显 outlier；因此 simulation score 需要按 policy/task family 验证。
Predicate mismatch：predicate-based success checking 清晰且可自动化，但可能低估 recovery behavior、partial satisfaction、human preference 或工具使用中的 subtle semantics。
Metric masking：subtask score 能显示 partial progress，但也可能掩盖 final task failure；success rate 又可能忽略 trajectory quality 和 safety margins。
Coverage gap：rigid-body tabletop tasks 不覆盖 deformables、cables/bags、precise force control、compliant interaction 和复杂 frictional dynamics。

实践含义

对 VLA model reports，应同时给出 success、subtask score、instruction-type breakdown、attribute breakdown 和 wrong-object failures，而不是只给 aggregate success。
对 benchmark design，task generation 应持续加入低 overlap objects/tasks 和 controlled perturbations，避免模型在固定 benchmark 上过拟合。
对 sim-to-real，simulation benchmark 更适合作为 diagnostic instrument：它可以定位 sensitivity 和 failure type，但不能单独证明真实部署可靠。
对 compositional generalization，short-horizon task success 仍需要区分 visual recognition、relational reasoning、procedural affordance 和 action execution 的贡献。
对 simulation infrastructure，policy benchmark 的 maintainability 要检查 scene authoring API、asset serialization、parallel evaluation、visualizer instrumentation 和 ML loop resource budget。

Niuverse LLM Wiki

探索

Task-Generalist Policy Evaluation

Task-Generalist Policy Evaluation

数学结构

直觉

Failure Modes

实践含义

关系图谱

目录

反向链接