Task-Generalist Policy Evaluation
Task-generalist policy evaluation(任务泛化策略评估)关注的不是一个 policy 能否在单个 scripted manipulation task 上成功,而是它能否在未专门 co-train 的 diverse tasks、language variants、objects、scenes 和 perturbations 上保持可解释的 performance。RoboLab 把这个问题变成可运行 benchmark:task library 定义 goals 与 predicates,environment registration 组合 robot/policy/sensors,evaluation scripts 记录 success、subtask score、trajectory metrics 和 wrong-object failures。
数学结构
一个 task 可以写成 : 是 scene(USD scene 与初始布局), 是 objects/contact objects, 是 instruction variants, 是 success/subtask predicates, 是 episode horizon。Policy 接收 observation history 与 instruction ,输出 action chunk :
其中 是 optional context,例如 policy backend、robot action mode 或 metadata。对第 个 episode,success indicator 可以写成:
其中 是 episode trajectory。若 task 有 subtasks,RoboLab-style score 可以抽象为:
其中 是第 个 subtask/condition group 的 completion progress, 是 subtask weight。总体 success estimate 是 ;language sensitivity 可以写成 。
直觉
这个 formalism 的重点是把“policy 能做什么”拆成多个可诊断 axes。Task predicate 决定什么算成功,instruction variant 决定语言歧义有多大,scene/object distribution 决定是否真的 OOD,perturbation parameters 决定 robustness 的测试范围。一个高分但只在 default language、seen objects、固定 camera 下成功的 policy,与一个在 vague/specific variants、视觉相似 objects、camera/lighting perturbations 下稳定的 policy,代表的能力不同。
Robotics Simulation Infrastructure 补充了一个 benchmark engineering 视角:evaluation 是否可扩展,不只取决于 task list,也取决于 task/API layer、asset management、rendering throughput/fidelity、visualizer diagnostics 和 ML integration。也就是说,benchmark 的 scientific value 依赖 infrastructure 能否稳定生成 scenes、并行 rollout、暴露 failure state、记录 reward/trajectory/policy behavior,并把这些数据连接到 evaluation metrics。
flowchart TD A["Task library"] --> B["Instruction variant"] A --> C["Scene and object distribution"] A --> D["Success/subtask predicates"] B --> E["Policy rollout"] C --> E D --> F["Score and success"] E --> F E --> G["Wrong-object and trajectory diagnostics"]
Failure Modes
- Domain overlap / benchmark saturation:如果 evaluation tasks 与 training data 太接近,success rate 可能高估 true generalization。
- Language ambiguity:same scene/same goal 的 vague wording 会显著降低 policy success,说明 language grounding 仍是 bottleneck。
- Wrong-object grasp:source 中报告的典型错误包括视觉相似(lime/lemon)、几何 bias(box/can)、语义混淆(measuring spoon/cup)和 proximity bias。
- Sim-proxy mismatch:RoboLab 的 six-task real/sim verification 对 π0.5 和 π0-FAST 呈现相近趋势,但 π0 是明显 outlier;因此 simulation score 需要按 policy/task family 验证。
- Predicate mismatch:predicate-based success checking 清晰且可自动化,但可能低估 recovery behavior、partial satisfaction、human preference 或工具使用中的 subtle semantics。
- Metric masking:subtask score 能显示 partial progress,但也可能掩盖 final task failure;success rate 又可能忽略 trajectory quality 和 safety margins。
- Coverage gap:rigid-body tabletop tasks 不覆盖 deformables、cables/bags、precise force control、compliant interaction 和复杂 frictional dynamics。
实践含义
- 对 VLA model reports,应同时给出 success、subtask score、instruction-type breakdown、attribute breakdown 和 wrong-object failures,而不是只给 aggregate success。
- 对 benchmark design,task generation 应持续加入低 overlap objects/tasks 和 controlled perturbations,避免模型在固定 benchmark 上过拟合。
- 对 sim-to-real,simulation benchmark 更适合作为 diagnostic instrument:它可以定位 sensitivity 和 failure type,但不能单独证明真实部署可靠。
- 对 compositional generalization,short-horizon task success 仍需要区分 visual recognition、relational reasoning、procedural affordance 和 action execution 的贡献。
- 对 simulation infrastructure,policy benchmark 的 maintainability 要检查 scene authoring API、asset serialization、parallel evaluation、visualizer instrumentation 和 ML loop resource budget。