Sim2Sim部署指南

1. Sim2Sim迁移的核心挑战

Sim2Sim部署是指将在一个模拟器(如IsaacLab)中训练的强化学习策略迁移到另一个物理模拟器(如Mujoco)中执行的过程。这看似简单的任务实际上包含多个关键技术挑战：

观测空间不一致

两个模拟器对同一观测量(如速度、位置)的计算方式可能不同，导致神经网络输入特征分布差异。

时间步参数差异

物理步长、降采样比例等参数的不同组合会影响控制频率和动态响应，破坏策略的时序假设。

物理引擎差异

不同的物理引擎(IsaacGym vs Mujoco)有不同的接触模型、约束求解算法，导致动力学差异。

执行器参数差异

电机控制模型、PD参数、力矩限制等在两个平台上的实现细节不同。

核心思想

成功的Sim2Sim迁移需要三个步骤：(1)观测对齐 - 确保网络输入一致; (2)参数同步 - 匹配控制时序; (3)测试调试 - 识别和修正部署时的问题。

2. 观测空间对齐

为什么要对齐观测？

神经网络的输入(观测)决定了其内部特征的分布。在IsaacLab中训练时，网络学到的权重是针对特定的观测向量结构和数值范围优化的。如果在Mujoco中使用不同的观测定义或计算方式，网络将无法正确理解输入，导致策略性能急剧下降。

观测对齐的两个关键方面

1. 观测维度和顺序

确保Mujoco中的观测向量维度与IsaacLab完全相同
维护观测各分量的顺序(首先是速度，然后是位置，等等)
检查是否有缺失的观测项(如足端接触力)

2. 观测计算方式

重现IsaacLab中的观测计算公式
考虑坐标系变换(世界坐标 vs 本体坐标)
匹配标准化参数(mean和std)

常见观测项及其计算

观测项	维度	IsaacLab来源	Mujoco实现
投影重力	3	`mdp.projected_gravity`	`base_mat.T @ gravity_world`
底盘线/角速度	6	`mdp.node_lin_ang_vel`	`data.cvel[base_body_id]`
底盘高度	1	`mdp.node_height_mm`	`data.xpos[base_body_id][2]`
曲柄相位(sin/cos)	8	`mdp.crank_angles_deg`	`np.sin/cos(data.qpos)`
驱动关节速度	4	`mdp.joint_vel`	`data.qvel[joint_cache]`
足端高度估计	1	`(自定义函数)`	`_estimate_foot_height_mm`
俯仰/推杆关节状态	4	`mdp.joint_pos_rel`	`data.qpos, data.qvel`
高度扫描	400	`mdp.height_scan`	`mujoco.mj_ray`
上一时刻动作	6	`mdp.last_action`	`last_actions (缓存)`

常见错误

容易出错的地方：(1) 忘记对关节进行标准化处理; (2) 高度扫描计算错误(通常需要进行ray casting); (3) 忽略了坐标系变换; (4) 关节顺序错误。

3. 观测迁移示例

实际代码示例

下面是一个具体的观测迁移示例，展示如何在Mujoco中重现IsaacLab的观测计算：

Mujoco观测计算示例

import numpy as np
import mujoco
from typing import Dict

class Sim2SimObservationBuilder:
    def __init__(self, model: mujoco.MjModel, data: mujoco.MjData):
        self.model = model
        self.data = data

        # 从IsaacLab训练日志中提取
        self.obs_mean = np.array([...])  # 观测均值
        self.obs_std = np.array([...])   # 观测标准差

        # 关节映射
        self.joint_map = {
            'left_hip': 0,
            'left_knee': 1,
            'right_hip': 2,
            'right_knee': 3,
        }

    def get_observation(self) -> np.ndarray:
        """获取并标准化观测向量"""
        obs = []

        # 1. 投影重力 (3)
        base_rot = self.data.xmat[self.base_body_id].reshape(3, 3)
        gravity_world = np.array([0, 0, -9.81])
        projected_gravity = base_rot.T @ gravity_world
        obs.append(projected_gravity)

        # 2. 底盘速度 (6)
        base_cvel = self.data.cvel[self.base_body_id]
        obs.append(base_cvel)

        # 3. 底盘高度 (1)
        base_height = self.data.xpos[self.base_body_id, 2]
        obs.append([base_height])

        # 4. 曲柄相位 sin/cos (8)
        joint_pos = self.data.qpos[self.joint_indices]
        obs.append(np.sin(joint_pos))
        obs.append(np.cos(joint_pos))

        # 5. 驱动关节速度 (4)
        joint_vel = self.data.qvel[self.joint_indices]
        obs.append(joint_vel)

        # ... 其他观测项 ...

        # 连接所有观测
        obs_vec = np.concatenate(obs)

        # 标准化
        obs_vec = (obs_vec - self.obs_mean) / (self.obs_std + 1e-8)

        return obs_vec

关键注意事项

标准化是关键： IsaacLab在训练时对观测进行标准化。必须在部署时应用相同的均值和标准差，否则网络会因输入分布不匹配而失效。这些值通常保存在训练日志的config文件中。

4. 时间步参数同步

时间步参数的重要性

强化学习策略在训练时对时间步长有隐含的假设。改变时间参数会改变策略"看到"的动态特性，影响控制效果。

关键参数对比

参数	IsaacLab	Mujoco	说明
物理步长	`sim.dt`	`model.opt.timestep`	物理引擎单次积分的时间间隔，通常为0.005s
降采样/抽取	`decimation`	`policy_update_interval`	策略更新之前执行多少个物理步
控制步长	`sim.dt × decimation`	`timestep × interval`	策略更新之间的实际时间间隔
控制频率	`1 / control_dt`	`1 / control_dt`	策略发送指令的频率(Hz)，两边必须一致！

参数同步检查清单

确认IsaacLab中的sim.dt值

确认IsaacLab中的decimation值，计算控制频率

在Mujoco中设置model.opt.timestep匹配IsaacLab的sim.dt

在Mujoco中设置policy_update_interval使得控制频率一致

验证：1/(dt_isaac × decimation) ≈ 1/(dt_mujoco × interval)

经验数值

大多数人形机器人使用 dt = 0.005s, decimation = 2，对应50Hz的控制频率。

5. 抖动问题分析

什么是抖动？

抖动(Jitter)是指在部署时机器人四肢出现的高频、不稳定的抖动现象。这通常表现为：关节快速振荡、动作不平滑、控制不稳定等。抖动是Sim2Sim迁移中最常见的问题。

常见原因及诊断

观测标准化缺失/错误

症状： 行为完全错乱，策略无法工作

诊断： 检查是否加载了训练时的mean和std

解决方案： 从训练日志提取obs_mean和obs_std并应用

控制频率不匹配

症状： 动作延迟、响应不及时、策略跟不上动态变化

诊断： 对比训练和部署的 1/(dt×decimation)

解决方案： 调整timestep和policy_update_interval

执行器参数不匹配

症状： 关节响应弱、无法精确跟踪目标

诊断： 检查action_scale、kp、kd参数

解决方案： 在Mujoco XML中匹配IsaacLab的执行器配置

关节顺序错误

症状： 动作错位、控制效果完全反向或混乱

诊断： 打印并对比关节名称映射

解决方案： 创建并验证JOINT_NAME_MAP

高频噪声与探索伪影

症状： 静止时持续微弱抖动，整体动作有轻微不平滑

诊断： 策略在训练时添加了探索噪声(epsilon-greedy或高斯噪声)

解决方案： 添加低通滤波器或减少动作率惩罚

物理参数差异

症状： 整体动作缓慢或加快、稳定性变化

诊断： 质量、惯性、摩擦系数差异

解决方案： 训练时使用域随机化(Domain Randomization)

调试步骤

1

验证观测

在部署前，打印并检查观测向量的值。与训练时的观测分布进行对比。

2

检查动作输出

打印网络输出的动作值。检查是否在预期范围内[-1, 1]或其他标度。

3

监视关节状态

记录关节位置、速度和加速度。识别哪个关节抖动最严重。

4

隔离问题

逐一禁用或调整参数，确定是哪个方面导致问题。

6. 常见问题FAQ

7. 总结与建议

关键要点总结

观测对齐是基础

Sim2Sim迁移的成功与否首先取决于观测是否完全对齐。维度、顺序、计算方式和标准化参数都必须一致。这是最容易出错但也是最容易检查的方面。

时间参数要精确

控制频率的任何偏差都会影响策略性能。确保IsaacLab和Mujoco的控制周期完全相同，这是部署成功的必要条件。

系统地调试问题

当出现抖动等问题时，不要盲目调试。先验证观测，再检查时间参数，最后检查物理参数。逐一排除可能的原因。

设计时要考虑迁移

如果预期策略需要跨仿真器部署，在训练设计中就应该考虑这一点。例如使用Domain Randomization、保存完整的配置信息、避免依赖模拟器特定的观测。

Sim2Sim迁移检查清单

准备阶段

收集IsaacLab训练的完整配置(sim.dt, decimation, 网络结构等)
获取obs_mean, obs_std, 模型权重文件
文档化IsaacLab中的每个观测项如何计算
准备Mujoco XML模型文件

观测对齐阶段

逐个实现IsaacLab的观测计算函数
对比观测向量的维度和顺序
应用正确的标准化参数
编写单元测试验证观测计算正确性

参数同步阶段

设置Mujoco timestep = IsaacLab sim.dt
设置policy_update_interval使控制频率一致
验证执行器参数(PD系数、力矩限制)相同
检查关节映射正确

部署和调试阶段

在静止或简单场景下测试
打印观测和动作，检查数值合理性
如出现问题，按照调试步骤逐一排查
必要时调整执行器参数或添加滤波器

从IsaacLab到Mujoco