Xsens 动作处理与 FBX 管线
项目定位
这部分工作的重点不是单纯把动捕文件导出来,而是把 Xsens 采集到的动作,稳定地转成后续模型和数字人系统真正能用的 SMPLH 骨骼表达,并进一步整理成带文本描述、可标准化训练的数据资产。
Xsens FBX SMPLH HumanML3D Text Augmentation
技术链路

材料里能对应上的图主要覆盖三步:Xsens 采集动作导入、在中间工具里做骨骼与动画曲线处理、再把结果映射到目标 SMPLH 骨骼或统一骨架。
- 先从 Xsens 动捕结果导出 FBX,保证原始动作时序、根节点位移和骨骼层级信息完整保留。
- 在中间处理环节完成骨骼映射与动画检查,把原始 Xsens 骨架统一到后续使用的 SMPLH 表达。
- 提取骨骼序列、旋转和平移等关键时序数据,并转成 HumanML3D / Text2Motion 更容易消费的结构化格式。
- 在动作数据落盘前补充文本增强、描述标准化和字段统一,避免后续训练阶段再重复清洗。
Xsens 到 SMPLH 重定向

这张图对应的是把源骨骼映射到目标骨骼的关键步骤。重点不是简单改个名字,而是把关节语义、层级关系和动作幅度稳定对齐到可复用的骨架标准上。
- 重定向阶段需要先对齐参考姿态,避免源骨架与目标骨架的初始站姿差异把误差放大到整段动作上。
- 脚、手、骨盆和脊柱是最容易暴露问题的部位,必须优先检查接地、摆臂、根位移和转身时的稳定性。
- 统一到 SMPLH 之后,动作才能更顺利进入后续生成模型、重定向流程或数字人角色驱动链路。
SMPLH 骨骼数据提取

材料里这张界面图能支撑“骨骼数据提取”这一段:动作不是只保留可视化效果,而是需要把骨骼层级、动画曲线和时序信息拆出来,变成后续训练可直接使用的数据。
- 从 FBX 中读取骨骼动画时,需要明确每一帧的关节旋转、位移和根节点运动,避免只保存渲染结果而丢掉训练所需的结构信息。
- 提取阶段同时要处理坐标系、单位、朝向和帧率统一,否则同一批动作会在后续处理时表现出明显分布偏差。
- 这一步决定了动作数据能否真正转成 HumanML3D 风格样本,而不是停留在软件内部可播放、但模型不可用的状态。
文本增强与标准化
- 在动作片段整理完成后,我会进一步补充文本描述,把原始描述扩成更适合训练的动作语句,增强动作和语言之间的对应关系。
- 标准化处理重点包括动作主语、时态、方向词、身体部位词和节奏描述的统一,减少同义表述过散造成的文本噪声。
- 文本增强不是为了“写得更花”,而是为了让同一类动作能在训练数据里形成更稳定的语义分布。
- 这样整理后的数据不仅能服务 Text2Motion,也更容易向 Music2Dance、Speech2Gesture 等跨模态方向复用。
结果
- 完成了 Xsens 动作到 SMPLH 骨架的统一重定向思路,减少不同来源动作数据在骨骼表达上的断层。
- 把 FBX 动画进一步拆成后续训练可消费的骨骼时序数据,而不是停留在单一软件内播放。
- 结合文本增强与标准化处理,为 HumanML3D / Text2Motion 方向的数据制作提供了更稳定的底层管线。