Speech2Gesture 探索

项目定位

Speech2Gesture 这部分更偏探索型项目,目标是让数字人在对话、讲解、播报等场景下,不只有嘴部和表情,而是能根据语音韵律和语义内容生成更自然的上半身手势与身体节奏。

Speech2Gesture Upper-body Motion SMPLH Dialogue Avatar

探索重点

Speech2Gesture 方向使用的动作参考

材料里没有单独命名为 Speech2Gesture 的成型结果页,这里保留的是与该方向强相关的动作参考素材。它更像是在说明我关注的动作表达形态,而不是冒充成已经完成的最终论文结果。

  • 关注语音节奏、停顿、强调和语义焦点如何映射到手势节拍与身体重心变化。
  • 重点看上半身、手臂和躯干动作是否能提升数字人在讲解和对话时的表达感,而不是只堆全身动作幅度。
  • 任务定义上强调可接入数字人系统,因此动作表达需要和语音驱动、表情驱动链路兼容。

数据与表示基础

Speech2Gesture 可复用的 SMPLH 动作提取基础

Speech2Gesture 的一个关键前提是动作序列必须先被整理成统一骨骼表示。这里复用了 Xsens 到 SMPLH 的提取链路,让后续语音到手势建模不会卡在数据格式层面。

  • 先把动作序列统一到 SMPLH 或等价的结构化骨骼表达,再考虑和语音文本对齐。
  • 需要对动作片段和文本描述做标准化,减少语义标签混乱导致的训练噪声。
  • 数据侧更偏上半身、手势节奏和交互表达,而不是单纯追求大幅度全身运动。

当前结论

  • Speech2Gesture 在我的项目里属于明确持续推进的方向,但当前更偏数据与任务定义探索,而不是已经闭环的单篇成果。
  • 已经明确了它与 Xsens/SMPLH 管线、数字人实时对话场景和多源动作数据整理之间的连接关系。
  • 后续最有价值的推进方向是把语音韵律、语义标签和可复用手势骨骼序列真正组织成可训练样本。