Text2HOI / OOD-HOI 探索
项目定位
Text2HOI 关注的不是单纯“人怎么动”,而是文本如何同时约束人体姿态与物体交互关系。这个方向的难点在于,生成结果不仅要看起来像动作,还要满足手和物体之间的接触、抓取和相对运动逻辑。
Text2HOI OOD-HOI Human-Object Interaction Out-of-Domain
方法框架

材料里的方法图展示了这个方向的核心:文本和物体几何一起作为输入,分别约束人体姿态分支与物体姿态分支,再通过接触引导和交互优化去减少悬浮与穿插问题。
- 文本输入不只是普通 caption,而是需要同时约束动作类型、交互对象和动作发生方式。
- 生成过程中人体和物体不是独立采样,而是需要在接触关系上相互约束。
- 交互细化阶段会重点处理 floating object、穿模和接触不合理等典型问题。
结果对比

这张结果图里可以直接看到 novel textual descriptions 和 unseen objects 两类场景,对比基线方法与 ours 在抓取、接触和姿态稳定性上的差异。
- 在新文本描述场景下,模型需要理解动作语义变化,而不是只复述训练集里见过的模板。
- 在未见过的物体场景下,难点是保持物体接触关系仍然成立,而不是让人体和物体各自“看起来合理”。
- 这类能力对后续数字人和工具、道具、环境进行真实交互很重要。
为什么值得做
- Text2HOI 把动作生成从“人怎么动”推进到“人如何和物体交互”,这对更完整的数字人行为能力是关键补充。
- 超出训练域的文本和物体泛化能力,决定了系统能否在真实应用里处理更开放的交互需求。
- 这类研究也为后续数字人和环境、道具、任务目标结合提供了动作层面的基础能力。