近日,研究人员提出一种融合因果推理与图神经网络的新型表示学习框架——CauSkelNet,能被用于建模人体关节之间的因果关系与信息流强度。
研究团队首次将 Peter-Clark(PC)算法与 KL 散度(Kullback–Leibler divergence)结合,借此引入了“因果强度”的概念,为特征间的因果作用建立了可量化和可比较的机制,克服了传统图模型仅具相关性、缺乏方向性解释的问题。
通过在 EmoPain 数据集上分析不同情境下的保护性行为与非保护性行为,研究团队发现疼痛和情绪变化会显著重塑关节之间的因果图结构,表现为方向反转与强度变化等规律性模式。这一发现不仅揭示了痛感行为背后的机制性联系,也为行为识别和个性化健康干预提供了理论依据。研究表明,CauSkelNet 在运动识别任务中显著优于传统图卷积网络(GCN,Graph Convolutional Network)模型,具备更强的可解释性与泛化能力,开辟了“因果建模+结构学习”在以人为中心的数据分析中的新方向。
(来源:http://arxiv.org/pdf/2409.15564)
未来几年内,本次成果有望在多个领域得到应用。
首先,在个性化康复和物理治疗方面,基于因果图的关节交互模型可以实时监测患者的运动模式,识别疼痛触发的“保护性行为”,并通过反馈来指导康复训练方案的动态调整。
其次,在体育训练与运动科学中,教练可以利用因果强度量化数据,精准分析运动员的动作连锁反应,定制专项技术改进计划。
再次,在可穿戴设备与远程健康监测领域,智能手环、智能服装等可以内置简化版因果模型,从而能够动态评估日常活动中的潜在伤害风险,并在异常时发出警报;在虚拟现实/增强现实交互中,该模型可被用于驱动更加真实的人体骨骼动画,提升沉浸感;在人机协作和外骨骼机器人辅助中,其能预测人体意图并调整助力策略,实现更安全、更高效的力量放大与动作矫正。
最后,在智能安防和情感计算场景下,通过捕捉细微的因果运动信号,其能更早地检测跌倒、痛苦或压力状态,为老年人看护与心理健康监测提供技术支持。
随着数据规模与计算能力的增长,CauSkelNet 框架还可扩展到多模态生理信号融合和实时在线更新,为未来智慧医疗、智能运动和人机融合交互奠定坚实基础。
本次研究的初衷并非源自运动学或人体行为分析的具体应用,而是源于对机器学习中特征层面因果关系建模的根本关切。随着人工智能在医学、情感计算、人机交互等领域的深入发展,越来越多的任务聚焦于处理以人为中心的数据。这类数据不仅结构复杂、动态性强,还受到生理结构与认知调控机制的深刻约束。
然而,传统深度学习模型通常仅捕捉相关性,忽视了特征之间的潜在因果联系,尤其缺乏一种机制去刻画这些联系在结构性人类数据中的非对称性与方向性。
研究团队受到自然科学中“万有引力”思想的启发:不同实体之间存在可量化的相互作用,这种作用不仅有强弱之分,也有明确的方向性。类似地,人类行为中的各类特征并非平等独立,而是蕴含复杂的依赖路径与信息传递结构。
因此,研究团队试图构建一种因果可解释的表示学习框架,尝试为深度模型提供一种“因果引力场”式的视角,使得模型不仅能学习“是否相关”,更能判断“谁影响谁、影响有多强”。
具体而言,他们引入 KL 散度这一非对称的信息度量方式,以便度量不同节点(或特征)之间的信息流强度,并结合图神经网络构建结构化的因果图表示,从而首次在图结构学习中建立了可解释、可比较、可量化的因果强度机制。这一方法不仅提升了模型的解释力,也为人类行为理解提供了机制层级的建模视角,填补了当前深度学习模型缺乏因果刻画的关键空白。
起初,研究团队在机器学习领域关注到:现有深度模型往往只停留在“相关性”层面,对于特征之间真正的“因果关联”没有明确的刻画。随着人工智能在医疗、情感计算和人机交互等领域的广泛应用,处理以人为中心的复杂数据变得日益重要。这类数据不仅存在高度结构化的特点,还受到生理与认知规律的双重制约。于是,研究团队决定从“特征层面因果建模”的根本问题入手,探索能够为深度模型引入因果解释能力的通用框架,并最终将这一思路应用到人体运动分析中,验证其可行性与实用性。
在选定研究方向之后,研究团队展开了两方面的深入调研:一方面研读因果推理领域的经典文献,重点了解 Peter-Clark(PC)算法、贝叶斯网络以及信息论中 KL 散度在因果发现中的应用;另一方面梳理现有运动识别与图神经网络领域的研究进展,特别关注这些方法在模式识别与预测方面的优势与局限。通过对比分析研究团队认识到:若能将 PC 算法与 KL 散度的非对称信息度量引入到图结构学习中,就能在“相关性”之外挖掘特征间更深层次的“因果强度”,丰富模型的可解释性和鲁棒性。
在理论思路清晰之后,研究团队开始具体设计方法框架。首先,基于 PC 算法对人体关节数据进行条件独立性检验,构建初步的无向骨架图以捕获关节间潜在的关联结构;接着,利用 KL 散度衡量条件概率与边际概率之间的信息差异,判定关节间“谁对谁”的因果方向及强度。最后,研究团队将所得因果强度作为边权引入到图神经网络的消息传递机制中,实现对因果关系“可解释量化”的学习,从而搭建了完整的 CauSkelNet 框架。
为了验证框架的有效性,研究团队选择了公开可用的 EmoPain 数据集——它记录了慢性疼痛患者与健康对照组在多种动作情境下的三维关节坐标,既能体现日常运动差异,又能捕捉疼痛诱发的保护性行为特征。在这一阶段,研究团队完成了数据清洗、缺失值插补、坐标归一化等一系列预处理操作,为后续的 PC 算法与 KL 散度计算提供了质量可靠的基础数据。
预处理完成后,研究团队通过编写代码实现了两个核心模块。第一个核心模块是因果结构发现:即基于 PC 算法的条件独立性检验流程,逐步去除不显著的关节点连边,生成初始无向骨架。第二个核心模块是信息流量化:即针对每对骨架连边的关节,分别估计条件分布与边际分布,计算 KL 散度以衡量信息增益,从而确定有向因果边及其权重。
随后,研究团队在图神经网络中融入上述因果权重,让网络在消息传递时同时关注结构连接与信息流强度,并在多轮迭代中训练模型,使其输出既包括运动类别预测,也包含可解释的因果表示。
完成模型训练之后,研究团队按照预设方案进行全面评估。首先,他们进行了基线对比:将 CauSkelNet 与传统图神经网络在“保护性行为”与“非保护性行为”两类任务中进行对比,比较准确率、F1 分数与召回率等指标。其次,他们进行了因果图可视化:对比了不同动作类型下的因果图结构,观察疼痛状态下关节因果方向与强度的规律性变化。
实验结果表明,CauSkelNet 在各项指标上均显著优于基准模型,同时可视化因果图揭示了膝关节、髋关节等节点在疼痛诱发行为中的信息流模式,这一发现与生物力学与疼痛医学中的“防御性收缩”理论相呼应,也印证了本次方法在可解释性方面的价值。
在初步实验结果出来后,研究团队针对算法细节进行了多轮迭代优化,例如在 KL 散度计算中加入统计校正、改进 PC 算法中的条件检验策略,以及在图神经网络设计中增加正则化项以提升鲁棒性。每次优化后都重新评估模型性能,并不断完善论文中方法与实验细节的描述。
(来源:http://arxiv.org/pdf/2409.15564)
在研究因果图的那段日子里,有一件事至今让相关论文的第一作者谷星锐印象深刻。最初,他和其他团队成员按照 PC 算法得到了关节之间的“骨架”连边,但如何量化每一条边的因果方向和强度,却让他头疼不已。他试过用回归分析、也尝试过基于嵌入空间的相似度度量,可是总觉得无法体现出“非对称”的信息流。换句话说,怎么证明关节 A 对关节 B 的“因果推动”要比 B 对 A 的影响更强,这个核心问题始终无法突破。
(来源:http://arxiv.org/pdf/2409.15564)
有一天深夜,谷星锐依然在实验室的台式机前来回翻阅论文。隔壁桌的同学已经下班,只剩电脑的风扇声在响。这时,谷星锐打开了 Indexing 数理信息论的一本相关图书,书页中突然跳出一段关于 Kullback–Leibler 散度描述:“它可以衡量两个概率分布之间的‘非对称差异’。”谷星锐戳着电脑屏幕想:“如果能拿这个去测量 P(B|A) 与 P(A|B) 之间的差距,或许就能量化谁向谁更多地传递了信息?”这个念头一闪而过,心跳却瞬间提速——因为几乎可以想象的是,如果把每对连接的关节看作随机变量,那么用 KL 散度去比较条件概率和边际概率,正好可以反映“信息增益”的非对称性。正是这一小插曲,成为了他完成本次研究的助力之一。
不过,现阶段的研究只停留了验证方法可行性上。在图神经网络和表征学习中,利用 KL 散度去表示点到点之间的因果关系,将其中的线赋予更多的信息与潜在的关系,是一次新的尝试,也给其他学者提供了一种挖掘数据间潜在的因果关系的方法。
整体来说,研究团队仅用 EmoPain 数据简单验证了想法可行性。而在未来的计划里面,其打算尝试在更多的领域去验证这个方法的价值。一方面,他们将尝试在更多数据集和领域上运用这个方法。考虑到研究团队的因果表征学习能挖掘图数据的点与点之间的因果关系,他们也想将其运用到更多的领域,比如在用图神经网络做区域出行预测等。另一方面,研究团队想尝试利用不同的算法去模拟因果关系,而 KL 散度只是一种尝试,其还需要挖掘更多能用来评估因果关系的方法,从而挖掘出一个比较好的度量数据之间的因果关系。
据介绍,本次论文的第一作者谷星锐本科就读于英国伦敦国王学院,后在英国伦敦大学学院读硕。接着,谷星锐前往美国加州大学伯克利分校读硕,目前即将完成学业。本次论文的第二作者其本科就读于英国布里斯托大学,目前刚从美国哥伦比亚大学获得硕士学位。
与此同时,谷星锐还创办了一家公司,并研发了一款名为 HippaLove 的软件,这是一款结合情绪人工智能(Affective Computing)与智能硬件的个性化健康科技产品,旨在提升亲密关系中的互动体验。该项目聚焦于通过实时生理信号(如心率、皮肤电反应等)感知用户状态,并利用强化学习模型实现设备的动态自适应调整,从而提供更加自然与人性化的反馈机制。在产品研发初期,谷星锐构建了多模态数据采集系统与情绪识别模型,并完成了初代原型的迭代测试。这一项目曾入围 TechFounders 的早期项目评估,并与多所高校的行为科学与工程实验室建立合作。尽管目前公司仍处于早期阶段,但已初步验证了市场潜力与技术可行性,因此该公司计划在下一阶段寻求种子轮融资以扩展研发与市场落地。
参考资料:
http://arxiv.org/abs/2409.15564
运营/排版:何晨龙