我们提出了一种使用单个RGB摄像机以超过30fps的速度实时捕捉多人3D运动的方法。它在可能包含物体和其他人遮挡的通用场景中成功运行。我们的方法在后续阶段进行操作。第一阶段是卷积神经网络(CNN),它估计二维和三维姿态特征以及所有个体所有可见关节的身份分配,我们为这个CNN提出了一个新的体系结构,称为SelecSLS网,它使用新的选择性长短距离跳跃连接来改善信息流,从而在不影响精度的情况下实现速度极快的网络。在第二阶段,完全连接的神经网络将每个对象可能的部分(由于遮挡)2Dpose和3Dpose特征转化为每个个体的完整的3Dpose估计。第三阶段将时空骨架模型拟合到预测的每个受试者的2D和3D姿势,以进一步协调2D和3D姿势,并加强时间一致性。我们的方法返回每个受试者关节角度的完整骨骼姿势。这是与以前的工作的另一个关键区别,以前的工作没有为多人场景实时产生连贯骨架的关节角度结果。建议的系统在消费者硬件上以前所未有的速度运行,以超过30fps的速度提供512x320图像作为输入,同时实现最先进的准确性,我们将在一系列具有挑战性的真实世界场景中演示这一点。