原文:Deep Learning Models and Code for Pose Estimation

姿态估计旨在 RGB 图片和 Video 中的人体像素映射到肢体的三维曲面(3D surface),其涉及了很多计算机视觉任务,如目标检测,姿态估计,分割,等等.

姿态估计的应用场景不仅包括关键点定位,如图形(Graphics),增强显示(Augmented Reality, AR),人机交互(Human-Computer Interaction,HCI),还包括 3D 目标识别的很多方面.

这里,汇总了一些姿态估计的开源深度学习模型和代码实现.

<h2>1. DensePose</h2>

DensePose 出自 Facebook Research,其开源了 DensePose 实现的代码,模型和数据集.
DensePose 数据集,DensePose-COCO,用于人体姿态估计的大规模数据集.
DensePose-COCO 数据集,是在 50K COCO 图片上手工标注的图片-表面(image-to-surface)对应的大规模数据集.

DensePose 论文提出了 DensePose-RCNN,是 Mask-RCNN 的一个变形,针对每秒多帧的每个人体区域,其回归密集地回归特定肢体部分的 UV 坐标.
DensePose 基于 DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild - 2016.
DensePose 的目标是确定每个像素点的曲面位置(surface location),以及该肢体曲面所属的对应 2D 参数化.

DensePose 采用了基于 FPN 的 Mask R-CNN 结构,RoI-Align Pooling.
此外,DensePose 在 RoI-Pooling 的输出端加入全卷积网路.

Github项目 - DensePose

<h2>2. OpenPose</h2>

OpenPose 是 CMU Perceptual Computing Lab 开源的一个实时多人关键点检测库.

OpenPose 提供了 2D 和 3D 多人关键点检测方法,以及特定参数的姿态估计的标准化工具包.
OpenPose 可以采用很多不同的输入方式,如,图片image, 视频video,IP相机camera,等等.
OpenPose 的输出也可以是很多不同形式,如图片和关键点(PNG,JPG,AVI),可读格式的关键点(JSON,XML,YML),甚至是数组类.
OpenPose 的输入和输出参数,还可以根据需要进行调整.

OpenPose 提供了 C++ API,可以在 CPU 和 GPU 上运行,也兼容 AMD 显卡.

<h2>3. Realtime Multi-Person Pose Estimation</h2>


Realtime Multi-Person Pose Estimation 的实现与 OpenPose 具有很高的关联性.
其采用由下而上(bottom-up) 的方法进行实时多人姿态估计,且不需要任何人体检测器.

Realtime Multi-Person Pose Estimation 采用了非参数化表示 - Part Affinity Fields (PAFs),以学习图片中各人体的肢体关联性.

其它实现:

<h2>4. AlphaPose</h2>


AlphaPose 是上海交通大学开源的精确多人姿态估计,声称是第一个开源系统.
AlphaPose 可以同时对图片, videos,以及图片列表,进行姿态估计和姿态追踪(pose tracking). 可以得到很多不同的输出,包括 PNG,JPEG,AVI 格式的关键点图片,JSON 格式的关键点输出,便于很多应用场景.

AlphaPose 采用区域多人姿态估计(regional multi-person pose estimation, RMPE)框架,以在人体边界框不准确的情况下,提升姿态估计. 其主要包括三部分:

  • Symmetric Spatial Transformer Network (SSTN)
  • Parametric Pose Non-Maximum-Suppression (NMS)
  • Pose-Guided Proposals Generator (PGPG)

<h2>5. MPII Human Pose</h2>


MPII 人体姿态数据集,是铰链人体姿态估计的大规模数据集.

该开源实现是人体肢体姿态估计算法的 TensorFlow 实现,基于论文 ArtTrack 和 DeeperCut.
其主要是关注真实图片中的铰链人体姿态估计任务,同时处理人体检测和姿态估计任务. 而不是先检测人体,然后再估计人体姿态.

<h2>6. DeepPose</h2>

DeepPose 是 2014 年的一篇论文,首先采用深度神经网络的方法进行人体姿态估计,其采用 DNN-based 关键点回归方法.

Last modification:October 9th, 2018 at 09:31 am