张宇《基于深度学习的二维人体姿态估计》
人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务,人体姿态估计对于描述人体姿态、描述人体行为等至关重要,是行为识别、行为检测等计算机视觉任务的基础.近年来,随着深度学习的发展,基于深度学习的人体姿态估计算法展现出了极其优异的效果.从单人人体姿态估计、自顶向下的多人人体姿态估计和自底向上的多人人体姿态估计这3种主流的人体姿态估计方式,介绍近年来基于深度学习的二维人体姿态估计算法的发展,并讨论目前二维人体姿态估计所面临的困难和挑战.最后,对人体姿态估计未来的发展做出展望.
人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务, 人体姿态估计对于描述人体姿态、人体行为等至关重要. 有许多计算机视觉任务都是以人体姿态估计任务作为基础的, 包括行为识别、行为检测等等[1?3]. 近些年, 随着深度学习技术的发展, 尤其是随着卷积神经网络算法的提出, 我们可以通过神经网络强大的拟合能力和特征提取能力[4, 5]建立一种隐式的人体姿态估计模型, 大大降低了人体姿态估计的门槛, 同时也提高了人体姿态估计的准确率, 这也使得人体姿态估计得到快速的发展.
基于深度的人体姿态估计模型发迹于2014年, Google提出了DeepPose[6], 首次利用深度神经网络进行了人体姿态估计; 同年也发布了目前最为常用的基准数据集: MPII数据集[7]和MS-COCO数据集[8]. 之后, 基于深度学习的人体姿态估计方法就开始了快速的发展, 有关姿态估计的研究成果如雨后春笋般, 不断在各大国际会议和期刊上发表.
论文对近年来人体姿态估计的研究做一个归纳和总结, 为相关领域的研究者提供参考. 本文第1节概述二维人体姿态估计的研究现状. 从单人人体姿态估计、自顶向下(top-down)的多人人体姿态估计和自底向上(bottom-up)的多人人体姿态估计这3种主流的人体姿态估计方式来介绍近年来主流的基于深度学习的二维人体姿态估计方法. 给出目前主流方法的实验结果并进行对比分析. 讨论目前二维人体姿态估计领域所面临的困难和挑战, 并对未来的研究方向给出建议.