姿势估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体姿势或运动。它涉及检测人体的关键点,如头、肩、臂、腿等,并确定它们之间的关系,以推断人体的姿势或运动。
姿态估计因其在各个领域的广泛应用而引起了研究人员的兴趣。
喜欢:
运动训练分析:精准的人体姿势追踪,可评估运动员动作的准确性,帮助教练进行个性化指导。人机交互:姿势估计使计算机能够解释和响应人类手势,从而实现人与机器之间更直观、更自然的交互。虚拟现实和游戏:利用姿势估计技术实现更真实的交互体验。玩家的动作可以直接映射到虚拟角色上,增强游戏的沉浸感和互动性。 ……此外,由于人类与四足动物的身体结构相似,不难引发研究人员认为基于人体姿态估计的预训练模型可能会对大规模的训练效果产生积极影响动物姿势数据集。关于便利化的猜想。
准确的动物姿势估计对于了解动物行为至关重要,特别是对于野生动物保护。因此,一些人体姿态估计模型已扩展为兼容动物姿态估计功能,为科学家提供更多工具和技术支持,帮助监测、研究和保护野生动物的生态环境。
本文分享了一些用于姿势估计的开源模型和数据集,涵盖人类姿势和动物姿势。希望这些资源能够帮助研究人员推动这两项技术的联合发展并实现全面开花。
OpenPoseOpenPose是第一个实时多人人体姿态估计系统。主要检测实时场景下多人的手、脸、脚等人体关键点(共135个关键点)。
项目链接:https://github.com/CMU-Perceptual-Computing-Lab/openpose 论文链接:https://arxiv.org/pdf/1611.08050 更多介绍:https://github.com/TommyZihao/Zihao-Blog/blob/master/Github%E5%BC% 80 %E6%BA%90%E4%BA%BA%E4%BD%93%E5%A7%BF%E6%80%81%E8%AF%86%E5%88%AB%E9%A1%B9%E7 %9B%AEOpenPose%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3.md
MMPoseMMPose 是一个基于PyTorch 的开源姿势分析工具箱,支持21 种算法、34 个数据集和14 个主流主干网。在最新更新版本中,新增支持的数据集ExLPose和H3WB,并发布了单阶段实时多人姿态估计模型RTMO。与RTMPose相比,它在多人场景下有更好的表现。
项目链接:https://github.com/open-mmlab/mmpose
DensePoseDeepPose 是开创性的基于深度学习的姿态估计方法之一。它引入了使用卷积神经网络(CNN)直接从输入图像中回归人体关节位置,从而实现实时且高度准确的人体姿势估计。
项目链接:http://densepose.org/论文链接:https://arxiv.org/abs/1802.00434
AlphaPoseAlphaPose,一个能够实时准确估计和跟踪全身姿势的系统。无论您是检测购物街中的多人、快闪族还是街头表演者,您都可以借助此模型来完成。
AlphaPose 也是第一个在COCO 数据集上实现70+ mAP(75 mAP)、在MPII 数据集上实现80+ mAP(82.1 mAP)的开源系统。
项目链接:https://github.com/MVIG-SJTU/AlphaPose 论文链接:https://arxiv.org/abs/2211.03375
YOLOv8 提到YOLO模型,首先想到的是目标检测。 YOLOv8最新更新版本增加了姿势估计功能,并发布了YOLOv8n-pose、YOLOv8s-pose.YOLOv8x-pose-p6等共6个模型。模型,A100上的推理速度为1.18ms到10.04ms,模型参数为3.3M到99.1M。
项目链接:https://docs.ultralytics.com/tasks/pose/
Human-ArtHuman-Art是首个大规模全场景人体数据集,由IDEA研究院从5个真实场景和15个虚拟场景采集的5万张高质量图像组成。
支持多种以人为中心的下游视觉任务:人体检测、2D人体姿态估计、3D人体姿态估计和图像生成。
论文收录于CVPR 2023。
项目链接:https://github.com/IDEA-Research/HumanArt 论文链接:https://arxiv.org/abs/2303.02760 更多介绍:https://www.idea.edu.cn/news/5773.html
UBody 数据集UBody 由超过1051k 帧的视频组成,这些视频收集自15 个现实生活场景,包括音乐、会议、娱乐、健身、采访、LiveVlog、MagicShow、电影、奥林匹克、在线课堂、手语、唱歌、演讲、电视节目和脱口秀。包含以下注释的大型上半身数据集:
2D全身关键点3D SMPLX标签框有效性标签人体边界框和手部边界框数据下载需要填写相关信息申请,论文被CVPR 2023收录。
项目链接:https://osx-ubody.github.io/论文链接:http://arxiv.org/abs/2303.16160
MacaquePoseMacaquePose 是一个动物姿势数据集,由从互联网、动物园和京都大学灵长类研究所收集的13,083 幅猕猴图像组成。
每张图像中每只猴子的身体部位(关键点)均经过人工标注,包括鼻子、左右耳、眼睛、肩膀、肘部、手腕、臀部、膝盖和脚踝,总共17 个关键点。
项目链接:https://www.pri.kyoto-u.ac.jp/datasets/macaquepose/index.html
AP-10KAP-10K 是第一个大规模哺乳动物姿势数据集,包含10,015 张标记有姿势信息和高质量关键点注释的哺乳动物图像。此外,从生物学的角度来看,这些图像被分为23科和54个物种。
项目链接:https://github.com/AlexTheBad/AP-10K 论文链接:https://openreview.net/forum?id=rH8yliN6C83
17个关键点的定义
动物种类分布
Human3.6MHuman3.6M数据集是3D人体姿势识别数据集,由4个校准后的相机捕获。标注了3D人体24个部位的位置和关节角度。该数据集共包含360万张3D人体姿势图像,涉及11名专业演员(6男5女),涵盖17个不同场景,如讨论、吸烟、拍照、打电话等。
项目链接:http://vision.imar.ro/human3.6m/description.php 资料下载:https://drive.google.com/drive/folders/112GPdRC9IEcwcJRyrLJeYw9_YV4wLdKC
无论是人体姿态估计还是动物姿态估计的研究,都需要大量计算资源的支持。作为领先的算力服务商,特伦东云能够凭借其高性能计算资源快速处理海量数据,为开发者提供强有力的支持,让他们在姿态估计领域一帆风顺!
趋势云是为企业、科研机构和个人人工智能开发者打造的开发和推理培训服务。这也是全球首个基于GPU算力池化的云服务。 Trendong Cloud的使命是连接算力、连接人:通过连接全球算力,Trendong Cloud可以为用户提供廉价且易于使用的AI算力。通过为AI算法开发全流程提供优化服务,构建全球开发者项目和数据社区,趋势云可以帮助AI开发者接入丰富的生态系统并快速落地最佳实践。
天动云