3D 姿态识别进我家，网红小哥 Siraj 带你走进高科技

资源分类

2019-12-26 |

103 |

原标题：使用Python代码训练图像识别详细示例

来源：今日头条链接：

Hi，我们今天的发文仍然没有迟到哦，那么你是不是走在要迟到的路上呢？

今天的内容来自于油管小哥 Siraj，课代表为你划重点啦：

1. DensePose 是一种新的深度学习模型

2. 它可以使用单块 GPU

3. 它可以从视频中为多人建立 3D 模型

4. 没有源代码

事情是这样，Facebook 的 AI 研究团队发布了一项 demo，它可以在视频中标出人体所对应的全部像素点，并且可以克服大量干扰，使用单块 GPU 识别出多人的像素点。

你会问我们为什么要标记人体所对应的像素点？事实上这将是项有海量应用场景的技术。

一般我们会在 3D 电影里面看到各种虚拟角色，比如吴彦祖在电影《魔兽》里演的角色古尔丹。古尔丹的兽人外形全靠电脑制作，而其动作、表情、姿态则需要利用专业设备对演员进行动作捕捉，制作 3D 的运动角色需要耗费大量的精力，也需要昂贵的设备，耗时长、成本高，只有具有充足资金的大规模工作室才有能力追踪真人运动并将此转化成动画。

（这张图并不是吴彦祖····）

你可能会记得我们曾经讲过的深度伪造算法，可以实现人脸部图像的无痕替换修改，这项技术与之类似，不过是应用到整个人体上。我们可以将整个人换成另一个形象，并且保持动作与原图像一致。简单点，就是不需要这些复杂的动作追踪设备就可实现虚拟人物制作。

这项技术其实建立在我们能够对人体进行三维建模的基础上，并且这项操作是实时的，他将根据人体的运动而更新。例如一个舞蹈视频，我们看到一个二维的像素网格，但是我们都知道他是三维物体在二维网格上的展示，我们需要计算机也有这项能力并且能够将此可视化。

在这项技术中，计算机和图片建立了一个对应。即它衡量了图片中的像素点与另一张图片中的像素点的匹配度，这是二维图片和三维图片的匹配。

为了避免图片中有空洞，也就是说为了让关联点之间挨得更近，我们需要建立密集对应，通过物体检测、物体分割和姿态估计建立模型。当然，更简单的方式是我们使用有标签的数据集帮助深度学习变得更简单。但是我们现在没有这种人类图片被标注为三维模型的数据集，因此我们需要人工标注一些三维图片与二维图片之间的关联，给头、脚等部分进行标注。

现在有一个叫做 DenseReg 的网络结构在物体上实现了图像分类和回归的功能。网络需要判断每个像素点是属于背景还是区域，并给出具体的坐标，并使用感兴趣区域池化的方法来生成不同的区域，把特征结果输入提供给不同的区域分支。