在进行采样和 Sigmoid 蒙版处理

作者:湖北诺贝特科技有限公司  来源:www.nbt158.com未知  发布时间:2018-10-25 17:58:36
MIT人工智能算法披露:我们如何用 200 万张图片预 MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。

动态视觉

许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 BillFreeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。

以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。

“逐帧建立场景就像玩 TelephoneGame 一样(TelephoneGame 是什么?传送门:),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”

当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。

研究团队使用称作“adversariallearning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。

通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。

推荐阅读/观看:宜昌网站建设 https://www.18627148925.com



上一篇:国内90%的网民将会用移动网络访问网页
下一篇:最后一页