收拾 | 夕颜
出品 | CSDN(ID:CSDNnews)
昨日,一条“100 年前北京晚清的印象”喜提热搜,博主用 AI 技能修正了一段 10 多分钟的古玩视频,使得 100 多年前老旧的是非印象变得更明晰,甚至有了色彩。
AI 复原100 年前晚清印象
这段时长 10 多分钟视频运用了 AI 修正技能,谈论中有人表明,隔着屏幕与画面中的人物对视,恍然间有种时空交织的感觉,很奇特。对着这段视频仔细观察的笔者,其实也产生了这种模糊的感觉。
除了被修正的宝贵影视资料自身,笔者愈加关怀的是修正印象背面运用的奇特 AI 修正技能。
在微博 Up 主的案牍标明,修正印象的技能管线参阅自开发人员,一起是一名 YouTuber 的 Denis Shiryae 上传的印象修正教程。
循着这个头绪,笔者发现本来这位大神早就在 YouTube 上发布过一些关于 AI 修正印象的视频。比方这段用神经网络对 1906 年大地震前的旧金山印象进行修正的视频,解说中提到,他只做了一套神经网络作业流来做视频的修正与像素倍增,其间用到了DAIN 进行帧内插,ESRGAN 在自定义数据集上进行帧晋级,然后用 DeOdify 来做视频上色,这些算法都是揭露的,感兴趣的话都能够查找软件,然后搞作业。
别的,Denis修正的一部 1896 年的是非短片The Arrival of a Train at Station项目也非常风趣,相同也是运用揭露的 AI 技能将其转化成了 4k 高清视频,而且能够以每秒 60 帧进行播映。成果虽然不完美,但相同让人冷艳。
能够正常的看到,修正的成果并不非常完美。整个画面和动态中都存在一些特征性的“滑润”和古怪的伪像,这都是在许多插帧时会呈现的典型现象。可是关于大多数人(在大多数设备上)来说,这种作用仍是像戏法相同奇特,修正后的画面中,人们的衣服和火车的细节明晰可见,画面流通同步,可视间隔变长。
有意思的是,这部电影上映时,由于人们从未见过一辆火车径自冲着观众冲过来的动态镜头,许多观众一度受惊被吓得跑出电影院,这部短片也被称为“电影的奠基神话”,流传为一段美谈。
Google 的 DAIN
和 Topaz Labs的 Gigapixel AI
言归正传,为了完成高清修正,Shiryaev 运用了两种神经网络:Google 的 DAIN(深度感知视频帧插值,Depth-Aware Video frame Interpolation)和 Topaz Labs的 Gigapixel AI。其间,Gigapixel AI 用于将弱小分辨率的视频一向扩展到 4K,而 DAIN 用于创建和刺进之前不存在的帧,从而将视频的 FPS 增加到 60。
首要来看Gigapixel AI,跟着图片扩大,它能够对图片进行细节填充。具体的完成方法,是通过剖析按份额缩小的许多图画,了解丢掉的信息。通过练习,当图片扩大时,Gigapixel AI 能够主动补偿图画丢失的细节,让画质作用更佳。
这项技能也被打包放进了 Topaz Gigapixel AI 软件中,运用软件就能够对图画“无损”扩大,亲测作用还不错。
第二个算法是由 Google 工程师团队和一些研究员开发的插帧算法 DAIN增加的。
DAIN 也像 Gigapixel AI 相同能够填充细节,但却是刺进整个图片而不是单个像素,从而将帧速率进步到每秒 60 帧。
当然,AI 运用现有的许多视频作为练习资料,通过评价前后帧以及镜头中的不同深度水平,以找出缺失的信息。
上图为 DAIN 的架构图,作业原理大致为给定两个时间的输入帧,先估量光流和深度图,然后运用主张的深度感知流投影层生成中心流。
然后,模型根据光流和部分插值内核对输入帧、深度图和上下文特征进行歪曲,组成输出帧。
这种模型紧凑、高效且彻底可微分。定量和定性的成果表明,DAIN 在各种数据集上均优于最新的帧插值方法。
DAIN 现已在 GitHub 上开源,感兴趣的同学能够具体研究一下:
https://github.com/baowenbo/DAIN
有一点需求阐明,咱们在此修正中看到的一切额定细节或许实际上并不是镜头中的实在内容,而是算法在通过许多相似相片和视频库中练习给出的最接近本相的猜测。
原版短片是由 Lumière brothers 拍照的,摄像机运用了 35mm 胶卷(这种胶卷还可当作投影仪运用)。
别的还应该指出的是,和线上那些低分辨率的盗版电影比较,Shiryaev 运用的原始视频质量相对较高,这或许要归功于从前的修正技能。
不幸的是,源视频并没有供给任何有关制造方法的具体信息,但好像现已用某种方法来进行了数字化增强。
不管原版影片是否通过处理,修正后的新版本的分辨率和流通度都有了显着的进步,这就够了,由于这为咱们用 AI 引擎构建虚拟现实供给了许多创意。
虽然人们对 Deepfake 的相片和视频担忧重重,这门能够虚拟从未存在场景的技能常常由于负面新闻呈现在头条,可是相似的修正图画技能能够复原前史,带给人们的价值,显示出神经网络的积极作用。
总归,任何好用的技能本质上都是一把双刃剑,不能因噎废食,为了更好地运用这把利器,更多地需求从法令和法规等途径进行束缚,发明更好的环境,是不是这个理儿?