说(shuō)到神经网(wǎng)络,你第一个想到的什么,有(yǒu)不少人(rén)第一个想到的应(yīng)该是前段时间大火(huǒ)的换脸 APP 「 ZAO 」,神经(jīng)网络(luò)在图片领域堪称「魔法」的应(yīng)用(yòng)第一次(cì)展现在(zài)每一个普通用户面前。
不少用户在使(shǐ)用过 ZAO 后,对神经网络产生了「技术恐惧」,担心 ZAO 会(huì)对自己(jǐ)的(de)肖像权产生(shēng)侵害(hài),ZAO 也因(yīn)为种种原因(yīn)迅速(sù)下架,成为技术应(yīng)用(yòng)的「负面典型」。
但神经网络还有另一种(zhǒng)用法,那就是对(duì)图像进行增(zēng)强。

神经网络翻新(xīn)老(lǎo)电(diàn)影
最近,国外一个 YouTuber 发布了通过神经网络(luò)增(zēng)强的 1895 年拍摄的纪录片《火车(chē)进站》,整部电影只有 45 秒长度,由路易 · 卢米埃和奥古斯特 · 卢米埃拍摄于法(fǎ)国(guó)一沿海城(chéng)市。
▲ 经过(guò)神经(jīng)网络增强的《火车(chē)进(jìn)站》电影
传说放(fàng)映(yìng)到火(huǒ)车驶向镜头的时候,大量观众惊恐的从剧院跑出,展现(xiàn)了当时人们对(duì)新技术的好奇和恐惧。当然(rán),这些往事都已经成为了都市传说。
不(bú)过(guò)由(yóu)「新技(jì)术」的神经(jīng)网络(luò)对这部(bù)电影进(jìn)行翻(fān)新(xīn),也(yě)有着深远(yuǎn)的意义。
1895 年(nián)拍摄的《火车进站(zhàn)》采用 35mm 格(gé)式(shì)胶片(piàn)制作,由(yóu)于(yú)当(dāng)时的放映机(jī)由手摇进行驱动,我们(men)可以粗(cū)略的认为其原始帧率在 16 帧到(dào) 24 帧之(zhī)间。
▲ 1895 年拍(pāi)摄的《火(huǒ)车进站(zhàn)》原片
由于当(dāng)时的胶片技术(shù)尚未成熟,我(wǒ)们可以看到画面(miàn)景物都(dōu)是比较模糊(hú)的,火车在驶来的同时还带有明显的(de)拖影。

是什么让神经网络(luò)在图像增强和插帧上有着这样的效果呢?
我(wǒ)们知道(dào),数字视频(pín)的清(qīng)晰度一般由分辨(biàn)率和帧率决定(暂且不考虑影响图像(xiàng)压缩质量的码率(lǜ))。神经网络(luò)对视频的增强,也主要集中在这两种参数上。
分辨率增(zēng)强
首先我们来谈(tán)谈分辨(biàn)率(lǜ)增强,想(xiǎng)要(yào)将一张低分辨率的图(tú)片变成(chéng)高分辨(biàn)率(lǜ)的图片,我们就需要猜测放大产生的(de)未(wèi)知像素。通常情况下,我们会采用某种(zhǒng)插值算法进行计算(suàn),在图像边缘(yuán)的(de)模糊(hú)和锯齿(chǐ)间获得平衡,这种计算通常无法(fǎ)增加图像细节,即使放(fàng)大了图像,依(yī)旧显得很模(mó)糊。

神(shén)经网络在增(zēng)强分辨率上就有着独到的优势,或(huò)许(xǔ)你之前曾经听说过一个(gè)软件 waifu2x ,动漫爱好者们经常用它来放大动漫插图。当然,它同样(yàng)可以用作照片放大(dà)。
waifu2x 的核心方(fāng)法就(jiù)是通过机器学习,训练一个(gè)端到(dào)端(duān)的网络(luò),使用低分辨率(lǜ)的图(tú)像作(zuò)为输(shū)入得到对应的(de)高分辨率结果图像,最(zuì)后得到的(de)结(jié)果在图(tú)像的(de)锯齿与模糊程度有较好(hǎo)表(biǎo)现,其(qí)训练(liàn)的原(yuán)理类似(sì)于 FCN 模型。

在效(xiào)果上,waifu2x 的 SRCNN (超分辨率卷积神(shén)经网络)要好于(yú)传统的双(shuāng)三次插值算法。
当然,waifu2x 的算法仅能在静态图片上使用。不(bú)过方法都是(shì)相同的,madvr 中(zhōng)放大(dà)视频分辨率的(de) ngu 算法也是类似的(de)原理。
视频插帧
对于视频插帧来说,神经网络也有自己的用(yòng)武之(zhī)地,之(zhī)前英伟达发布了一个叫做 Super SloMo 的神(shén)经网络,能通过(guò)联合建模的运动解释(shì)和(hé)遮挡推理配合光流算法生成中(zhōng)间帧。


写在最后:技术是一把双刃剑
可以看(kàn)到,神经网络对图像的处理(也就是常说的 AI 图像)并不是一个很(hěn)可怕技术(shù),它(tā)是一把(bǎ)双刃剑,如果你(nǐ)用它(tā)来给视频换脸,侵犯他人肖像权,它(tā)就是不好的技术。
但如果(guǒ)我们能(néng)将其(qí)用(yòng)在老(lǎo)电影翻新、手机超级慢动(dòng)作、和实时视频增强,那(nà)它就是好技术。
或许(xǔ)那位翻新《火车进站(zhàn)》的 YouTuber,也正(zhèng)是(shì)想用这部电影的传奇(qí)故事告诉(sù)我们,「不(bú)要恐惧新技术的到来(lái)。」