2017-07-24

耳听为虚,眼见为实。现在,科技早已颠覆这一说法。实实在在的视频摆在那里,也可能是一个“假视频”。

美国华盛顿大学的一项新研究表明,基于现有公开的 Obama 音频和视频片段,人工智能(AI)软件可生成了高度逼真的假视频。

论文地址:

http://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

在数据等多个领域能够做到“正直”的人工智能,也开始学会造假了。

AI造假1.0:“照骗”

今年3月,牛津大学的研究人员开发了一种AI系统,可以把静态的图片变成动态的视频,甚至可以让图片里的人开口说话。他们使用一个人的图片和音频片段,来创建这段视频。

论文地址:

https://arxiv.org/abs/1705.02966

在这个系统中,研究人员使用图片识别,来确认人物的面孔。然后,AI系统操纵静态图片中人的口型,使其让真实人物一样说话。

该系统适用于前所未有的面孔和音频,也就是说,这些面孔即使没有作为训练数据出现的话,也可以使用这个系统,合成”假视频”的效果。

人工智能专家Alex Champandard表示,虽然这些系统目前专注于改变口型,但在未来将可以改变面部表情和姿势。他还表示,人们很快将无法分清哪些视频是伪造的,哪些是真实的。

另外,由于人工智能工具让这个过程变得快速、简单,制作的门槛也就大大降低了,最后任何人都可以作出这样的视频。

AI造假2.0:“视频骗”

此前,华盛顿大学的计算机科学家曾表示,通过分析从网上搜集的人物影像,无论是诸如施瓦辛格的名人,还是小布什/奥巴马这样的公众人物,都可生成和他们极其相似的数字模型。

这项技术由华盛顿大学SUPASORN SUWAJANAKORN等三人共同发明,他们坦言,之所以选用奥巴马做研究范例,是因为他的高清视频资源获取非常容易,并且不受版权限制。

研究团队用神经网络程序分析了视频中的数百万帧影像,以确定奥巴马脸部的变化,比如:嘴唇、牙齿、嘴角以及下巴周边的皱纹。神经网络程序学习了口型和各种声音之间的联系。

研究人员采集了音频片段(原始音频文件),再把口型和新的音频文件剪辑匹配,再嫁接到新视频。

研究小组表示,他们并没有塑造人物情绪,所以合成的新视频并不完美,有时本该随意的氛围,奥巴马表情显得过于严肃。不过他们也会尝试,神经网络学习从音频文件中预测人物情绪,从而产生相应的视觉效果。

信任危机

今年早些时候,法国音乐家弗朗索瓦丝·哈迪出现在一段YouTube视频中。画面之外的拍摄者问她,为什么特朗普总统要指使他的新闻发言人肖恩·斯派塞,在总统就职典礼的观礼人数问题上说谎。斯派塞只是给出了“另一种事实”。整个视频看上去有些奇怪,特别是因为现年73岁的弗朗索瓦丝·哈迪看上去只有20岁,而且她的嗓音实际上来自于特朗普的顾问凯莉娅妮.康威(Kellyanne Conway)。

这段视频名为“替代面孔1.1版本”,由德国艺术家马里奥·基林格曼尼(Mario Klingemann)创作。但是,这段视频并不是基林格曼尼使用编辑软件反复调整后得来的,而是在一台台式电脑上使用生成式对抗网络(GAN),花了几天时间就制作完成了。

-自从伊恩·古德费洛(Ian Goodfellow) 在14年发表了论文 Generative Adversarial Nets 以来,生成式对抗网络 GAN 广受关注,加上学界大牛Yann Lecun 在 Quora 答题时曾说,他最激动的深度学习进展是生成式对抗网络,使得 GAN 成为近年来在机器学习领域的新宠。

-GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。

-生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率,否则,D 输出小概率。可以做如下类比:生成网络 G 好比假币制造团伙,专门制造假币,判别网络 D 好比警察,专门检测使用的货币是真币还是假币,G 的目标是想方设法生成和真币一样的货币,使得 D 判别不出来,D 的目标是想方设法检测出来 G 生成的假币。

如图所示:

基林格曼尼的实验预示着真实和谎言之间又开辟出了一个新型战场。近年来,由于所谓的“假新闻”的传播,文字信息的可信度正在受到冲击。但图像和声音记录依然在很大程度上保持了固有的可信度。然而,现在以GAN为代表的机器学习技术正在不断动摇着这个可靠性。

不同的造假“成本”

一、音频比较容易伪造

通常,电脑通过连接许多预先录制好的短小音频片段创造句子,合成语音。苹果的电子助手Siri的语音就是这样产生的。但是,像这样的电子语音却受限于预先储存的语音片段的范围。只有在表达某些特定范围内的短语的时候,才会听起来非常逼真。

生成式语音却与此不同。通过使用神经网络,获取待模拟音源的数据特质,接着就可以通过任何语言内容直接重构这些特质。这种技术不是以秒,而是以毫秒级为单位,模拟说话方式的转变。想让特朗普或者任何其他公众人物说出给定内容,只要把他的演讲录音导入语音计算软件,并告诉这个已经训练的软件你想让这个人说出的话即可。

过去几年,DeepMind、百度深度学习研究院、蒙特利尔学习算法研究所 (MILA),都按照这样的方式,发布了自己高度还原的文本—语音转换程序。

二、生成图像则难得多

“生成式对抗网络”(GAN )的机器学习方式是伊恩·古德费洛Ian Goodfellow在2014年提出的,当时他是在深度学习之父约书亚·本吉奥Yoshua Bengio手下读博的学生。

伊恩·古德费洛Ian Goodfellow

古德费洛发现虽然深度学习能让机器很好地辨别各种类型的数据——例如区分一张猫照片和一张狗照片。但让软件按照这个去生成猫或者狗的照片,则根本一塌糊涂。对电脑来说就算从数据库里学习了大量的训练图片,要生成一张有意义的照片也是困难重重。

于是古德费洛采用了另外一个类似的概念博弈。他不再尝试让计算机一蹴而就,直接生成什么有用的东西,而是用另一个agent——一个对抗者,对生成器的输出进行评判,按照和训练数据集中已有的真实照片的相似度,给出具体的评分来自数据集还是来自生成器的判断。生成器根据辨别器的反馈,不断进行修正逐步生成越来越像真实的图像。

谈未来:颠覆与警惕

古德费洛现在就职于 Google BrainGoogle 内部的人工智能研究部门。他预测在三年内,可能就会出现几乎可以以假乱真的 AI 生成视频。也许其他专家预期的时间会比他的长,但业内基本认为这只是一个时间问题。

“我们认为人工智能将永远改变我们对于哪些证据是可以信任的看法” 古德费洛表示。

对于飞速发展的人工智能技术,在7月15日出席全美州长会议时,特斯拉CEO马斯克又重新强调了人工智能“是人类文明面临的最大威胁”,并呼吁政府迅速而坚决地进行干预,监督这项技术的发展。

马斯克所最担心的,就是前文提到的这类技术,人工智能被拿来伤害人类。“它们可以散布假新闻,利用假的电子邮件账号发布虚假新闻稿,从而挑起战争。”他说,“笔比刀更厉害。”除此之外,他还担心人工智能可能造成的失业与社会隐患。

“机器人可以做任何东西,无一例外。”

作者:聪聪 来源:乌镇智库

 

猜你喜欢

分享至手机

扫码关注FMCI