当前位置:2019年全年资料歇后语 > 取文本 >

找不出破绽!斯坦福等新研究:随意输入文本改变视频人物对白逼真

  并且,改动关键词后人物口型还能对得奇准无比,丝毫看不出篡改的痕迹,就像下面这样:

  苹果今日收盘价91块4,改成82块2你也看不出来。让新垣结衣向你表白,让石原里美大声喊出你的名字,甚至随便根据某个人的视频伪造个人陈述……现在都不在话下。

  手握这项技术,在视频中让你怎么说你就怎么说,让你说什么你就得说什么,谁也看不出来这是假的。

  可能因为技术过于强大真是,研究人员还在项目主页上特意声明,这项技术一旦被滥用会造成可怕的后果,公布技术只是用于向公众科普,还呼吁相关部门建立相关法律……

  改变视频里的关键词,用假信息替换真内容,后果不要太可怕。开头展示的视频就是改动后的效果。

  此外,这项技术还能把磕磕巴巴的演讲/对话等视频,拆开后重新拼接,变成流畅画面。

  结巴的救星、镜头恐惧患者的福音就是它了。研究人员进行了不同维度的测评,发现这项技术的效果在同类产品中领先了不少。

  将此方法与深度视频人像(Deep Video Portraits,DVP)方法输出的人物渲染图像相比,新技术终于看起来不那么诡异了。

  与传统删除视频场景的MorphCut技术对比,MorphCut在第2、3、4帧的场景删除任务中失败了,而新技术可以成功切除:

  与Face2Face的面部改造技术相比,新技术避免了画面中出现的“鬼影”,合成画面也更加高清、稳定。

  这些志愿者去判别“这个视频是不是真实”,如果同意线分,完全确信是假的就给1分,结果显示,这项技术在很多时候,已经让丧失了对视频真假的准确判断。

  自动合成某个人的语音,已经有许多算法可以做到。这里,团队使用了原本视频主角的录音,而在不需要原声的部分,用了Mac自带的语音合成工具。暂不赘述。这项研究最闪亮的部分,是流畅自然的“对口型”。

  这里需要的是非常细致的对齐,精确到音位(Phoneme) 。音位是什么?那是人类语言里能够区分语义的最小声音单位,分成元音和辅音。

  每种音位,又有各自对应的口型。所以在对口型任务里,视频和文本之间的精准对齐很有必要。

  团队用的对齐工具叫P2FA:除了分辨出各种音位,还会把每个音位开始和停止的时间标记出来。

  当然,如果手头数据只有视频没有文本的话,也可以用自动语音转录工具来生成文本,这类应用已经很常见了。

  模型里的各种参数,会在后面的步骤中混合 (Blending) ,发生奇妙的反应:

  这类算法,可以把头部姿势参数化,把脸部几何参数化,还有脸部的反射率、表情,以及场景中的光线,都可以参数化。

  刚才的精细对齐,现在派上用场了。就像上文提到的,每种音位对应了各自的唇形。但不同音位也可以有相似的唇形,可以通用。

  比如,想把蜘蛛 (Spider) 改成狐狸 (Fox) ,原本需要“f”的唇形和“ox”的唇形。

  不过,“v”和“f”从视觉上看并没有太大差别。如果,视频里讲过毒蛇 (Viper) ,只要把“v”的唇形提取出来,和“ox”的唇形拼到一起,也能组成“fox”的动作。

  可四下提取出来的片段,还不能直接拼到一起。有两个重要的问题需要解决:一是,音位视频里提取的音位,可能动作满足要求,但时长就不一定跟新台词吻合了。

  二是,两个需要连在一起的片段,可能在原始视频里相距很远,说话人头部的位置、姿势都会发生变化,直接拼起来就会不连贯了 (下图右) 。

  把头部姿势、面部表情、反射率、场景光线等等参数,都放在一个参数空间里面去混合 (Blend) 。

  之所以叫“背景视频”,是因为在这个步骤里,嘴部动作被提前抠掉了,所以还有下一步。

  最后一步,训练一个循环网络 (RNN) 作为GAN的生成器,加上一个时间空间判别器:让GAN把嘴部动作 (下半张脸) 和背景视频,无缝混合到一起。

  一作Ohad Fried为现在为斯坦福大学的博士后,与印度裔教授Maneesh Agrawala合作,主要研究计算机图形学、计算机视觉和人机交互。

  Fried小哥本科和研究生毕业于希伯来大学,博士去普林斯顿进行深造,随后在谷歌、Adobe等实习过。

  二作Ayush Tewari目前是马克斯·普朗克信息学研究所博士三年级在读,此前有多篇论文被顶会收录,包括一篇ECCV 18、两篇CVPR 18和一篇ICCV 17。

  作者团队中还有一位华裔成员,是来自Adobe的研究科学家ZEYU JIN。

  ZEYU JIN的个人主页显示, ZEYU主要研究方向是语音和音乐合成,视频中用到的音频处理软件Adobe Project VoCo就是ZEYU主导的项目。

  最后,在这个项目的主页地址,里面还有研究人员的专门声明:这个基于文本的视频编辑方法,为更好的电影后期编辑打下了基础。

  原本,电影里的对话要重新定时或者修改,需要繁琐的手动工作。但现在AI可以依靠文本,更好地调整视频里的图像和音频。

  但这种技术,也有被滥用的隐患。行为不良的人可能用这样的方法来来伪造个人陈述,诽谤知名人士。

  所以,视频中要有明显证据表明它是合成的,这一点至关重要。比如在视频里直接陈述,或者加入水印标明这一点。

  并且,技术社区应该继续发开发识别假视频的技术,在减少滥用的同时,为有创造性的合法使用提供空间。

  最后,我们认为有必要进行强有力的公开讨论,建立适当的法规,平衡这类工具的滥用风险与创造力的重要性。

  到底多可怕?不光颠覆一行一业,也对现有的伦理和法律提出新挑战,随便举几例:

  在deepfake刚刚兴起的时候,就有不少人评论称,娱乐行业,靠脸吃饭的流量小生,使用好这项技术,结合换脸AI deepfake和语音合成,真的就能靠脸吃饭。

  现在,利用这一技术篡改的人物口型几乎一般人难辨真假,如果有人借新闻主播之口制造一段假新闻,就可能引起大众的恐慌。

  在安防监控领域,视频里的人说了什么、做了什么,真的就可信吗?这项技术可怖不在于让视频中的人和事“从有变无”,而是有能力“无中生有”。

http://mimaximafm.com/quwenben/198.html
点击次数:??更新时间2019-06-07??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】