分享

一只可爱的柯基犬住在寿司做的房子里。雪上系着空手道腰带的火龙果。一个大脑乘坐着火箭飞船驶向月球。这些只是由谷歌的Imagen文本到图像扩散模型生成的人工智能生成的图像中的一小部分,结果非常准确——有时非常幽默。谷歌的研究人员最近公布了这些结果在上个月发表的一篇论文中,他讨论了使用这项最新技术所带来的道德影响。

谷歌的Imagen打败了竞争对手

在他们的研究论文中,谷歌计算机科学家证实,现有的预先训练的大型语言模型在从文本输入创建图像方面表现得相当好。与画像在美国,他们只是增加了语言模型的大小,并发现这导致了更准确的结果。

谷歌画像
Imagen的FID得分远远高于其他文本-图像合成器。研究,大脑团队

相关:当人工智能改变主意时

为了测量结果,Imagen使用了COCO数据集可视化数据集的开源汇编公司和研究人员可以在此基础上训练他们的AI算法进行图像识别。模型会得到一个Frechet Inception Distance (FID)分数,该分数根据数据集的提示计算它们渲染图像的准确性。分数越低表示真实图像和生成图像之间的相似点越多,完美的分数为0.0。谷歌的Imagen扩散模型可以创建1024 × 1024像素的样本图像,FID评分为7.27。

根据研究论文,Imagen在FID得分排行榜上名列前茅,与其他模型相比,包括DALL-E 2VQ-GAN +夹、潜扩散模型。研究结果表明,Imagen也更受人类评分者的青睐。

火龙果戴着空手道腰带谷歌形象
系着空手道腰带的火龙果只是Imagen能够创造的众多图像之一。研究,大脑团队

“对于摄影现实主义,Imagen达到了39.2%的偏爱率,这表明生成的图像质量很高。”谷歌计算机科学家报道.“在没有人的场景中,Imagen的偏好率上升到了43.6%,这表明Imagen生成逼真人物的能力有限。在标题相似度方面,Imagen的得分与原始参考图片相当,这表明Imagen生成的图片与COCO的标题保持一致的能力。”

除了COCO数据集,谷歌团队还创建了他们自己的数据集,他们称之为DrawBench。基准测试由严格的场景组成,测试不同模型基于“合成性、基数性、空间关系、长格式文本、罕见单词和挑战性提示”合成图像的能力,超越了更有限的COCO提示。

坐着火箭飞船去月球
虽然有趣,但这项技术带来了道德和伦理困境。研究,大脑团队

相关:如何使用人工智能更快地编辑你的照片

Imagen和其他人工智能文本到图像软件的道德含义

所有的样本图像都没有人物是有原因的。在他们的结论中,Imagen团队讨论了这项技术潜在的道德反响和社会影响,这并不总是最好的。这个节目已经表现出西方的偏见和观点。虽然承认有无限创造力的潜力,但不幸的是,也有一些人可能会试图使用软件进行伤害。也正是因为这个原因,Imagen无法向公众开放——但这种情况可能会改变。

研究人员写道:“另一方面,生成方法可能被用于恶意目的,包括骚扰和传播错误信息,并引发许多关于社会和文化排斥和偏见的担忧。”“这些考虑使我们决定不发布代码或公开演示。在未来的工作中,我们将探索一个负责任的外部化框架,以平衡外部审计的价值与不受限制的开放获取的风险。”

章鱼拿着报纸谷歌图像
研究人员承认,在Imagen向公众可靠地发布之前,还需要做更多的工作。研究,大脑团队

此外,研究人员指出,由于Imagen训练的可用数据集,该程序显示出偏见。“数据集审计显示,这些数据集往往反映社会刻板印象、压迫性观点,以及对边缘身份群体的贬损或有害的关联。”

虽然这项技术当然很有趣(谁不想在看报纸的时候迅速地画出一个外星章鱼漂浮在传送门的图像呢?),但很明显,在Imagen(和其他程序)向公众负责任地发布之前,还需要更多的工作和研究。有些,比如Dall-E 2部署安全措施,但效果还有待观察。Imagen承认,彻底减轻负面后果是一项艰巨但必要的任务。

“虽然我们在这项工作中没有直接解决这些挑战,但我们意识到训练数据的局限性,因此决定不将Imagen发布给公众使用,”他们最后说。“我们强烈警告,在没有密切关注训练数据集内容的情况下,不要在任何面向用户的工具上使用文本到图像的生成方法。”