分享

罗马尼亚摄影师和艺术家钟表Manea已经使用了一种新的文本到图像的人工智能来创建美丽的、几乎逼真的风景图像。

第一次注意到PetaPixel, Manea使用了稳定性AI稳定扩散这是一个类似于DALL-E 2的文本到图像生成工具,用来制作一系列令人难以置信的风景“照片”。通过使用诸如“风景摄影By。马克·达姆冰川湖,日落,戏剧性的灯光,山,云,美丽”他能够创造出完全虚构的地方的照片。(你还可以看到AI生成的其他逼真的图像稳定扩散Facebook群.)

然而,不像DALL-E 2,稳定性扩散有有限的内容过滤器。这就是为什么它能够创造出如此逼真的场景的部分原因,但它也引发了一些令人不安的担忧。

这些人工智能是如何工作的?

目前流行的大多数文本到图像生成ai,如DALL-E 2,谷歌的Imagen,甚至TikTok AI的参与特性,都基于相同的技术:扩散模型.深层的数学是复杂的,但总的思想是相当简单的。

扩散模型的工作原理是利用与文本描述配对的巨大图像数据库。例如,Stable Diffusion使用了超过50亿的图片-文本对LAOIN-5B数据库.当给出一个提示时,模型从一个随机噪声场开始,并逐渐编辑它,直到它开始与所写的目标相似。初始噪声的随机性质是允许每个模型为相同的提示生成多个结果的部分原因。

换句话说,由这些模型之一创建的图像中的每个像素都是原始的。它们不是复制和粘贴数据库中不同图像的随机部分来生成什么,而是巧妙地塑造随机噪声以类似于目标提示符。这就是为什么如此多的物体经常呈现漩涡状或轻微畸形——甚至是梵高式的。

没有过滤器的问题

大多数文本到图像生成模型要么具有高级内容过滤器(如DALL-E 2),要么仅限于研究人员(如Imagen)。Stable Diffusion最不寻常的地方在于它的内容过滤器相对有限,而Stability AI计划将其提供给普通大众。这引发了几个潜在的问题。

为了防止DALL-E 2被用于生成错误信息,Open AI阻止人们创建真人的图像。稳定扩散没有这样的过滤器。TechCrunch你可以看到巴拉克·奥巴马、鲍里斯·约翰逊(即将成为英国前首相)挥舞各种武器的照片,还有希特勒的画像。虽然它们还不是非常逼真,但技术正在朝着这个方向发展,很快就会被滥用。

另一个问题是偏见。每一个机器学习工具都受其数据集的支配。DALL-E 2有它的问题最近,Meta不得不在其聊天机器人启动后关闭大肆宣扬反犹太主义的选举欺诈阴谋TechCrunch“layin - 400m”数据库是“稳定扩散”使用的数据库的前身,“众所周知,它包含对性的描述、诽谤和有害的刻板印象。”

为了应对这种情况,Stability AI创建了lain - aesthetics数据库,但目前还不清楚它是否真的没有偏见。

这些都是照片吗?

过去在PopPhoto,我们一直在讨论计算摄影如何改变照片的本质.这些生成的图像只是同类研究的另一种结果。这里的问题是:如果有一天人工智能能够生成真实地方的逼真图像——甚至是想象中的地方——那么这对风景摄影意味着什么?

显然我们还不知道,但从现在开始,我们会很开心地讨论和辩论这个问题。

我如何尝试稳定扩散?

如果你想尝试稳定扩散,你可以应用稳定的人工智能的网站.目前,它只对研究人员和测试人员开放。