x 广告
当前位置: 资讯 > > 正文

训练AI在照片中生成各种姿势和颜色的物体和动物

2023-02-04 16:47:31 来源:互联网

大多数消防车是红色的,但用蓝色画一辆并不难。电脑几乎没有创造力。


(资料图片仅供参考)

他们对世界的理解通常被他们训练的数据所影响。如果他们只看到一张红色消防车的照片,他们将无法画出其他任何东西。

为了给计算机视觉模型一个更完整、更有想象力的世界观,研究人员试图为它们提供更多不同的图像。有些人试图从奇怪的角度和不寻常的位置拍摄物体,以更好地传达他们现实世界的复杂性。其他人要求模型使用称为GAN的人工智能或生成对抗网络来生成自己的图片。这两种情况,目的都是为了填补图像数据集的空白,从而更好地反映三维世界,减少人脸和物体识别模型的偏差。

在国际学习表征会议上的一项新研究中,麻省理工学院的研究人员提出了一项创造力测试,以了解GAN可以细化给定的图像。他们将模型“引导”到照片主体中,并要求它在空间中旋转或在强光下绘制不同颜色的物体和动物的特写。

这个模型是以一种微妙的方式创建的,有时甚至令人惊讶。事实证明,这些变化密切跟踪人类摄影师如何在摄像机前构成场景。这些偏差被烘焙到基础数据集中,本研究中提出的控制方法旨在使这些局限性变得明显。

麻省理工学院的研究科学家阿里贾汉尼安说:“潜在空间是图像的DNA。”“我们已经证明,你可以直接进入这个抽象空间,将你希望GAN展现的特性控制到某个点。我们发现,GAN的创造力受到其学习形象多样性的限制。”贾汉尼安是这项研究的合著者,露西柴参与了这项研究。Phillip Isola,麻省理工学院、Bonnie和Marty (1964)的资深作者和学生,Tenenbaum CD,电子工程和计算机科学助理教授。

研究人员将他们的方法应用于GAN,他们已经在ImageNet的1400万张照片中接受了训练。然后,他们测量了该模型在转化不同种类的动物、物体和场景方面能走多远。他们发现,艺术冒险的程度因GAN试图操纵的主题类型而异。

例如,上升的热气球比旋转的披萨产生更惊人的姿态。当你放大波斯猫而不是罗宾时也是如此。猫离观察者越远,就越融化成一堆皮毛,而鸟几乎保持不变。他们发现这个模型很高兴地把汽车变成了蓝色,把水母变成了红色,但它拒绝把金翅雀或消防车漆成标准颜色以外的任何颜色。

GAN似乎也惊人地适应了一些风景。当研究人员提高山上一组照片的亮度时,模型以一种异想天开的方式冲进了火山,但在阿尔卑斯山没有一个地质上的老休眠亲戚。GAN捕获的GAN似乎会从白天变成黑夜,但似乎可以理解的是,只有火山在夜间变得更亮。

研究人员表示,这项研究提醒人们深度学习模型的输出在多大程度上取决于其数据输入。GAN因其能够从数据中推断并以新颖的方式可视化世界而引起了情报研究人员的关注。

他们可以拍摄头像,并把它们变成文艺复兴时期的肖像或最喜欢的名人。然而,尽管GAN可以自己学习惊人的细节,比如如何将景观划分为云和树,或者生成附着在人们脑海中的图像,但它们仍然主要是数据的奴隶。他们的创作反映了成千上万摄影师的偏见,无论他们选择的拍摄方式还是构图方式。

芬兰Aaalto大学教授、NVIDIA研究科学家Jaako Lehtinen说:“我喜欢这份工作,因为我在看GAN学到的语句,并推动它揭示做出这些决定的原因。”研究。“GAN是不可思议的,可以学习关于物理世界的各种东西,但它们仍然不能像人类一样以物理上有意义的方式表示图像。”

关键词: 研究人员 麻省理工学院 保持不变 人工智能

x 广告
x 广告

Copyright   2015-2022 青年直播网版权所有  备案号:皖ICP备2022009963号-20   联系邮箱:39 60 291 42@qq.com