新智元报导
编纂:拉燕 桃子
【新智元导读】国外小伙不测发现DALL-E新妙用,AI生成女友竟成遁藏晚辈催婚利器!?
自从AI图片生成手艺爆火以后,各路玩家纷繁亲身测验考试。
要不就是用AI做个头像,要不就是生成一些奇思妙想的画做。
但要我说,那些点子和今天的仆人公Dinda比起来,几乎就是何足道哉。
构想翻开一点嘛。
用高科技应付晚辈?
Dinda是YouTube的一名照片编纂,本着近水楼台先得月的原则,他天天就是和图片生成软件打交道。
比来,Dinda遭遇了全世界大龄青年城市面对的问题——来自晚辈的催婚。
然而,Dinda小哥事业未就,怎能思虑儿女情长?可来自晚辈的压力又不克不及不管,那就只剩一条路了——做假骗晚辈。
在以前,做假是一件很费事的事,要找一个知根知底的异性伴侣,约好来个一日情侣。见见家长,把两边都糊弄过往就算完。
但是不能不说,风险挺大的。一个大活人,可不克不及随时都共同着应付来自晚辈的查抄。
Dinda想了一个妙招。假设本身能用DALL-E生成一大堆和女伴侣合拍的照片,时不时给晚辈发过往应付一下,不就行了?
Dinda翻开了DALL-E,用图像修复功用停止操做。该功用容许用户擦除图片上的一部门,然后DALL-E会根据用户输进的文字来填补空缺的部门。
于是,Dinda整了点本身的自摄影,然后把身边的空间擦了一块,留下一个正好能放下本身设想的女伴侣的位置。
接着,他在指令中输进——一个有女伴侣的汉子。
然后,啪。
那还不算完,一般和修图打交道的人都很重视细节。
为了让生成的图像愈加的传神,Dinda还把虚拟女友的脸给裁了下来,导出到一个喊GFP-GAN的人工智能照片编纂法式中。
通过那个法式,Dinda能够停止微调,把那张脸做得更传神。之后再把微调过的图像放到ps里,再修一下,最初放回原始图像。
如许一来,生成的照片就无可挑剔了。
Dinda表达,「就算我告诉他人那张照片是生成的,90%的人也不晓得哪里是动过的。」
与此同时,他还演示了照片编纂人员若何利用同样的手艺在AI的搀扶帮助下把人往掉。
仍是一样的把要往掉的人身上涂抹一下,DALL-E就会生成一个替代布景出来。固然布景很复杂,但是生成出来的图片也还能够。
超凡图像生成东西!
DALL-E事实是什么呢?
我不容许还有人没传闻过DALL·E。事实,如今都出到2代——DALL·E 2了。
那是一款由OpenAI开发的转化器模子,全数的功用就是把「话」酿成「画」。
详细来说,DALL·E是一个有120亿参数版本的GPT-3,被操练成了利用文本生成图像的模子。背后的数据集是文本-图像的对应集。
好比上面那几张图,有戴帽子的狗,做尝试的熊猫,还有长得像星云的狗狗。有没有觉得,哪怕不合常理,但是其实不违和?那就是DALL·E能做到的。说起DALL-E的泉源,其实是研究人员从GPT-3那里得到了启发。GPT-3是个用语言生成语言的东西,而图像GPT则能够用来生成高保实度的图片。
研究人员发现,用文原来操控视觉,是能够做到的。也就是如许,DALL·E成为了一个和GPT-3一样的转化器。
在此根底上,研究人员又起头揣摩同时用文本描述多个物体,生成一张图。那些物体各自的特征、之间的空间位置关系全都交给文字来描述。
例如说,输进文本:一只戴着红帽子、黄手套,穿戴蓝衬衫和绿裤子的刺猬。为了准确生成对应的图片,DALL·E不只要准确理解差别衣服和刺猬之间的关系,还不克不及稠浊差别衣服和颜色的对应关系。
那种使命被称做变量绑定,在文献中有大量的相关研究。
能够说,DALL·E从1代到2代,就是那么一个个小使命走过来的。最末可以闪现的就是一个不错的文本-图像转化器。
T2I事实有多卷?
要说本年最火的AI即是多模态人工智能兴起。
上半年,文本生成图像AI模子(T2I)各家争霸。
除了DALL-E,谷歌自家Imagen、Parti,Meta的文本图像生成东西Make-A-Scene,再到如今大火的Stable Diffusion、谷歌文本3D生成模子DreamFusion都在扩大着文本转图像的利用。
先是4月,在GPT-3大模子的加持下,Open AI对画图界的扛把子DALL-E停止了2.0版的全面晋级。
和上一代比拟,能够说,DALL·E 2几乎就是间接从二次元简笔划走向超高清大图:
辨认率提拔4倍,从256x256提拔到了1024x1024,而且生成图像的准确率也更高!
5月,谷歌不甜落后推出AI创做神器Imagen,效果奇佳。
仅仅给出一个场景的描述,Imagen就能生成高量量、高辨认率的图像,无论那种场景在现实世界中能否符合逻辑。
6月,谷歌再次推出了新一代AI绘画巨匠Parti。
要说Imagen和Parti差别处所,便在于摘取了差别的战略——自回回和扩散。
Parti是一个自回回模子,它的办法起首将一组图像转换为一系列代码条目,然后将给定的文本提醒转换为那些代码条目并「拼成」一个新图像。
7月,Meta公布了自家的AI「画家」——Make-A-Scene,通过文本描述,再加上一张草图,就能生成你想要的样子。
最重要的是,构图上下、摆布、大小、外形等各类元素都由你说了算。
能够看到,DALL-E 2、Imagen等仍然停留在二维创做,无法生成360度无死角的3D模子。
而谷歌发布的文本3D生成模子DreamFusion便开垦了那一新道路。
操练后的模子能够在肆意角度、肆意光照前提、肆意三维情况中基于给定的文本提醒生成模子。
并且整个过程既不需要3D操练数据,也无需修改图像扩散模子,完全依靠预操练扩散模子做为先验。
由此可见,在文本转图像那块,各大厂已经卷上了新高度。
以至有人称,本年文本转视频AI模子暂时还不会到来。
没想到的是,Meta和谷歌再次突破了那一预言。
T2V已来!
9月底,Meta更先公布了文本一键生成视频模子Make-A-Video。
那一模子凶猛到什么水平?
除了能够把文本酿成视频之外,它也能够把静态图酿成Gif、把视频酿成视频。
那一模子发布后,就连图灵奖得主Yann LeCun称,该来的城市来。
好比「马儿饮水」,生成如下效果:
猫奴才拿着远控器在看电视
几乎AI导演上线。
紧接着10月,谷歌仍是文本视频模子两连发。
先是Imagen Video,与Meta的Make-A-Video比拟最凸起一个特征就是「高清」。
它能生成1280*768辨认率、每秒24帧的视频片段。
与此同时,还有Phenaki模子,让骑马的宇航员也动了起来。
那一模子能根据200个词摆布的提醒语生成2分钟以上的长镜头,讲述一个完全的故事。
在文本转视频上,下一个谁会接棒?
参考材料:
/