亲戚逼相亲？美国小哥生成了一个AI女友躲避催婚

9小时前 (13:03:43)阅读1回复0

wsygfsj

管理员
注册排名5
经验值51515
级别管理员
主题10303
回复0

楼主

新智元报导

编纂：拉燕桃子

【新智元导读】国外小伙不测发现DALL-E新妙用，AI生成女友竟成遁藏晚辈催婚利器！？

自从AI图片生成手艺爆火以后，各路玩家纷繁亲身测验考试。

要不就是用AI做个头像，要不就是生成一些奇思妙想的画做。

但要我说，那些点子和今天的仆人公Dinda比起来，几乎就是何足道哉。

构想翻开一点嘛。

用高科技应付晚辈？

Dinda是YouTube的一名照片编纂，本着近水楼台先得月的原则，他天天就是和图片生成软件打交道。

比来，Dinda遭遇了全世界大龄青年城市面对的问题——来自晚辈的催婚。

然而，Dinda小哥事业未就，怎能思虑儿女情长？可来自晚辈的压力又不克不及不管，那就只剩一条路了——做假骗晚辈。

在以前，做假是一件很费事的事，要找一个知根知底的异性伴侣，约好来个一日情侣。见见家长，把两边都糊弄过往就算完。

但是不能不说，风险挺大的。一个大活人，可不克不及随时都共同着应付来自晚辈的查抄。

Dinda想了一个妙招。假设本身能用DALL-E生成一大堆和女伴侣合拍的照片，时不时给晚辈发过往应付一下，不就行了？

Dinda翻开了DALL-E，用图像修复功用停止操做。该功用容许用户擦除图片上的一部门，然后DALL-E会根据用户输进的文字来填补空缺的部门。

于是，Dinda整了点本身的自摄影，然后把身边的空间擦了一块，留下一个正好能放下本身设想的女伴侣的位置。

接着，他在指令中输进——一个有女伴侣的汉子。

然后，啪。

那还不算完，一般和修图打交道的人都很重视细节。

为了让生成的图像愈加的传神，Dinda还把虚拟女友的脸给裁了下来，导出到一个喊GFP-GAN的人工智能照片编纂法式中。

通过那个法式，Dinda能够停止微调，把那张脸做得更传神。之后再把微调过的图像放到ps里，再修一下，最初放回原始图像。

如许一来，生成的照片就无可挑剔了。

Dinda表达，「就算我告诉他人那张照片是生成的，90%的人也不晓得哪里是动过的。」

与此同时，他还演示了照片编纂人员若何利用同样的手艺在AI的搀扶帮助下把人往掉。

仍是一样的把要往掉的人身上涂抹一下，DALL-E就会生成一个替代布景出来。固然布景很复杂，但是生成出来的图片也还能够。

超凡图像生成东西！

DALL-E事实是什么呢？

我不容许还有人没传闻过DALL·E。事实，如今都出到2代——DALL·E 2了。

那是一款由OpenAI开发的转化器模子，全数的功用就是把「话」酿成「画」。

详细来说，DALL·E是一个有120亿参数版本的GPT-3，被操练成了利用文本生成图像的模子。背后的数据集是文本-图像的对应集。

好比上面那几张图，有戴帽子的狗，做尝试的熊猫，还有长得像星云的狗狗。有没有觉得，哪怕不合常理，但是其实不违和？那就是DALL·E能做到的。说起DALL-E的泉源，其实是研究人员从GPT-3那里得到了启发。GPT-3是个用语言生成语言的东西，而图像GPT则能够用来生成高保实度的图片。

研究人员发现，用文原来操控视觉，是能够做到的。也就是如许，DALL·E成为了一个和GPT-3一样的转化器。

在此根底上，研究人员又起头揣摩同时用文本描述多个物体，生成一张图。那些物体各自的特征、之间的空间位置关系全都交给文字来描述。

例如说，输进文本：一只戴着红帽子、黄手套，穿戴蓝衬衫和绿裤子的刺猬。为了准确生成对应的图片，DALL·E不只要准确理解差别衣服和刺猬之间的关系，还不克不及稠浊差别衣服和颜色的对应关系。

那种使命被称做变量绑定，在文献中有大量的相关研究。

能够说，DALL·E从1代到2代，就是那么一个个小使命走过来的。最末可以闪现的就是一个不错的文本-图像转化器。

T2I事实有多卷？

要说本年最火的AI即是多模态人工智能兴起。

上半年，文本生成图像AI模子（T2I）各家争霸。

除了DALL-E，谷歌自家Imagen、Parti，Meta的文本图像生成东西Make-A-Scene，再到如今大火的Stable Diffusion、谷歌文本3D生成模子DreamFusion都在扩大着文本转图像的利用。

先是4月，在GPT-3大模子的加持下，Open AI对画图界的扛把子DALL-E停止了2.0版的全面晋级。

和上一代比拟，能够说，DALL·E 2几乎就是间接从二次元简笔划走向超高清大图：

辨认率提拔4倍，从256x256提拔到了1024x1024，而且生成图像的准确率也更高！

5月，谷歌不甜落后推出AI创做神器Imagen，效果奇佳。

仅仅给出一个场景的描述，Imagen就能生成高量量、高辨认率的图像，无论那种场景在现实世界中能否符合逻辑。

6月，谷歌再次推出了新一代AI绘画巨匠Parti。

要说Imagen和Parti差别处所，便在于摘取了差别的战略——自回回和扩散。

Parti是一个自回回模子，它的办法起首将一组图像转换为一系列代码条目，然后将给定的文本提醒转换为那些代码条目并「拼成」一个新图像。

7月，Meta公布了自家的AI「画家」——Make-A-Scene，通过文本描述，再加上一张草图，就能生成你想要的样子。

最重要的是，构图上下、摆布、大小、外形等各类元素都由你说了算。

能够看到，DALL-E 2、Imagen等仍然停留在二维创做，无法生成360度无死角的3D模子。

而谷歌发布的文本3D生成模子DreamFusion便开垦了那一新道路。

操练后的模子能够在肆意角度、肆意光照前提、肆意三维情况中基于给定的文本提醒生成模子。

并且整个过程既不需要3D操练数据，也无需修改图像扩散模子，完全依靠预操练扩散模子做为先验。

由此可见，在文本转图像那块，各大厂已经卷上了新高度。

以至有人称，本年文本转视频AI模子暂时还不会到来。

没想到的是，Meta和谷歌再次突破了那一预言。

T2V已来！

9月底，Meta更先公布了文本一键生成视频模子Make-A-Video。

那一模子凶猛到什么水平？

除了能够把文本酿成视频之外，它也能够把静态图酿成Gif、把视频酿成视频。

那一模子发布后，就连图灵奖得主Yann LeCun称，该来的城市来。

好比「马儿饮水」，生成如下效果：

猫奴才拿着远控器在看电视

几乎AI导演上线。

紧接着10月，谷歌仍是文本视频模子两连发。

先是Imagen Video，与Meta的Make-A-Video比拟最凸起一个特征就是「高清」。

它能生成1280*768辨认率、每秒24帧的视频片段。

与此同时，还有Phenaki模子，让骑马的宇航员也动了起来。

那一模子能根据200个词摆布的提醒语生成2分钟以上的长镜头，讲述一个完全的故事。

在文本转视频上，下一个谁会接棒？

参考材料：

剑灵人女捏脸数据图

回帖 脸部僵硬，下巴歪斜，这8位老年“整容脸”明星，笑比哭还难看 帅成了建模脸，这才是霸总帅哥的顶级颜值吧？

亲戚逼相亲？美国小哥生成了一个AI女友躲避催婚期待您的回复！

取消

本站会员尊享VIP特权，现在就加入我们吧！登录注册

登录: 用户名; 密码; 验证码; 7天内自动登录
注册; 若未跳转，可点击这里刷新重试; 未知错误

注册: 用户名; 密码(至少8位); 确认密码; 邮箱(请填写常用邮箱); 验证码; 已读并同意《用户注册协议》
重填登录; 若未跳转，可点击这里刷新重试; 未知错误

亲戚逼相亲？美国小哥生成了一个AI女友躲避催婚

亲戚逼相亲？美国小哥生成了一个AI女友躲避催婚 期待您的回复！

亲戚逼相亲？美国小哥生成了一个AI女友躲避催婚期待您的回复！