谷歌P图神器来了!不用学不用教,输进一句话,分分钟给结果

1周前 (11-15 07:28)阅读1回复0
lrj
lrj
  • 管理员
  • 注册排名2
  • 经验值68715
  • 级别管理员
  • 主题13743
  • 回复0
楼主

Pine 发自 凹非寺

量子位 | 公家号 QbitAI

当你摄影片时,“模特欠好好共同”怎么办?

没事!如今只用 一句话就能后期P图了,仍是能改动动做、脸色的那种!

好比说你能轻松让鸟张开同党 (输进“张开同党的鸟”即可):

又或者说,想要让一只站立的狗蹲下:

看起来还实不赖!而那个新的“P图”办法呢,名喊 Imagic,是基于爆火的扩散模子 (Diffusion Model)来实现的。

是的,又是扩散模子,它的能耐想必也不消多介绍了吧 (那看那展天盖地和它相关的论文就能佐证)。

那在扩散模子加持下的Imagic到底有何凶猛之处,话不多说,一路来看看吧!

多达6种功用

据不完全统计,Imagic的功用就有 6种。

改动姿势、变更构图、切换滤镜、多个对象编纂、添加对象、更改颜色……

先来看看那个P图神器 改动姿势的效果,好比说输进一条站立的狗,通过变更提醒文字,得到的效果是酱紫的~

或者说输进一个随意站立的人,输进口令,他就“乖乖听话,任你左右” (手动狗头)了,以至还能凭空呈现一个水杯。

还没看够?那再来康康Imagic其他功用:改动颜色,或者增加对象,也能够多种功用同时利用。

总的来说,Imagic的凶猛之处太多,那里就纷歧一详尽展开了,效果能够看下图。

除了那么多功用之外,Imagic还有别的一个比力人道化的点,就是当你告诉它要若何“P图”后,它会随机生成几个差别的选项供你抉择。

其实那种在实在图像上编纂的模子Imagic不是第一个,在此之前就已经有良多个类似的模子。

那时就会有网友问了,“Imagic有什么凶猛的点呢?”

话不多说,间接上效果比照。

那里拔取了比力常见的基于实在图像编纂的两个模子:SDEdit、Text2LIVE与Imagic做比照。

成果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模子。

(确实妙啊)

那Imagic是若何“击败”SDEdit、Text2LIVE,实现如许的效果呢?

是如何实现的

千言万语汇成四个字: 扩散模子,在论文的题目上它都鲜明在列。

详细到Imagic中,扩散模子的感化是若何发扬出来的,来看看详尽的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌进层。

详细来说,先给定输进的图像和目标文本,然后对目标文本停止编码,得到初始的嵌进层。

然后不竭调整初始嵌进层,让其可以通过预先操练的扩散模子很好地重建输进图像。

如许一来,最末便会得到优化后的嵌进层 (可以很好地重建输进图像)。

第二步是对扩散模子停止微调,那时就要用到上一步已经优化之后的嵌进层,让嵌进层颠末模子后重建输进图像。

在重建的过程,需要不竭更改模子中缺失函数的参数,以让模子适应优化后的输进层,曲到可以很好地重建输进图像时为行,如许一来便得到了微调之后的模子。

第三步就要起头正式P图了。

值得一提的是,那一步除了输进初始的目标嵌进层 (tgt)外,还会插进优化好的嵌进层 (opt),它们的关系如下图。

通过变更参数,现实的效果如下图。

假设你想愈加详尽地领会Imagic,能够戳文末链接阅读论文原文。

研究团队

Imagic的六位做者均来自Google Research,论文有两位第一做者:Bahjat Kawar和Shiran Zada,均来自以色列。

值得一提的是,Bahjat Kawar仍是一位以色列理工学院在读博士,他是在Google Research练习期间完成了那项研究。

而Shiran Zada本年5月刚加进Google Research,目前是计算机视觉研究员。

他曾在微软担任软件工程师以及手艺主管的职务,次要负责收集平安相关的项目开发。

— 完—

MEET 2023 大会启动

邀你共论智能财产穿越周期之道

本年12月,MEET2023智能将来大会将再度邀请智能科技财产、科研、投资范畴大咖嘉宾,配合切磋人工智能行业破局之道。

欢送智能科技企业参会,分享打破性功效,交换时代级变化,共襄盛会!点击链接或下方图片查看大会详情:

量子位「MEET 2023智能将来大会」启动,邀你共论智能财产穿越周期之道

点那里存眷我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

0
回帖

谷歌P图神器来了!不用学不用教,输进一句话,分分钟给结果 期待您的回复!

取消