Pine 发自 凹非寺
量子位 | 公家号 QbitAI
当你摄影片时,“模特欠好好共同”怎么办?
没事!如今只用 一句话就能后期P图了,仍是能改动动做、脸色的那种!
好比说你能轻松让鸟张开同党 (输进“张开同党的鸟”即可):
又或者说,想要让一只站立的狗蹲下:
看起来还实不赖!而那个新的“P图”办法呢,名喊 Imagic,是基于爆火的扩散模子 (Diffusion Model)来实现的。
是的,又是扩散模子,它的能耐想必也不消多介绍了吧 (那看那展天盖地和它相关的论文就能佐证)。
那在扩散模子加持下的Imagic到底有何凶猛之处,话不多说,一路来看看吧!
多达6种功用
据不完全统计,Imagic的功用就有 6种。
改动姿势、变更构图、切换滤镜、多个对象编纂、添加对象、更改颜色……
先来看看那个P图神器 改动姿势的效果,好比说输进一条站立的狗,通过变更提醒文字,得到的效果是酱紫的~
或者说输进一个随意站立的人,输进口令,他就“乖乖听话,任你左右” (手动狗头)了,以至还能凭空呈现一个水杯。
还没看够?那再来康康Imagic其他功用:改动颜色,或者增加对象,也能够多种功用同时利用。
总的来说,Imagic的凶猛之处太多,那里就纷歧一详尽展开了,效果能够看下图。
除了那么多功用之外,Imagic还有别的一个比力人道化的点,就是当你告诉它要若何“P图”后,它会随机生成几个差别的选项供你抉择。
其实那种在实在图像上编纂的模子Imagic不是第一个,在此之前就已经有良多个类似的模子。
那时就会有网友问了,“Imagic有什么凶猛的点呢?”
话不多说,间接上效果比照。
那里拔取了比力常见的基于实在图像编纂的两个模子:SDEdit、Text2LIVE与Imagic做比照。
成果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模子。
(确实妙啊)
那Imagic是若何“击败”SDEdit、Text2LIVE,实现如许的效果呢?
是如何实现的
千言万语汇成四个字: 扩散模子,在论文的题目上它都鲜明在列。
详细到Imagic中,扩散模子的感化是若何发扬出来的,来看看详尽的“P图”过程。
整体来说分为三大步。
第一步是优化文本嵌进层。
详细来说,先给定输进的图像和目标文本,然后对目标文本停止编码,得到初始的嵌进层。
然后不竭调整初始嵌进层,让其可以通过预先操练的扩散模子很好地重建输进图像。
如许一来,最末便会得到优化后的嵌进层 (可以很好地重建输进图像)。
第二步是对扩散模子停止微调,那时就要用到上一步已经优化之后的嵌进层,让嵌进层颠末模子后重建输进图像。
在重建的过程,需要不竭更改模子中缺失函数的参数,以让模子适应优化后的输进层,曲到可以很好地重建输进图像时为行,如许一来便得到了微调之后的模子。
第三步就要起头正式P图了。
值得一提的是,那一步除了输进初始的目标嵌进层 (tgt)外,还会插进优化好的嵌进层 (opt),它们的关系如下图。
通过变更参数,现实的效果如下图。
假设你想愈加详尽地领会Imagic,能够戳文末链接阅读论文原文。
研究团队
Imagic的六位做者均来自Google Research,论文有两位第一做者:Bahjat Kawar和Shiran Zada,均来自以色列。
值得一提的是,Bahjat Kawar仍是一位以色列理工学院在读博士,他是在Google Research练习期间完成了那项研究。
而Shiran Zada本年5月刚加进Google Research,目前是计算机视觉研究员。
他曾在微软担任软件工程师以及手艺主管的职务,次要负责收集平安相关的项目开发。
— 完—
MEET 2023 大会启动
邀你共论智能财产穿越周期之道
本年12月,MEET2023智能将来大会将再度邀请智能科技财产、科研、投资范畴大咖嘉宾,配合切磋人工智能行业破局之道。
欢送智能科技企业参会,分享打破性功效,交换时代级变化,共襄盛会!点击链接或下方图片查看大会详情:
量子位「MEET 2023智能将来大会」启动,邀你共论智能财产穿越周期之道
点那里存眷我 👇 记得标星噢 ~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~