2张图就可生成一段逼真视频,来自Stable Diffusion技术团队
2张图就可生成一段传神视频,来自Stable Diffusion手艺团队
詹士 发自 凹非寺
量子位 | 公家号 QbitAI
新魔法!效果炸!
两张静态图片,几秒即生成视频,丝滑照实拍!
两张照片,就能让小狗渐渐抬起头,连身体也随之伸展:
仍是两张照片,一键生成。
小女孩跳起,双手天然穿插,衣服悄悄摆动,与实拍别无二致:
那些视频由一个 帧插值东西按照图片生成,人人都能在线免费玩( 链接见文末)。
那两天刚公布就在网上引发不小存眷,推特上like超越2500。
评论区里,网友一片 喜大普奔。
有人感应大受震动,鹅妹子嘤:
还有人暗示,那是什么现代巫术:
当然,还有更多网友迫不及待想尝尝。
它事实什么个来路?往下看。
Frame Interpolation试玩
先看看试玩效果。
登岸web端口,上传两张开花图片:
设定好视频时长,好比2秒,就能得到那一段视频,花朵渐渐翻开,镜头也逐步拉近:
再尝尝两张狗子照片,让它转个头:
不外,上传两张鸟在天空差别位置飞的照片,效果就不ok了:
前文提及,该产物是一种 帧插值(Frame Interpolation)东西。
所谓帧插值,即在视频两个帧之间,插进一部门新的合成帧,相关手艺被普遍利用于图片生成视频、视频流中的帧修复。
谷歌本年有篇《大幅动做的帧插值》(About FILM: Frame Interpolation for Large Motion)已被ECCV 2022领受。
手艺人员通过双向运动估量、与标准无关的特征提取等体例,做出了较好的帧插值效果。
就目前来说,该手艺难以打破的点在于:
即使是短短几秒,图片中人物或物体也停止了一套复杂动做,使得帧插值后,视频失实。
不外,假设不逃求写实,做出一些魔幻效果,该手艺已经绰绰有余(手动狗头):
△ 好比让建筑酿成变形金刚
背后团队与Stable Diffusion有渊源
此番大火的帧插值东西背后团队喊: Runway。
比来AIGC圈顶流,Stable Diffusion,所根据的论文《High-Resolution Image Synthesis with Latent Diffusion Models》恰是由慕尼黑大学、海德堡大学及他们配合完成。
此中做者之一的Patrick Esser,也是Runway的首席科学家。
( 值得一提的是,Patrick Esser及Runway前段时间还在与Stability AI因Stable Diffusion往返扯皮。)
按照公开材料,Runway成立于2018年,是一家期看用AI/ML与计算机图形学手艺在视频、图像、音乐、文本事域供给内容创意东西的创业公司,总部位于美国纽约。
截至目前,该公司已总计获得 4550万美圆投资,投资方包罗Coatue、Amplify、Lux、Compound等机构。
Runway旗下产物涉及多个模态,不只有开头提及的静态图片生成丝滑视频,也包罗文本生成图像、图片移除布景、依靠文本对图像修改、删除视频中物体、声音往噪等等。
感兴致的伴侣,可在他们的官网试玩。
附上链接:
— 完 —
量子位 QbitAI · 头条号签约
存眷我们,第一时间获知前沿科技动态