千万别让富坚义博看到这个(3)
发表于2022-09-06 11:50:15

先来看一段高清版的《清明上河图》: 你能看出这幅画与原作的差异吗? 其实,这是 AI 续画的一段《清明上河图》,一眼望去,这画面还真是有些 真 假 难 辨 了。 笔墨色彩几乎完全复刻了原作。 无论是房屋树木,还是市集中熙熙攘攘的人群,AI的笔法都抓到了原作的风格神韵,拼在一起乍一看还真认不出来。 △ 左是原作,右是AI复刻 画质还是 38912×2048 像素的那种,能直接把画面拉大3、4倍看细节。 喏,店铺里的小人在干啥看得一清二楚,体态和衣着也各不相同。 这就是由全华人团队打造的AI—— 女娲·无限版 (NUWA INFINITY) 。 只要给它喂一些图片、或是输入一段文字,它就能进行更细致的拓展,最终生成一幅完整的高清图像、甚至是一段流畅视频。 这是它学习了《清明上河图》之后,画出的完整版“大作”。 论文前脚刚上传到arXiv,推特上就已经引发各路网友狂呼amazing! 还有油管博主光速更新视频讲解。标题直接用上了“ 超越DALL·E 2 ”、“ 4K ”的字眼。 除了续画《清明上河图》之外,微软的 经典蓝天白云壁纸 ,经它之手都能变成无限加长版。 还能根据文本提示,在图像上加不同元素:要光有光,要雪有雪。 (这还真是女娲技能了) 相较于当下热门的DALL·E、Imagen和Parti,女娲无限版支持生成任意大小的高分辨率图像, 同时还支持生成长视频。 (没错,继AI续写小说热潮之后,现在AI终于也能续画了) 研究人员表示,他们希望这一模型能够帮助创作者们提高生产力。 所以,女娲无限版还有什么大招? 我们一起来看~

风格完美模仿,图像视频生成全搞定

总体来看,这个AI女娲无限版是个全能选手,可以挑战 5种高清视觉任务 。 分别是:

让图像动起来(Image Animation)

根据文本生成视频(Text-to-Video)

根据文本生成图像(Text-to-Image)

图像补全(Image Outpainting)

图像生成(Image Generation)

先来看 让图像动起来 的效果。 一张静态的沙滩照片经AI之手后,图中的海浪都能自然地拍打海岸,层层叠叠仿佛是真实的景色一般。 一句话生成视频 就更让人惊喜了。 这不,给它一个小猪佩奇原版的视频,然后再输入一句话,这位“女娲”就能自己做动画片了。 这效果完全看不出是AI做的啊,分辨率也达到了1280×1024。甚至都能拿去蒙骗小孩子? (嗯,别让富坚义博看到这个AI……) 能根据文本搞定视频,当然 图像 也不在话下。 给AI一张风景照,再输入不同的文本表示,它就能根据需要在照片中加各种元素了。 比如滚滚海浪、群山环绕、星空、云彩等,都可搞定。 接下来则是 文本图像生成 了。这个任务可以说是DALL·E2、Imagen和Parti的“拿手好戏”,也是这段时间几大模型battle的核心。 不过从生成效果来看,NUWA-Infinity也同样“可以一战”。 △ “微软已加入战场” 输入“田野上有房子、天空中有云彩”,女娲无限版立刻呈现出了一张景色优美的照片。 分辨率高达 4069×1024 ,仿佛是拿单反真实拍下的一样。 最后,就是NUWA-Infinity的核心能力——“续画”了。 在 补充图像 上,这只AI已经挑战了不少世界名画,并且都可以做到几乎以假乱真。 梵高笔下的星空,它能补充浩瀚深邃的画面。 笔触连接的地方十分丝滑,整体画面的协调感也很高。 莫奈的名作也能信手拈来。 值得一提的是,原画中人物的影子沿着右下方拉去,AI在补充画面的时候,还非常聪明地在左边补充了太阳。 阳光洒在海面上,波光粼粼的细节都画出来了。 除了世界名画以外,风景照片同样也能补全啦。 这效果,仿佛它就在拍照现场,直接把原本的画面搬了上来。 那么,NUWA-Infinity究竟是怎么拥有“续画”的能力呢?

投稿:99it.com.cn
Copyright © 2002-2022 99科技网