DeepMind 提出可交互生成式世界模型 Genie,有什么意义?和 Sora 比有什么不同?

AIGC资讯9个月前更新 admin
4,988 0 0

刚刚,谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。

我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。

不管是合成图像、照片甚至手绘草图,Genie 都可以从中生成无穷无尽的可玩世界。

DeepMind 提出可交互生成式世界模型 Genie,有什么意义?和 Sora 比有什么不同?

Genie 由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频 tokenizer,用于将原始视频帧转换为离散 token;一个动态模型,用于在给定潜在动作和过去帧 token 的情况下,预测视频的下一帧。

看到这项技术发布,很多人表示:谷歌又要来领导 AI 技术了。

作者:谢凌曦
链接:https://www.zhihu.com/question/645930988/answer/3410054370
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Genie的最大意义在于:再次揭示了生成式模型在通往AGI的路上将要发挥的重要作用。

在阅读答案之前,请读者先思考一个问题:CV生成式模型有什么用?也许你想到了DALL-E、Stable Diffusion、Sora这样的模型,然后回答:“生成式模型可以生产娱乐内容”,或者“生成式模型可以辅助人类创造多媒体资产”。不过在我看来,这只是生成式模型的初级价值,而不是它的最终价值。

CV生成式模型的最终价值在于:它可以帮助人们以更小的代价去模拟这个世界,从而允许AI算法在模拟世界中学习,最终走向AGI。

如果要充分理解上面这句话,就要接受如下的观点:AI算法的智能程度,完全取决于它的训练环境的真实性和复杂性。之所以NLP领域能够创造出GPT这样强大的AI,就是因为NLP所需的环境比较简单,可以通过对话(chat)任务模拟出来。反观CV领域,所需的环境要复杂好几个数量级,而目前还没有已知的方式进行模拟,因而CV领域就很难构建出GPT这样的AI。如果想要详细理解上述观点,可以看我去年写的文章。

更复杂的虚拟环境。当前构建虚拟环境的方法主要有两种。一是基于真实数据产生的虚拟环境:收集实际场景数据,并将其建模为点云、面片(mesh)、神经辐射场(NeRF)等数据结构,并支持高速、大规模的渲染。这种做法的成本还比较高,难以规模化生产环境。当前可用的3D数据集(如Habitat[1]),相比于2D数据集,规模要小好几个数量级,且依然局限于某些特殊场景(如室内或者街景)。二是通过仿真学方法构建虚拟环境:通过3D建模、生成式算法(包括GAN和扩散模型)等方式,直接采样虚拟数据并渲染3D环境。这种做法虽然能够批量生成环境(如ProcTHOR[2]),但它不易还原真实世界的数据分布。一方面,图像上通常包含影响算法学习的artifacts(即使肉眼难以观察出来),从而难以保证在虚拟数据上训练的模型的迁移能力。然而不论是哪种方法,虚拟环境的大小和真实度还不能满足要求,且难以允许AI算法与环境中的其他智能体互动。

我甚至认为,这是未来3-5年整个CV领域最重要的任务,没有之一。Genie的出现,让我看到了一些希望,即生成式模型能够帮助我们更快地构建大规模的虚拟环境。虽然Genie的效果还比较差[3],能力还有诸多不足,但它走在正确的道路上

最后简单说说跟Sora的区别。根据Sora的demo判断,我认为它至少拥有和Genie相当的模拟世界的能力,也能够通过prompt来生成未来将要发生的场景。因此,Genie看起来像是Sora的一个子集,只是速度应该会比Sora快上不少。有理由相信,OpenAI也在投入相同的方向,或许过段时间就会发布一个具有类似逻辑,但是能力更强的模型。

参考

  1. ^Savva M, Kadian A, Maksymets O, et al. Habitat: A platform for embodied ai research[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 9339-9347.
  2. ^Deitke M, VanderBilt E, Herrasti A, et al. Procthor: Large-scale embodied ai using procedural generation[J]. arXiv preprint arXiv:2206.06994, 2022.
  3. ^目前看来,Genie似乎对于较长的交互序列不能保证稳定,同时生成的图像质量较差,在自然图像上会产生大量artifacts。

AI副业赚钱交流群

欢迎大家加入AI副业赚钱交流群,一起学习交流,有单子在群中发布,可接单赚钱。

扫码入微信群AI侦探社

AI副业赚钱群

以上内容由站点小编汇总整理,多数均为第三方内容,旨在帮助大家打破AI信息壁垒,开拓AI赚钱思路。涉及付费内容请您务必自行甄别判断,谨防受骗上当。

© 版权声明

相关文章

暂无评论

暂无评论...