什么是 Genie？文字或图片就能创造游戏？

时间：2024-03-22 09:53:26 浏览：2次

Google DeepMind 近日推出了生成式互动环境 AI 模型 Genie，能够透过文字或图片提示产出互动式动画游戏，而无需事先在游戏机制及运作上进行训练。

Google DeepMind 推出生成式互动环境工具Genie

作为一间于 2014 年被 Google 收购的人工智能公司，Google DeepMind 于 23 日提交的论文指出，该公司推出了生成式互动环境 AI 模型「Genie」，能够仅透过文字、图片或草图描述，便生成可控制的互动虚拟环境。

内容写道，Genie 透过大量公开可用的网络影片进行训练，而非依赖于特定游戏或场景的数据，这对游戏开发及创意娱乐等领域，具有更加广泛的应用性：

作为生成式 AI 的全新创举，我们推出了生成式互动环境「Genie」，可以透过单一图片提示产生互动式且可游玩的环境。

什么是 Genie？

多模型架构

首先，论文显示，Genie 作为一个基础世界模型，由时空影片分词器 (Spatiotemporal video tokenizer)、自回归动态模型 (Autoregressive dynamics model)、以及简单且可扩展的潜在动作模型 (Scalable latent action model) 的 110 亿个参数共同设定。

Genie 论文内容

因此，他能够在未给予指令的情况下，从网络上的 2D 平台游戏及机器人技术影片中，以无监督方式进行自主训练；同时也能借由我们所提供的外界图像来提示，包括现实世界的照片或草图，生成能够供人们控制并互动的虚拟环境。

学习重现动作并辨识可控部分

Genie 的特别之处在于，他能够从网络影片中学习并重现游戏角色的控制内容，即便这些影片并没有关于正在执行之动作的标签，他也能够从生成的环境中，推断出一致或多种的潜在动作。

Gemie 能借由重现动作来学习并辨识可控部分

同时，Genie 还能够学习并辨识动作中哪些部分是能够被控制的，并借以产生互动式情境。

合成或现实图片都能转游戏

另外，Genie 仅需一张图片就能创造一个完整的新互动环境，首先采用文字转影像的生成模型 Imagen 2 来产生关键影格 (Keyframe)，再透过 Genie 给影像赋予动态效果。

Genie 能透过合成图片来生成互动式动画环境

同时，Genie 也能接收从未见过的图片提示，包括现实世界照片或简单草图，使人们能够与原先无法移动的现实事物进行互动。

Genie 能透过现实照片及绘画草图来生成互动式动画环境

部落格文章写道：

Genie 的功能让任何人，甚至是儿童，都能够创建并进入可控的模拟环境、或是具互动性的生成世界。

文末最后也提到 Genie 产品的远大目标：

Genie 的应用不仅仅局限于娱乐或创意开发，他还能够作为训练智慧型代理人 (Intelligent Agent) 的优秀测试平台，从而推动了 AI 领域的发展。

据悉，智慧型代理人指的是，一个能够观察周遭环境，并作出行动以达成目标的自主实体，这是目前 AI 研究的一个核心概念及重要目标。

Google、OpenAI 较劲意味浓厚

近几个月来，Google 已释出多个生成式 AI 模型的产品或资讯，包括最强 AI 顾问「Gemini」、文字转影片生成工具「Lumiere」、以及关键字图片生成工具「ImageFX」，无不吸引大众目光。

另一方面，OpenAI 的文字转影片工具 Sora 作为首个影片生成产品，也在几周前引发了 AI 狂潮。

然而，近期有关 Gemini 在生成图像时涉及种族争议，造成了母公司 Alphabet 单日 (26) 股价下跌逾 4%。

Google DeepMind 研究部门负责人 Demis Hassabis 在昨日的世界行动通讯大会 (MWC Barcelona 2024) 上则表示：我们已将 Gemini 的该功能下架，将在未来几周内修复问题并恢复。

以上就是什么是 Genie？文字或图片就能创造游戏？的全部内容，望能这篇什么是 Genie？文字或图片就能创造游戏？可以帮助您解决问题，能够解决大家的实际问题是塔岸网一直努力的方向和目标。