2 月 14 日消息,苹果公司今天发布论文,展示名为 Keyframer 的全新 AI 大语言模型(LLMs),可以根据用户输入的提示词加工静态图片,将其转换为动画。
该论文标题为《Keyframer:使用大型语言模型增强动画设计能力》,附上专利摘要部分如下:
对于 Dall-E 和 Midjourney 等商业 AI 服务来说,一句话文生图是比较常见的 AI 应用。但实际场景下,需要考虑时间、协调等更复杂的因素,而这些因素很难在一次性提示中完全明确。
因此,可能需要采用其他方法,使用户能够迭代地构建和完善生成的设计,尤其是对于动画而言。
我们结合设计艺术品的语言提示和大语言模型的代码生成功能,打造出了 Keyframer 的新型人工智能动画工具。
用户通过 Keyframer,可以通过自然语言提示从静态二维图像中创建动画插图。使用 GPT-4,Keyframer 生成 CSS 动画代码,为输入的可缩放矢量图形(SVG)制作动画。
苹果公司展示了一个实际案例,用户上传太空火箭为主题的 SVG 格式图片,然后输入“要求生成天空有 3 个渐变色,且配有星星闪烁的动画”提示词。
Keyframer 会生成动画的 CSS 代码,然后用户可以直接编辑代码或输入其他文本提示来完善动画。
作者解释说:
Keyframer 让用户能够通过连续地提示迭代完善他们的设计,而不必预先考虑他们的整个设计。
通过这项工作,我们希望能够启发未来的动画设计工具,将 LLMs 强大的生成能力与动态编辑器相结合,加快设计原型的制作,使创作者能够保持创意控制。
论文称,这项研究参考了对专业动画设计师和工程师的访谈。论文引用了一位研究参与者的话:
出图速度远远超出预期,几句话就能搞定此前几个小时的活。
附上论文参考地址
-
Keyframer: Empowering Animation Design Using Large Language Models
相关阅读:
《苹果展示 AI 新模型 MGIE,可一句话精修图片》