报告日期:
2024-03-27
报告页数:20页

报告简介:
敬请参阅最后一页特别声明1核心观点SoraSora是第一个表现出是第一个表现出涌现涌现能力的视频生成模型能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。SoraSora的成功源于的成功源于DiffusionTransformerDiffusionTransformer架构的引入,和过去多年高质量数据的积累。架构的引入,和过去多年高质量数据的积累。从架构上看,从架构上看,视频生成模型的技术路线开始收敛,视频生成模型的技术路线开始收敛,SoraSora的的DiffusionTransformerDiffusionTransformer架构证实了有效架构证实了有效scalescale-upup也即是也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领域的增加算力能够对提升视频生成的精细度和效果,是视频生成领域的GPTGPT-33时刻时刻。类似于GPT-3证明了更大的训练量、模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型,确定了DiffusionTransformer的视频生成路线,并且算力的需求会大大提升。从数据上看,从数据上看,高质量的数据对视频生成模型的训练至关重要,高质量的数据对视频生成模型的训练至关重要,SoraSora利用自有工具增强训练数据集与提示工程。利用自有工具增强训练数据集与提示工程。OpenAI训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调Sora以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora执行了一个额外的提示扩展步骤,即调用GPT-4V模型将用户输入扩展到详细的描述性提示。我们认为,随着我们认为,随着DiffusionTransformerDiffusionTransformer类模型大量应用于图像及视频生成类模型大量应用于图像及视频生成,推理需求推理需求将大幅增加,将大幅增加,与与LLMLLM推理推理更需更需要内存带宽要内存带宽的资源需求的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora的DiT和大语言模型在推理时的逻辑不同,Diffusion需要约20Steps优化过程,每次均是计算的完整的patch,访存需求也会大大下降,从LLM推理的访存密集型场景转变成算力密集型场景。SoraSora高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作,后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙述中生成角色动作。风险提示模型架构的大幅改变影响算力需求分布算力速度发展不及预期中美科技领域政策恶化行业深度研究敬请参阅最后一页特别声明2内容目录内容目录一、Sora模型的特点.41.1Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距.4二、视频生成模型的历史与现状.52.1文生视频是个年轻的方向,最早能追溯到15年的基于GAN生成模型.52.2GAN和VAE时代.62.3TransformerBased.62.4DiffusionBased.62.5视频生成模型的前沿:把卷积网络卷出了DiffusionModel.72.6国内的绝大多数文生视频模型还处于Diffusion阶段,研发机构也在快速跟进.8三、Sora模型逆向工程.93.1VideoEncoding:将视频信息有效的转化为机器理解的方法是至关重要的.93.2模型的核心部分:DiffusionTransformer.113.3大语言模型训练和推理对计算资源的需求分布不同.123.4对算力需求的影响:Patch/Token数量的大幅提高对内存容量需求有积极影响.143.5对算力需求的影响:推理时算力需求的增长大于内存速率需求的增长.15四、世界模型之争:三种A…
查看完整报告:
方法一:加入大吉行业专题报告库 知识星球
方法二:加微信客服 idosmile88