亚商投顾-Sora 大模型震撼登场,催生AI 巨轮滚滚向前(附股)!
2024-02-19 17:00:31
导读/核心观点
①OpenAI Sora将文生视频推向新高度,人工智能理解世界迈出重要一步;
②谷歌再度更新Gemini系列模型,大模型竞争再度进入白热化阶段。事件驱动:北京时间 2 月 16 日凌晨,OpenAI 发布了首个文生视频模型 Sora,可以用文字指令生成长达 60 秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优势。相较于此前的视频生成模型,Sora在底层模型和算法上进行了创新,被业界称为视频生成领域的里程碑。因此,Sora的问世令世人惊呼:现实不存在了!
谷歌再度更新Gemini系列模型,大模型竞争再度进入白热化阶段。2月8日,谷歌宣布把BardAI聊天机器人更名为Gemini,并推出GeminiUltra1.0——谷歌大语言模型最大、功能最强大的版本。2月16日,谷歌宣布推出全新的GeminiPro1.5模型,相比较前代产品GeminiPro1.0,Pro1.5新模型在多个方面都取得了长足进步,能够更高效、更长时间地处理信息,可一次性处理大量信息,百万token超长上下文窗口。
行业透视
从自动生成文字到自动生成图片,再到现如今自动生成视频,人工智能大模型技术在加速迭代。此次Sora实现重要突破,其生成的视频具有超长时长,还有高分辨率、遵循用户指示、多镜头切换、世界模型(遵循一定的物理规律、拟真程度较高)等特征。随着多模态大模型的发展,或望推动下游应用方向“百花齐放”,全球人工智能产业正进入加速发展阶段。(文末附产业链及相关上市公司梳理)
一、Sora概念简介
1.Sora与其他工具对比
通过对比不难看出,不论是基本的视频生成能力(时长、分辨率),还是突破性的语义理解能力、复杂场景变化模拟能力、一致性等,OpenAI Sora都具备降维打击。
另外值得一提的是,OpenAI Sora模型还可以直接生成图片,也就是说,它是一个以视频生成为核心的多能力模型。
2.Sora的视频生成能力
作为OpenAI首款文生视频模型,Sora展现出以下几个特点:
①可以生成长达一分钟的视频
作为对比,目前视频生成领域热门的runway gen2模型最长可生成18秒的视频,pika 1.0最长可生成15秒的视频。
②可以生成更加自由尺寸的视频
Sora可以对宽屏1920x1080p视频、垂直1080x1920p视频以及两者之间的所有视频进行采样。这意味着可以使用同一个模型完成不同时长、宽高比、分辨率的视频处理。
③可以支持向前以及向后扩展视频
现有平台的视频扩展通常是在当前视频的基础上继续向前生成几秒的视频。但是,OpenAI Sora可以在视频的基础上向前或者向后扩展。例如给定一个视频,OpenAI Sora可以为该视频创造不同的开头,最后都是以该视频结尾,过程非常连续。因此,Sora甚至可以在一个视频上同时向前和向后扩展,以产生一个无限连续的循环视频。
④支持多个视频的连接
给定两个视频,OpenAI Sora可以将这两个视频揉在一起,生成一个新的毫无违和感的视频。例如,给一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora可以生成一个新的视频,让无人机变成蝴蝶,古罗马建筑变成珊瑚风格。
⑤更好的构图和组合
与将所有视频裁剪为正方形进行训练的模型相比,Sora具有更好的构图效果。正方形裁剪模型(左侧)有时会生成只有部分主体在内的视频,而Sora生成的视频(右侧)具有更好的构图效果。
⑥长范围一致性和物体永恒性
视频生成系统面临的一个重大挑战是在采样长视频时保持时间上的一致性。Sora通常能够有效地模拟短期和长期的依赖关系。例如,Sora可以在人、动物和物体被遮挡或离开画面时保持它们的持续存在。同样,它可以在一个样本中生成同一个角色的多个镜头,并在整个视频中保持它们的外观。
⑦和真实世界交互
Sora有时可以模拟简单的影响真实世界状态的动作。例如,一位画家可以在画布上留下持续一段时间的新笔触,或者一个人吃汉堡并留下咬痕。
⑧模拟数字世界
Sora还能够模拟人造的虚拟世界,比如在视频游戏中,Sora可以同时使用基本策略控制Minecraft中的玩家,同时高清地呈现世界及其动态。
二、Sora的推出有望持续推高AI多模态应用热度
从Pika到李飞飞团队的W.A.L.T再到Sora均是AI多模态领域的持续探索应用,Sora的推出是人工智能与视觉艺术的交汇,其独特点在于文本解析能力(得益于OpenAI在自然语言处理和图像生成方面的深厚积累),更在于重视物理世界动态的表达。AI多模态应用,推动文本、图片、音乐、视频、3D交互内容等领域发展,会带来内容创作的变革,也在加速拓展AI应用新边界。
2023年,已指出,每一次技术的进步与推动均有望带来时代的红利。当前从国外到国内,AI多模态应用不断,2024年此次Sora的推出,有望持续推高AI多模态应用热度。
据IDC预测,2026年中国AI大模型市场规模将达到211亿美元,人工智能将进入大规模落地应用关键期。
三、行业投资逻辑
1.多模态推动人工智能迈向 AGI,底层技术日臻成熟
相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现的更加智能,能够执行更大范围的任务,有望成为人类智能助手,推动 AI 迈向 AGI。就技术架构而言,多模态技术可拆解为编码、对齐、解码与微调等步骤,逐步挖掘多模态关联信息,输出目标结果。文生图 CLIP 模型为最先成熟的多模态技术,目前,多模态已不再局限于图文两层信息。例如,Meta-Transformer 可同时理解并处理 12 种模态信息。
2.OpenAI 谷歌开启多模态军备竞赛,Sora 和 Gemini 各领风骚
海外龙头具备先发与技术优势,引领多模态大模型前进方向:
①OpenAI 近期密集剧透 GPT-5,相比 GPT-4 实现全面升级,重点突破语音输入和输入、图像输出以及最终的视频输入方向,或将实现真正多模态;此外,2 月发布文生视频大模型 Sora,能够根据文本指令或静态图像生成 1 分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧,能够很好地模拟和理解现实世界。
②Google 推出原生多模态大模型Gemini,可泛化并无缝地理解、操作和组合不同类别的信息;此外,2月推出 Gemini 1.5 Pro,使用 MoE 架构首破 100 万极限上下文纪录,可单次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万个单词的代码库。
③Meta 坚持大模型开源,建设开源生态巩固优势,已陆续开源 ImageBind、AnyMAL 等多模态大模型。国内大模型厂商有望沿着复制海外先进技术与发挥生态禀赋优势的两大路径,与海外大厂逐步缩小差距。
3.多模态提升大模型泛化能力,垂直领域应用场景广阔
强调技术与业务的融合以推动业务的数字化转型和智能化升级,才能够最大化的发挥大模型价值同时激励大模型创新升级,实现业务效率提升与技术创新的良性循环。多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析,到机器翻译、知识图谱等,多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。在强大泛化能力基础上,大模型可以在不同模态和场景之间实现知识的迁移和共享,将大模型的应用扩展到不同的领域和场景。
四、AI 生产力革命如火如荼,产业链上下游协同发展
AI 大模型的发展正在不断加速 AGI 通用人工智能的到来,纵观整个 AI 产业链,硬件和软件的配合才能更好地实现多种终端应用的价值化落地。
其中上游的基础层包括 AI 模型生产工具(AI 算法框架+AI 开发平台+AI 开放平台+预训练大模型)、AI 算力基础(AI 芯片+服务器+智算中心+云服务)、AI 数据资源(AI 基础数据服务+数据治理),中游的技术层包括计算机视觉、智能语音、自然语言处理、知识图谱和机器学习,下游的应用层则是百花齐放,以 AI+泛安防/泛互联网/媒体/金融/医疗/工业/零售/政务为代表,还包括对话式 AI、机器人、自动驾驶、无人机等。可以预见的是,未来的 AI 时代又是生产力的爆发式革命。
五、受益方向
多模态提升大模型泛化能力,多元信息环境下实现“多专多能”,在垂直领域具有广阔的应用场景和市场价值。作为多模态领域节点性事件,Open AI发布的Sora将推动行业加速发展,产业链多方向将受益。
芯片侧,芯片发展依旧是整个人工智能领域的基础底座,SamAltman推出7万亿美元AI芯片大计,软银集团创始人孙正义据悉正寻求筹措1000亿美元资金成立一家芯片企业,以与英伟达竞争,并供应人工智能服务所必需的半导体。国内相关公司包括海光信息、寒武纪、中科曙光等。
光模块,随着多模态新模型Sora上负载和对外服务,及其领头羊效应下的你追我赶,全球视频数据的调用规模将放大无数倍。集群计算通信延迟要求更高,微软云等云厂商的高性能带宽需求将爆炸增长、光通信升级需求直线飙升。
大模型训练端的进化持续刺激400G→800G、1.6T光模块升级需求,中际旭创、天孚通信、新易盛、剑桥科技、太辰光等光模块依旧是比较确定的业绩方向。
大模型端,利好在多模态方向已有布局或具备布局能力的公司,如昆仑万维(模型能力国内领先,正进行多模态研发及布局)、万兴科技等。
多模态技术进步利好电商、游戏、传媒等领域AI应用发展,如中文在线(AI+传媒、短剧等)、盛天网络(AI+游戏)、蓝色光标(AI+营销)、凤凰传媒(AI+教育)、世纪天鸿(AI+教育)、掌趣科技(AI+游戏)等。
受益于AI视频应用发展的多模态技术公司,如虹软科技、当虹科技等。
风险提示:技术发展不及预期、产品落地不及预期、AI 伦理风险等。
参考资料:20240218--华福证券—多模态,AI 大模型新一轮革命
20240218-银河证券—OpenAI 发布文生视频模型 Sora,加速迈进AGI 时代
【免责声明】:以上内容由上海亚商投资顾问刘欢(登记编号A0240622030002)编辑整理。以上内容是基于市场已公开的信息编辑整理,评估及预测为发布日观点和判断,因此不保证信息的完整性和准确性。文中任何观点均不构成投资建议,仅代表个人观点,仅供参考学习。我司不与您分享投资收益,也不承担风险损失。涉及个股仅限于案例分析和教学使用,不作为您最终买卖的依据,据此操作,风险自担。投资有风险,入市需谨慎。