ABC 亚商投顾-亚商资讯-亚商投研

首页
亚商投顾-“原生多模态”时代，开启AI新征程（附股）！
2023-12-15 17:51:12
导读/核心观点
①多模态是AI未来发展趋势；
②全球AI应用软件市场规模预计到2027年将增长至2790亿美元。

事件驱动：近日，谷歌宣布发布新一代大模型Gemini，再次引发市场对人工智能产业的持续关注。大模型 Gemini，作为多模态大模型，Gemini 可以同时识别和理解文本、图像、音频、视频和代码五种信息，且对信息的理解非常精准。

目前，其被业内认为是ChatGPT最强有力的竞争者，也可能是目前最强大的人工智能产品。同时激发资本市场多模态大模型概念的兴起。

反观A股，“多模态”AI概念股强势走高，连续多个交易日涨势出众，其中龙头苏州科达走出强势6连板，资金关注度不断提高，上涨行情如火如荼进行中。

行业透视

在不断突破的AI技术背景下，多模态模型的应用和发展呈现出前所未有的势头。随着越来越多的公司和机构投身于这一领域，我们可以期待看到更多创新和突破性的成果。同时，多模态模型的应用也将对企业和消费者产生广泛而深远的影响，推动人工智能技术的进一步发展。随着海外科技巨头之间在多模态大模型领域竞争的加剧，底层多模态大模型的能力也在不断提升，垂直应用领域蓬勃发展，AI应用预计将迎来快速爆发。

根据数据显示，截至2022年，全球AI应用软件市场规模达640亿美元，预计到2027年将增长至2790亿美元，复合年增长率（CAGR）为31.4%。下面小编就带领大家梳理下AI多模态概念的产业链及投资逻辑。（文末附产业链及相关上市公司梳理）

一、多模态是AI未来发展趋势

当前AI模型从单模态向多模态演进，有望实现认知智能，是AI未来发展的明确趋势。近期AI多模态模型不断取得突破性进展。OpenAI于11月发布了GPT-4Turbo且开放了GPTs再次颠覆行业，GPTs短期上线数量已超3万，揭开AIGC应用生态序幕。

海外初创公司PikaLabs正式推出的AI视频生成工具Pika1.0火爆全球，Pika1.0包括一个能生成和编辑3D动画、动漫、卡通、电影等各种风格视频的全新AI模型。

谷歌紧随其后发布了其认为规模最大、功能最强大的人工智能模型Gemini，作为多模态大模型，Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息，且对信息的理解非常精准。

以Pika1.0和Gemini为代表的AI多模态模型不断突破，或推动大模型应用领域加快落地并打开商业化空间。

二、多模态AI行业概览

1.定义

多模态（Multimodality）是指同时使用两种或多种感官进行信息交互的方式。在人工智能领域，多模态技术是指将不同类型的数据和信息进行融合，以实现更加准确、高效的人工智能应用。这些数据和信息可以来自不同的感官，如视觉、听觉、触觉、嗅觉等。通过多模态技术的处理和分析，人工智能系统能够更好地理解和处理复杂的信息，提高其性能和应用范围。

相比于单模态，多模态模型处理多种数据输入，结构上更复杂，可能涉及使用多个子网络，然后将其输出合并。

2.发展阶段

根据技术迭代，多模态模型可以分为三个主要发展阶段。

2010年至今，深度学习为多模态研究带来了巨大的推动力，多模态模型已经达到了前所未有的准确性和复杂性。

这一阶段受益于四个关键因素的推动：1）大规模的多模态数据集；2）更强大的计算能力；3）研究者也开始掌握更为先进的视觉特征提取技术；4）出现了强大的语言特征抽取模型，包括Transformer架构。

多模态模型主要经历三个时代：

3.分类

多模态应用场景按架构可分为视频分类、事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、转移学习、视频解码、图像合成等。

多模态AI实现跨模态任务，应用场景丰富。能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用，完成跨模态领域任务，应用于各种场景。

据布谷实验室统计，当前多模态内容主要应用于商业定制、游戏领域、影视领域、教育领域以及医疗领域五大行业。

三、有望成中国AI大模型突破的新路径

随着AI大模型的竞争在国外激烈展开，不单单是海外各家厂商把目光放在多模态大模型上，中国的大模型也正在百花齐放，其版本与性能也在持续迭代。比如中国许多互联网企业和科技企业也开始自研大模型。

比如，百度发布文心一言并持续迭代；腾讯混元大模型迎来全新升级，并正式对外开放“文生图”功能；盘古基础大模型提供满足行业场景需要的上百种能力，盘古大模型为客户提供100亿、380亿、710亿和1000亿参数的系列化基础大模型，能够匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。国内众多厂商也在多模态产业链上下游有所布局，或许成为咱们中国AI大模型公司突破的新路径。

四、多模态AI应用端梳理

AI 应用的主要方向包括已推出产品并开启商业化的 AI 应用领域：工具、教育、音乐、校对、营销等；此外还有受益于 AI 视频生成等 AI 多模态模型的游戏、影视等 IP 开发领域。后续随着 AI 大模型进一步朝多模态方向升级，广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。

从应用趋势来看，随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用，内容创作领域可能会经历前所未有的变革。

多模态模型有望显著打开下游应用场景，破除单纯文字交互的局限性。下游应用场景在工业、医学、汽车、机器人等领域应用落地带来的商业化增量空间有望不断打开。2023 年 8 月 31 日，国内首批 8 家厂商 AI 大模型通过《生成式人工智能服务管理暂行办法》备案，11 月 3 日，又有 11 家 AI 大模型完成备案。

1）AI视频生成

多模态融合大势所趋，AI生成视频技术的迭代，加速应用落地和商业模式创新。文生视频是一个年轻的方向，该领域面临多方面的挑战，包括高算力成本、缺乏高质量的数据集等，但随着视频扩散模型技术的突破，新算法模型不断涌现。以国外Runway为代表的企业在近半年内取得了较大的进步，生成视频的一致性和保真度也有了较大改进,未来在视频多模态领域的应用。

AI 视频生成领域，主要布局厂商包括万兴科技、新国都、虹软科技、光云科技等。万兴科技旗下 AI 视频创作软件 Wondershare Filmora 13 内置创作助手 Copilot，并上线了 AI 文本成片、AI 音乐生成器等 AI 生成功能；万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型。

2）AI+游戏

游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用，有望更好在研发端利用多模态大模型的能力，提升内容制作效率，并提高内容丰富度，同时一些基于 AI 的 NPC 等设计或进一步提升用户体验和付费意愿，打开游戏整体收入增量空间。

版号发放常态化带来供给端改善，新游戏陆续上线。多模态大模型有望提高游戏研发效率及内容、玩法丰富度，增强游戏社交属性，吸引增量用户，进一步打开游戏商业化空间。

“AI+游戏”相关布局厂商包括盛天网络、神州泰岳、网易、腾讯控股、吉比特、心动公司、创梦天地、姚记科技、完美世界，包括星辉娱乐、恺英网络、掌趣科技、汤姆猫、宝通科技、巨人网络、三七互娱、吉比特、巨人网络、电魂网络等。

3）AI+ 影视 IP/音乐

AI多模态技术有望带来动画、影视、互动影视游戏、音乐等内容开发提速，丰富内容供给，带来商业化增量。

该环节参与布局的厂商众多，代表厂商包括芒果超媒、奥飞娱乐、阅文集团、猫眼娱乐、光线传媒、中文在线、上海电影、掌阅科技、华策影视、捷成股份、万兴科技、易点天下、盛天网络等。

4）AI+教育/电商/医疗

AIGC 在海外已实现教育产品功能创新、课程研发降本增收。语言学习应用程序多邻国（Duolingo）基于GPT-4大模型，推出DuolingoMax订阅服务。国内 AI 教育产品继续更新迭代，有望逐步带来增量。

AI 赋能电商“人”、“货”、“场”全面铺开，AI 导购在国内外加速落地，实现了商品推荐、服装试穿等功能创新，有望帮助电商平台和服务商提升商品销售效率，实现降本增效。

AI+医疗方面，在医保控费、分级诊疗的大背景下，AI能够通过提升人效、精细化运营、专业赋能的方式，帮助医院实现降本增效，同时帮助基层医院提高医疗能力。因此，AI大模型所嵌入的产品有望实现较好的落地。

未来多模型AI有望在成像技术、疾病筛查与预测、手术与康复等场景下持续发力。

该环节相关布局厂商包括世纪天鸿、南方传媒、皖新传媒、盛通股份、佳发教育、鸥玛软件、光云科技、值得买、壹网壹创、东方甄选、焦点科技、润达医疗、嘉和美康、卫宁健康、创业慧康、迪安诊断等。

5）AI+办公

在AI领域，语音输入和图像输入意味着更自然便捷的人机交互方式和更广泛的应用场景，或进一步革新办公产品。微软面向企业客户全面推出Microsoft365Copilot，产品商业化步伐再度迈进，对于国内办公软件厂商来说有积极意义。

当前国内“AI+办公”类厂商多个产品进入测试阶段，监管落地后相关产品商业化有望加速。金山办公发布的具备大语言模型能力的生成式人工智能应用，名为“WPS AI”，这也是国内协同办公赛道首个类ChatGPT式应用。

AI+办公环节主要布局厂商还包括彩讯股份、致远互联、科大讯飞等。

6）AI+元宇宙/虚拟人

苹果 MR 头显或带动整体 MR 设备出货量提升及 AR/VR 内容需求增长。模态大模型有望为内容开发降本提效，从而提高各应用场景下的 VR/AR 渗透率。主要布局厂商包括风语筑、锋尚文化、恒信东方、蓝色光标、因赛集团、元隆雅图、引力传媒等。

7）AI+机器人

AI大模型深度赋能机器人感知层和规划层，助力机器人更贴近具身智能。以微软ChatGPT预训练语言模型、谷歌PaLM-E模型、英伟达多模态具身智能系统NVIDIAVIMA为代表的AI技术突破，进一步助力机器人突破产品力上限。

2023年3月谷歌PaLM-E模型推出，融合了ViTVisionTransformer的220亿参数和PaLM的5400亿参数能力，集成了可控制机器人视觉和语言的能力。2023年5月英伟达发布多模态具身智能系统NVIDIAVIMA，标志AI能力的又一显著进步，有望显著提升机器人的智能化水平、人机交互能力、自编译能力。

五、产业链及相关企业梳理

多模态AI产业链包含模型训练、通用大模型、垂直大模型等环节。

当前全球开启新一轮AI技术竞赛。大型科技公司一改传统AI解决方案的商业模式，聚焦AI大语言模型研发，并向更前沿的多模态大模型深耕。在AI浪潮持续爆发的背景下，多模态有望迎来全面爆发机遇，并带动产业链各环节高速发展，投资正当时。

风险提示：AI技术应用效果不及预期、市场竞争加剧等

参考资料：20231213--上海证券- 多模态时代开启，看好AI 应用及算力

20231211--南方财富网--多模态AI 发展现状等

【免责声明】：以上内容由上海亚商投资顾问刘欢（登记编号A0240622030002)编辑整理。以上内容是基于市场已公开的信息编辑整理，评估及预测为发布日观点和判断，因此不保证信息的完整性和准确性。文中任何观点均不构成投资建议，仅代表个人观点，仅供参考学习。我司不与您分享投资收益，也不承担风险损失。涉及个股仅限于案例分析和教学使用，不作为您最终买卖的依据，据此操作，风险自担。投资有风险，入市需谨慎。

亚商投顾-“原生多模态”时代，开启AI新征程（附股）！