• 亚商投顾-与算力同为AI“卖铲人”!AI语料前景无限(附股)!

    2024-04-11 17:46:22

    导读/核心观点

    ①据市场研究机构预测,全球AI语料市场规模将以年均两位数的速度持续增长,孕育出庞大的市场蛋糕;
    ②国产大模型加速迭代升级,AI语料公司有望受益。

     

    事件驱动:AI浪潮火爆全球,国内也涌现出一批优秀的AI应用,例如Kimi Chat、豆包、通义千问、文心一言等,训练AI大模型需要大量的AI语料,目前国内存量数据资源丰富,但由于数据挖掘不足、无法自由在市场上流通等现状,中文优质数据仍然稀缺,AI语料相关企业受到广泛关注。

     

    行业透视

     

    人工智能(AI)的发展日新月异,而AI语料作为AI系统学习和进化的“食物”,在其中扮演着至关重要的角色。银河证券认为,当前AI政策密集出台,高质量数据集和训练数据版权问题得到重视,未来优质训练数据库的价值将得到凸显。(文末附行业相关公司梳理)

     

    一、概念简介

     

    1.什么是AI语料?

     

    AI语料,简单来说,就是用于训练和优化人工智能模型的数据集合。这些数据可以是文本、语音、图像甚至是视频,它们是AI系统理解和模拟人类行为和思维模式的基础。通过大量的语料学习,AI模型能够提高其识别、分类、生成和推理的能力,从而更好地服务于人类社会。

     

     

    2.AI语料的分类

     

    AI语料按照类型可以分为以下几类:

     

    1)文本语料:包括书籍、文章、评论、对话记录等文字信息,是最常见的语料类型之一。

     

    2)语音语料:涉及人类语音的录音,如电话对话、会议记录、广播节目等。

     

    3)图像语料:图片、照片、图形等视觉数据,用于图像识别和处理的AI模型训练。

     

    4)视频语料:包含动态视觉信息的视频文件,用于视频分析和处理的AI模型。

     

    5)多模态语料:结合了文本、语音、图像等多种类型的综合数据,用于训练更为复杂和高级的AI模型。

     

    3.AI语料的作用

     

    AI语料作为人工智能学习和进步的基础,其作用在于为机器提供了理解和模拟人类行为和思维模式的能力。通过大量的文本、语音、图像和视频等数据,AI系统能够学习到语言的语法规则、语义关联、情感表达以及视觉和听觉的识别能力。这些学习成果使得AI能够在各个领域中发挥作用,如自然语言处理、图像识别、语音助手、自动驾驶等。

     

    AI语料不仅仅是让机器能够执行命令,更重要的是使其具备了预测、决策和创新的能力。例如,在自然语言处理中,高质量的语料可以帮助AI更好地理解复杂的语境和隐含的语义,从而生成更自然、更准确的回答和内容。在图像识别领域,多样化的图像语料能够训练AI识别和区分各种对象和场景,提高识别的准确率。

     

    二、AI语料市场趋势与机遇

     

    1.市场规模增长迅速

     

    随着AI技术在各行各业的广泛应用,对高质量AI语料的需求激增。据市场研究机构预测,全球AI语料市场规模将以年均两位数的速度持续增长,孕育出庞大的市场蛋糕。

     

     

    2.产业链初步形成和资金涌入

     

    上层加大对AI产业的政策扶持力度,推动数据开放共享、鼓励数据要素市场建设,为AI语料市场创造了良好环境。同时,资本市场上,风险投资、私募股权基金及上市公司纷纷加大对此领域的投资,为行业发展注入充沛动力。

     

    3.战略价值凸显

     

    优质AI语料被视为AI企业的核心竞争力之一,特别是在自然语言理解、机器翻译、智能客服、舆情分析等领域,拥有丰富且专业的语料库往往意味着更高的模型性能和市场优势。因此,对AI语料的投资被视作抢占AI高地的战略布局。

     

    三、AI语料未来的发展

     

    AI语料的未来发展将更加注重质量、多样性和实时性。随着技术的进步,未来的AI语料库将更加庞大和全面,涵盖更广泛的主题和领域,以适应不断涌现的新应用场景。同时,实时更新的语料库将使AI系统能够快速适应社会变化和新兴趋势,保持其决策和预测的时效性。

     

    此外,隐私保护和伦理考量将成为AI语料发展中的重要议题。随着数据隐私法规的加强和公众对个人隐私权益意识的提升,未来的AI语料收集和使用将更加注重去标识化和匿名化处理,确保数据的合法合规使用。同时,伦理问题也将被纳入考量,以确保AI的发展符合人类的价值观和道德标准。

     

    多模态融合是AI语料发展的另一个重要趋势。未来的AI系统将不仅仅局限于处理单一类型的数据,而是能够综合文本、语音、图像等多种类型的数据进行学习和推理。这种多模态的语料将极大地丰富AI的理解和表达能力,使其能够更全面地模拟人类的感知和认知过程。例如,结合文本和图像的多模态语料可以帮助AI更好地理解描述中的对象和场景,进而生成更加生动和准确的内容。这种跨领域的知识融合将为AI带来更深层次的智能,推动其在教育、医疗、娱乐等多个领域实现更广泛的应用。

     

    四、市场的投资驱动逻辑

     

    1.AI“卖铲人”继续演绎

     

    2023年以来,人工智能行业发生了质的改变,AI成为了人类第4次产业革命,已经成为共识。AI正在改变着我们的生产生活,由于AI依然处于发展初期,巨大的发展空间,给产业链上下游公司都带来了较大的“跃升”机会。

     

    AI产业链上游为算力、语料,中游为AI大模型,下游为AIGC等AI应用。在发展初期,由于大模型需要不断地经过大量训练,实现迭代升级,因此,在产业早期,作为行业“卖铲人”往往是最先受益的,主要包括AI算力和AI语料

     

    正是基于以上逻辑,AI产业链“卖铲人”诞生了诸多的牛股,如AI算力方向的高新发展、鸿博股份、工业富联、中际旭创等等;AI语料方面的中国科传、华策影视、中文在线等等。

     

    AI语料公司多数来自文化传媒行业,相比算力,他们在AI产业链中不仅仅充当“卖铲人”,不少还是AI应用的主体。不少公司在AI产业链中,既扮演着大模型的上游供应商,也同时是下游应用商,如影视公司既提供AI语料,也利用AI技术进行创作,可以实现降本增效。

     

    2.AI语料的质量直接影响到AI模型的性能

     

    AI语料就是人工智能系统所需的各种类型的数据资料,这些数据资料可以是文字、图片、语音、视频等多种形式。它们为AI模型提供了学习和推理的基础,使模型能够模拟人类的思考和行为。

     

    AI语料的组成丰富多样,其中最常见的是文本数据。这些文本数据可以来源于书籍、文章、论坛帖子、社交媒体内容等,它们为AI模型提供了丰富的语言信息和知识。此外,图片、语音、视频等多媒体数据也是AI语料的重要组成部分。这些多媒体数据为AI模型提供了更加直观、生动的学习材料,有助于模型更好地理解和处理复杂的信息。

     

    AI语料在AI应用中发挥着至关重要的作用。以自然语言处理为例,AI模型需要学习大量的文本数据,才能理解人类语言的含义和规则,从而实现自动翻译、文本摘要、对话生成等功能。在语音识别和语音助手领域,AI模型需要分析大量的语音数据,以识别不同的声音和语调,从而实现准确的语音识别和自然的语音交互。

     

    AI语料的质量直接影响到AI模型的性能,因此,构建高质量、多样化的语料库对于AI的发展至关重要。

     

    3.国产大模型加速迭代升级,AI语料公司有望受益

     

    近期,国内AI大模型相继取得突破。3月18日,月之暗面宣布Kimi智能助手启动200万字无损上下文内测,Kimi智能助手凭借突出的长文本无损处理能力,获得了良好的用户口碑和用户量的快速增长。七麦数据显示Kimi智能助手在iPhone效率类免费榜排名从1月14日的第436名提升至3月24日的第1名。

     

    3月22日,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,科研、法律、教育等领域的专业人士,都可通过通义千问网站和APP快速研读科研论文、解读法律条文、分析考试成绩等。

     

     

    3月22日据《科创板日报》报道,百度文心一言下个月将进行版本升级,届时将开放长文本能力,文字范围在200万-500万。

     

    3月23日,国内初创大模型公司阶跃星辰正式发布Step系列通用大模型(包括Step-2万亿参数MoE语言大模型的预览版)。

     

    3月23日,360智脑官方发布消息称,360智脑正内测500万字长文本处理功能,该功能也即将入驻360AI浏览器。

     

    随着Kimi等国产上下文长文本大模型快速破圈,大语言模型的涌现能力更是让AIGC应用体验得到大幅提升,有望加速催动国内大模型厂商进行产品迭代发布。大模型的进化依赖于大量多样化的训练数据持续投喂,将拉动对AI语料的需求。

     

    此外,3月20日,法国竞争管理局裁定对谷歌罚款2.5亿欧元,主因谷歌未经通知使用了法国媒体出版商和新闻机构的内容训练聊天机器人,违反欧盟知识产权规则。随着大模型发展优化,语料的价值有望放大。

     

    五、概念相关公司梳理

     

    AI语料是构建智能世界的重要基石。随着技术的发展和应用的深入,AI语料的质量和多样性将直接影响到AI系统的能力和应用前景。未来,我们期待AI语料能够更加丰富和精准,为人类社会带来更多的便利和价值。

     

    长文本训练或拉动知识、文学类语料需求,多模态训练或拉动图片、视频类语料需求。AI语料相关上市公司有望获市场重视。相关概念股梳理如下:

     

    文本语料

     

    掌阅科技:公司在文学和阅读领域的版权储备业内领先,这些中文语料可以用于网文行业垂类模型训练。

     

    读客文化:公司已与包括全球四大版在内的数十家版权代理公司保持着长期稳定的合作关系。

     

    新华传媒:公司旗下所属有《财联社》《澎湃》等30多个知名媒10体平台,拥有全领域全方位的高质量已标注语料库。

     

    中原传媒:公司将成为国内首家与OpenAl达成间接合作的出版社。

     

    中文在线:公司深耕文化数字产业,拥有海量的正版中文数据资源,数据总量超过60TB。

     

    荣信文化:公司覆盖了少儿科普百科、卡通/漫画绘本、少儿文学等多个少儿图书领域。

     

    中国出版:公司拥有大量优质图书的版权,以及一批著名作者的多介质版权。

     

    中信出版:公司出版领域涵盖主题出版、经济与管理、少儿、文学、传记、艺术等主要图书品类。

     

    中国科传:公司主要布局了专业学科知识库、数字教育云服务、医疗健康大数据、期刊融合平台四大方向。

     

    果麦文化:公司已积累了包含四千多种经典图书的数据库,其中已开发或正在开发的近千种。

     

    华策影视:公司是国内影视制作龙头企业影视剧版权数量扩充至超5万小时,构建中国最大的影视素材运营平台。

     

    视频语料

     

    中广天择:近期公司已经与万兴天幕大模型签订战略合作协议,并达成视频语料方向的战略合作。

     

    上海电影:上美影拥有600多部动画作品,上影制片厂拥有800多亿部故事片、800多部电视剧资源。

     

    捷成股份:公司是国内影视剧版权运营龙头,目前拥有新媒体电图形语料影版权4803部。

     

    视觉中国:集团拥有近万名签约摄影师和艺术家,并同海内外数金融语料百家图片社、影视机构、版权机构广泛合作。

     

    同花顺:公司自研的问财HithinkGPT大模型,预训练金融语料达到万亿级tokens。

     

    大宗商品语料

     

    上海钢联:公司使用内部的数据库结构和业务逻辑来训练大模型,使其能够识别和查询所需的数据。

     

    生意宝:2023半年报披露生意社平台可以提供大宗商品价格大数据。

     

    卓创资讯:国内领先的大宗商品信息服务企业,大宗商品市场数据监测、交易价格评估及行业数据分析。

     

    消费语料

     

    汇纳科技:公司自成立之初即致力于线下消费行为数据分析,旨在“成为中国最大的线下消费数据提供商”。

     

    值得买:公司基于通用模型,利用自身有特色的数据资源和语料库,自研了值得买消费大模型。

     

    工业语料

     

    容知日新:国内较早进入工业设备状态监测领域的企业之一,工业设备智能运维整体解决方案提供商。

     

    用友网络:国内ERP软件及云服务龙头企业。

     

    赛意信息:工业信息化领域龙头企业之一。向制造、零售、服务等行业领域的集团及大中型客户提供完整的信息化解决方案。

     

    汉得信息:提供专业ERP咨询服务的IT企业。

     

     

     

    风险提示: 关键技术突破不及预期风险、下游需求不及预期等

     

    参考资料:20240325--长城证券—政策顶层建设持续完善,国内大模型竞赛驱动数据作为 AI 语料加速发展;网络公开资料

     

    【免责声明】:以上内容由上海亚商投资顾问刘欢(登记编号A0240622030002)编辑整理。以上内容是基于市场已公开的信息编辑整理,评估及预测为发布日观点和判断,因此不保证信息的完整性和准确性。文中任何观点均不构成投资建议,仅代表个人观点,仅供参考学习。我司不与您分享投资收益,也不承担风险损失。涉及个股仅限于案例分析和教学使用,不作为您最终买卖的依据,据此操作,风险自担。投资有风险,入市需谨慎。