index
股市头条

自然语言处理(NLP)产业分析

2023/2/24 17:46:30

一、自然语言处理(NLP)产业介绍

所谓自然语言处理(Natural Language Processing,NLP)就是以计算机为支持,处理自然语言的音形义,以字词句篇为对象,进行一系列操作与加工,包括输入、输出、识别、分析、理解、生成等。自然语言处理的流程主要包含理解和生成两个方面,前者是指自然语言的理解通过计算机来实现,后者是指以计算机为支持,通过自然语言的运用来对给定意图进行表达。自然语言处理是人工智能领域中的重要方向之一,被誉为人工智能皇冠上的“明珠”。

自然语言处理技术原理是利用计算机处理和分析自然语言数据,通过算法及模型的构建,自然语言处理工具可以提取和挖掘文本中的信息并将其转换为计算机可理解的机器语言

1.png 

二、自然语言处理市场状况

1、时代背景:ChatGPT为自然语言处理带来新的范式变迁

近期,美国人工智能研究公司OpenAI推出人工智能聊天原型Chat-GPT,上线五天全球用户数量已突破百万,赚足了眼球。ChatGPT是一种专注于对话生成的语言模型,它能够根据用户的文本输入,产生相应的智能回答,主要运用的技术就是NLP。有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。

全球科技巨头争相布局类ChatGPT模型:

谷歌在2月6日宣布将推出名为“Apprentice Bard”(学徒吟游诗人)的类ChatGPT模型以及更多的人工智能项目,并探索嵌入谷歌搜索引擎。

百度ChatGPT的项目名字确定为“文心一言”,英文名ERNIEBot,将在三月份完成内测,面向公众开放;

三六零在互动平台回答相关提问时透露,公司计划尽快推出类ChatGPT技术的demo版产品。

ChatGPT已经为自然语言处理带来新的范式变迁,并刺激自然语言处理行业高速发展。

2、自然语言处理环节

1)词法分析

词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。

2)句法分析

句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。

3)语义分析

语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。

  4)语用语境分析

语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。

3、自然语言处理应用

自然语言处理与AI应用产品已逐步开展交汇融合,展现出融合创新的特性,主要发展方向可归纳为两类:“由自然语言处理到开发AI应用平台/产品”与“AI应用平台/产品开发到面向AI的自然语言处理”

1)自然语言处理厂商在积累数据经验与AI模型理解后,为实现业务拓展而将领域从数据层延伸至AI应用及平台开发层;

2)从事AI应用及平台开发的AI厂商,也会在自然语言处理经验不断丰富的背景下,着手向底层开展面向AI的自然语言处理业务,依托于自身AI技术与业务理解,让而向AI的数据源更加契合AI应用模型要求以提升模型拟合效果。

例如:日前,央视新闻联合百度智能云打造的总台首个AI手语主播亮相,将成为听障人士在冬奥会期间“智”听新闻的伙伴。栩栩如生的“数字人”背后,依托的是百度智能云语音识别、自然语言处理、计算机视觉等AI技术;

跨国制药公司礼来(Eli Lilly)正在使用自然语言处理帮助全球三万多名员工在公司内部和外部共享准确的、及时的信息。

综合来看,自然语言处理行业的玩家不仅仅包括传统自然语言处理厂商,还包括众多AI企业、互联网科技企业等,参与者更加丰富多元。

2.png 

4、自然语言处理市场规模

数据显示,2022年我国自然语言处理软件及服务市场规模达到174.5亿元,突破了150亿的大关,在新业态不断涌现,虚拟人市场、人机交互需求日益扩大的背景下,加上NLP作为AI技术中的一个重要分支,同样依赖算力、算法、数据三因素。其中,算力基于IT基础设施的发展,NLP算法基于深度学习的突破,在近年来都得到了较大的进展,也正因如此自然语言处理市场规模可保持稳步增长。

同时,ChatGPT的出现将带动NLP行业发展步入快车道。预计到2030年,市场规模将超过2千亿元,2022-2030年均复合增长率达到36.5%。

3.png 

5、自然语言处理市场格局

中国自然语言处理市场参与者可分为互联网巨头企业、自然语言处理技术研发企业以及自然语言处理创业企业。

其中互联网巨头企业在自然语言处理行业占据约80%的市场份额,自然语言处理技术研发企业以及创业企业合计共占20%的市场份额。

互联网巨头企业通过资金、技术、数据资源等实力,实现自然语言处理的基础软、硬件层、技术层以及应用层全产业链布局,如百度开发了自然语言处理应用平台,为众多自然语言研发企业开源提供底层研发架构支持,同时百度自主研发自然语言处理基础算法、问答系统、阅读理解等核心技术,并将核心技术应用于百度搜索、百度新闻、百度翻译、百度助手等C端产品中,提升了自有产品的智能水平。

自然语言处理技术研发企业在自然语言处理技术方面积累深厚,拓展了稳定的B端业务市场,典型代表有拓尔思和科大讯飞。其中,拓尔思在NLP领域具备自主可控底层技术,在国内NLP市场中占有重要地位。

4.png 

三、自然语言处理产业链

自然语言处理市场规模超1000亿,年复合增长率超35%。

上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。

中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中。

下游市场主体为各类型用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的B端市场是自然语言处理厂商竞争的焦点。

5.png

重点关注

拓尔思300229

国内最早从事自然语言处理(NLP)技术研发的企业。公司拥有多年技术积累,结合知识图谱等技术推出一系列语义智能商业级产品。区别于业内大部分公司普遍基于美国 Elastic Search 等开源软件提供全文检索等技术服务,公司在大数据和人工智能平台中均采用自主研发的技术,具有自然语言处理领域自主可控的全产业链能力。目前公司语义智能技术已延展至知识图谱和图像/视频多媒体内容深度分析理解等子领域,在国内智能搜索、自然语言处理、知识图谱技术领域保持领先。    

公司拥有南方电网、海尔集团等众多企业客户,其中国家知识产权局、平安集团、中国银行、新华社等客户多年来一直重复购买公司产品,已形成较高的客户粘性。

在政府行业,公司从服务 80%部委、60%省级政府向 2800 多个县级行政区拓展;从服务五大行、股份制银行向 4000 多家城商行、农商行等发展。

目前拓尔思的产品和服务已被国内外 8000 多家机构用户广泛使用,覆盖众多金融、通信、能源、制造等企业和科研教育单位。公司长期专注研发、拥有多年积淀的自然语言处理(NLP)技术,实现了与深度学习、知识图谱等最新技术的融合利用,可提供预训练模型和阅读理解等技术成果输出,并探索向嵌入式边缘计算领域延展应用。

在人工智能技术领域,公司基于最新融合技术的实现,推出了 TRS 海文自然语言处理引擎 V9.0、安拓知识图谱平台 3.0 等迭代创新产品。

科大讯飞002230

科大讯飞在NLP领域具备长期深厚的积累关键核心技术始终保持世界前沿水平22年累计获得常识阅读理解挑战赛OpenBookQA、QASC、ReClor等13项认知智能国际竞赛冠军,同时已面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一(在Github平台的中文预训练模型的星标数达13346位列第一,是第二名的2倍)。2022年在国家重点实验室重组后的首批20个国家标杆实验室中,讯飞是唯一一家承建认知智能全国重点实验室。公司NLP等认知智能技术已广泛应用于教育、医疗等领域,并取得良好的应用成效。

同时,科大讯飞在声学技术方面拥有领先的技术,这为其在智能语音交互领域提供了强有力的支持。公司的核心技术包括语音信号处理、语音识别、语音合成、语音评测、声纹识别等方面,这些技术在语音交互、人机交互、智能客服、智能语音助手等方面具有广泛的应用。

科大讯飞拥有全球最大的中文语音语料库,包括普通话、方言、英语、日语、韩语等多种语言的语料库,这为公司的语音识别、语音合成等技术的发展提供了强有力的支持

四、总结

所谓自然语言处理(Natural Language Processing,NLP)就是以计算机为支持,处理自然语言的音形义,以字词句篇为对象,进行一系列操作与加工,包括输入、输出、识别、分析、理解、生成等。

近期火爆的ChatGPT是一种专注于对话生成的语言模型,它能够根据用户的文本输入,产生相应的智能回答,主要运用的技术就是NLP。全球科技巨头争相布局类ChatGPT模型:

谷歌在2月6日宣布将推出名为“Apprentice Bard”;百度ChatGPT的项目名字确定为“文心一言”,将在三月份完成内测,面向公众开放;三六零在互动平台回答相关提问时透露,公司计划尽快推出类ChatGPT技术的demo版产品。ChatGPT已经为自然语言处理带来新的范式变迁,并刺激自然语言处理行业高速发展。

自然语言处理包括词法分析、句法分析、语义分析以及语用语境分析。主要发展方向可归纳为:“由自然语言处理到开发AI应用平台/产品”与“AI应用平台/产品开发到面向AI的自然语言处理”两类。

数据显示,2022年我国自然语言处理软件及服务市场规模达到174.5亿元,突破了150亿的大关。同时,ChatGPT的出现将带动NLP行业发展步入快车道。预计到2030年,市场规模将超过2千亿元,2022-2030年均复合增长率达到36.5%。

目前我国自然语言处理市场参与者可分为互联网巨头企业、自然语言处理技术研发企业以及自然语言处理创业企业。

其中互联网巨头企业在自然语言处理行业占据约80%的市场份额,自然语言处理技术研发企业以及创业企业合计共占20%的市场份额。

NLP技术不论是搜索引擎、个性化推荐、信息流、互联网金融还是社交网络,都在其中起着十分重要的作用,但技术到落地到商业化,面临一系列的挑战,如技术门槛高、投入资金大且盈利周期长、需要持续研究迭代等。因此,建议关注行业内技术成熟且持续研发;商业模式已经落地、能够确保盈利;以及已经与客户建立紧密联系,盈利稳定的企业,如拓尔思与科大讯飞。

 

 

 

免责声明

投资顾问承诺:

本报告来源策略研究中心,本报告作者具有中国证券业协会授予的证券投资咨询执业资格,以勤勉的职业态度,独立、客观地出具本报告。本报告清晰、准确地反映了作者的研究观点。在作者知情范围内,公司与所评价或推荐的证券不存在利害关系。

重要声明:

本文观点由危增俤(执业编号:A0380621040006)陈放(执业编号: A0380619120001)编辑整理。以上观点不构成任何操作建议,股市有风险,投资需谨慎。本报告基于独立、客观、公正和审慎的原则制作,信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证。本报告中的内容和意见仅供参考,并不构成对所述品种买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。

资讯提供:

杭州顶点财经网络传媒有限公司【证书号913301087996770893】


编辑:策略研究中心
主稿:产业透析 执业编号:A0380621040006
上一篇:
下一篇:
栏目最新