CN107729309B - 一种基于深度学习的中文语义分析的方法及装置 - Google Patents
一种基于深度学习的中文语义分析的方法及装置 Download PDFInfo
- Publication number
- CN107729309B CN107729309B CN201610658579.XA CN201610658579A CN107729309B CN 107729309 B CN107729309 B CN 107729309B CN 201610658579 A CN201610658579 A CN 201610658579A CN 107729309 B CN107729309 B CN 107729309B
- Authority
- CN
- China
- Prior art keywords
- chinese
- chinese text
- recognition
- text
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的中文语义分析的方法及装置,涉及自然语言处理技术领域,其方法包括:移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于深度学习的中文语义分析的方法及装置。
背景技术
中文自然语言理解目前已经取得长足进步,特别是在中文分词和词性分析方面产生了大量的研究成果。虽然较英语和日语而言,中文自动化分析技术仍然比较落后,但是之前的研究积累使得研发能够进行高层次语义分析和理解的***,并且将其应用于实际成为可能。运用语义分析技术的***将极大地提高***的智能水平和应对能力。语义分析技术是文本信息分析与处理的关键和难点,也是信息抽取、用户意图分析、信息融合、问题回答、智能推理等基础。
另一方面,深度学习是近期人工智能研究取得突破性的进展,它结束了人工智能长达十年未能有突破性进展的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能***(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在图像识别、语音识别等领域得到极其成功的应用,在自然语言处理领域(主要是英文)也取得成效。
发明内容
根据本发明实施例提供的方案解决的技术问题是中文语义的自动化分析不准确。
根据本发明实施例提供的一种基于深度学习的中文语义分析的方法,包括:
移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
优选地,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用特殊类型词汇模板对规范中文文本进行特殊类型词汇识别,得到所述规范中文文本的特殊类型词汇识别结果,并将得到的特殊类型词汇识别结果作为第一约束条件。
优选地,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
优选地,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
优选地,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
优选地,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
优选地,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据句子分类结果确定双向LSTM(Long-Short Term Memory,长短时记忆)的中文语义角色标注模型,再根据所述规范中文文本的分词、词性和/或命名类型,以及所述双向LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
优选地,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。
优选地,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
根据本发明实施例提供的一种基于深度学习的中文语义分析的装置,包括:
规范化处理模块,用于通过对所获取的中文文本进行规范化处理,得到规范中文文本;
识别模块,用于对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
分析模块,用于根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词和词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
根据本发明实施例提供的方案,对所输入的中文句子,经过语义分析后,输出结构化的分析结果,并利用结构化的分析结果,完成事件分析、信息抽取和情感分析等需要高层语义分析支持的任务。
附图说明
图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图;
图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图;
图3是本发明实施例提供的中文语义分析的模块示意图;
图4是本发明实施例提供的中文序列标注网络模型结构图;
图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图;
图6是本发明实施例提供的双向LSTM的语义角色标注示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图,如图1所示,包括:
步骤S101:移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
步骤S102:移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
步骤S103:移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
步骤S104:移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
其中,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移动终端利用特殊类型词汇模板对规范中文文本进行特殊类型词汇识别,得到所述规范中文文本的特殊类型词汇识别结果,并将得到的特殊类型词汇识别结果作为第一约束条件。
其中,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
其中,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
其中,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
其中,特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别是一种预分词和词性标注,即这个步骤识别出的特殊类型词汇和/或自定义词汇和/或中文命名,在下个分词和词性标注步骤中不再重新进行分词和词性标注,因此就构成了一种约束条件。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,再根据规范中文文本的分词、词性和/或命名类型,以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
其中,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。具体地说,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图,如图2所示,包括:规范化处理模块201,用于通过对所获取的中文文本进行规范化处理,得到规范中文文本;识别模块202,用于对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;分析模块203,用于根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
其中,所述分析模块202包括:句子分类单元,用于根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
其中,所述分析模块202还包括:语义角色标注单元,用于根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,根据规范中文文本的分词、词性和/或命名识别类型,以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本中的单字、分词、特殊类型词汇等元素进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
其中,所述分析模块202还包括:结构化处理单元,用于所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。具体地说,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。其中,事件名称可对应为句子分类结果。比如对终端接收的短信文本来说,句子分类模型分为银行账单、航班火车、约会、天气预报及其他等。那么可把句子分类的结果类型作为事件名称。关键属性即语义角色标注结果。比如在银行账单短信中,标注为账单日、消费金额、还款日期、还款金额等几种类别,属性值即标注为上述类别所对应的原始短信文本中的具体值,如具体日期、具体金额等。
图3是本发明实施例提供的中文语义分析的模块示意图,如图3所示,利用深度学习技术对于所输入的中文句子经过语义分析后,输出结构化的分析结果,并利用结构化的分析结果,完成事件分析、信息抽取以及情感分析等需要高层语义分析支持的任务,具体包括:
·文本规范化处理:对输入中文语句进行规范化处理,包括:统一编码、繁体转简体、全角转半角、特殊字符转换、不规范用语替换(如:将网络用语替换成规范表示)。
·自定义词汇识别:利用自定义词典对自定义的词汇进行识别,包括:应用领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名。
·特殊类型词汇识别:通过定义识别电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词的模板对输入语句包含的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别,并且用特殊的字符进行替换。
·中文命名识别:通过准备中文命名识别的语料,采用图4所示的中文序列标注网络模型,并且训练用于进行中文命名识别的中文命名识别模型,对输入语句中的人名、地名、机构名进行识别,即识别出句子中的具体人名、地名、机构名并同时保存对应的命名类型(比如可用“Person”、“Location”、“Organization”分别表示)。
·中文分词和词性标注:以特殊类型词汇识别和/或自定义词汇识别、和/或中文命名识别的结果作为约束,并准备联合中文分词和词性标注语料,采用图4所示的中文序列标注网络模型,训练用于进行中文分词和词性分析联合注标的中文分词和词性标注模型,对输入语句进行联合中文分词和词性分析。
·句子分类:在进行语义角色标注之前,采用所图5所示的带动态k-max池化的卷积神经网络所产生的句子语义表示对句子进行分类,同时过滤应用不感兴趣的输入句子。即采用包括各类型平衡的句子和负样本句子(应用不感兴趣的中文句子)的句子分类语料,训练带动态k-max池化的卷积神经网络的中文句子分类模型,以此模型对输入句子进行分类,同时过滤应用不感兴趣的输入句子。
·语义角色标注:根据句子分类结果确定双向LSTM的语义标注网络模型(即不同的句子分类类别采用不同的解析模型),再对规范文本中的分词、词性和/或命名类型采用所图6所示的双向LSTM的语义标注网络对句子进行语义角色标注。即根据分词、词性和/或命名类型,准备同一个句子类别的语义角色标注语料,并且训练双向LSTM的中文语义角色标注模型,以此模型对句子进行语义角色标注。
·事件分析:根据语义角色标注结果,结合事件模板封装成语义分析后的结构化表示,提取事件的名称、关键属性和属性值。
其中,语义角色标注的训练语料的格式为句子中按词的顺序一个词汇一行,每行共5列,依次分别表示分词本身(电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等用英文标签替换,单字或标点符号等也当成独立的分词)、语义标签(“O”表示与任务无关类)、词性标签、命名识别标签、分词在句子中的原词形式。每一句样本之间由一空行隔开。
其中,在进行中文分词和词性标注、中文命名识别等基于深度学习的序列标注任务时,将特殊类型词汇识别和/或自定义词汇识别的结果作为约束进行解码算法(进行中文分词和词性标注时的约束条件还可以增加中文命名识别结果),包括:
(1)通过模板预先对电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等类型进行识别。
(2)支持对包括领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名等词汇进行自定义。
(3)结合深度学习网络预测输出,将特殊类型词汇识别和/或自定义词汇识别的结果作为约束进行维特比解码的算法。
图4是本发明实施例提供的中文序列标注网络模型结构图,可以用于中文命名识别、中文分词及词性标注(注:训练语料不同,训练出的模型数据不同,约束条件也不同)。如图4所示,深度学习的中文序列标注网络模型模型接收一个中文句子作为输入,输出以字符(包括:汉字、标点符号和其它可能出现的句子中的字符)为单位的序列标注结果。标签集合采用分词标签加特定任务标签扩展后的标签。以中文命名识别为例,如果以“PER”表示人名标签,则以下句子:
“诸葛亮是刘备军事集团的军师。”
所相应的标注结果为:
“B_PER I_PER E_PER O B_PER E_PER O O O O O O O O”。
其中:“B”表示词汇的开始字符,“I”表示词汇的中间字符,“E”表示词汇的结束字符,“O”表示与任务无关的字符。另外还有“S”表示能够单独成词的字符(如单字或标点符号)。
一个字符的标签一般与其周围字符相关,因而采用窗口模型,即在估计当前字符属于某个标签的可能性时,将这个字符以及周围的字符作为输入(见图4所示)。如果窗口大小设置成5,则表示将这个字符及其左边和右边各两个字符作为输入窗口。如果左边和右边的字符数量不足于窗口规定的大小,则使用填充符代替。
每一个输入的字符将通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。之后将这些向量进行拼接,表示某一个窗口的特征表示。经过一个线性网络层后(中间隐层),使用Sigmoid函数进行非线性转换,最后再使用一个线性层,输出与任务标签数量相等的向量,向量每一元素表示对应标签的可能性。
给定一个中文句子,网络会输出一个矩阵,矩阵中的每一个元素fθ(t|i)表示句子中第i个字符属于标签t的可能性的估计,其中θ表示网络的参数。在序列标注任务中,由于前后标签之间有很强的依赖关系,引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定一个含有n个字符的句子s[1:n],可以为某个等长的标签序列t[1:n]进行估分:
在参数给定的情况下,可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。
训练的方法是在训练集上,要求每一个样本的正确标注序列发生的概率最大:
其中:(s,t)表示训练集中的一个样本。训练采用梯度下降法,网络所有参数使用以下公式进行更新:
其中:λ表示学习步长。
其中,基于深度学习的中文序列标注网络和学习算法的特征在于:
(1)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体转简体、全角转半角、特殊字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成特殊字符。
(2)使用维特比解码时,将自定义词汇识别、特殊类型词汇识别和中文命名识别的结果作为约束。
(3)使用字向量100维、窗口大小为3或5、中间隐层神经元数量300的网络配置(具体参数依赖语料样本集大小)。
图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图,如图5所示,以中文句子为输入,由网络产生全句的语义表示,根据该表示预测句子所属的与任务相关的类别。
网络首先将输入句子中每个字符通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。句子经转换后形成一个特征矩阵。第二步:在特征矩阵的每一维度上,根据设定的窗口大小,采用卷积的方法将窗口特征输入转换成新的特征。窗口在特征矩阵上从左至右依次滑动,产生与特征矩阵列数相同的更高一层的特征表示。不同维度采用不同的卷积核,从而产生输入特征矩阵的一个特征地图。可以同时使用一组不同的卷积核来产生多个特征地图。每一个特征地图上采用k-max池化的方法采出k个最为显著的特征,即在每一维度上提取k个最大的特征值,但这些特征值的顺序保持其在输入特征地图中的顺序。在k-max池化后的结果矩阵上使用hardTanh非线性函数进行特征转换。上述第二步可以叠加多层,新的一层在上一层的结果上进行。最后一层的k-max池化的k值固定(模型的超参数),而之前每一层的k值取最后一层的k值和公式(H–h/H)×L计算得到的值经过向上取整后两者中的较大值。第三步将最后一层获得的所有特征值进行拼接,来产生全句的语义表示。在语义表示的基础上,通过一个线性层和Softmax层来对句子所属类型进行预测。
由于使用了Softmax层,网络输出可以看成不同类别的概率分布。训练采用梯度下降法,网络训练的目标是在训练集上增大正确预测的概率,同时降低错误预测的概率。
其中,基于带动态k-max池化的卷积神经网络的中文句子分类模型的特征在于:
(1)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体转简体、全角转半角、特殊字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成特殊字符。
(2)以字符(包括:汉字、标点和其它可能出现的句子中的字符)级别作为输入,非常适合于中文的情况,避免因中文分词的错误扩展到句子分类任务。
(3)使用单维度的卷积,并且卷积层输出的特征地图的列数与输入特征矩阵列数相同,用于增加网络处理的速度。
(4)网络采用两层的卷积,其中:第一层窗口大小为5、特征地图数量为2,第二层窗口大小为3、特征地图数量为3。最后一层的k-max池化的k取值为5。
图6是本发明实施例提供的双向LSTM的语义角色标注示意图,如图6所示,对不同的句子分类结果采用不同的语义角色标注模型,在语义角色标注时以分词、词性和/或命名识别类型,经整理后作为输入,使用句子类别所关联的语义标签集合,对句子以分词为单位进行语义角色标注。
网络的每个时刻(对应输入句子的每一个词汇)的输入为当前词汇、词性和/或命名识别类型(即在中文命名识别时的类别,如用“Person”、“Location”、“Organization”分别表示的人名、地名、机构名)转换成向量后的拼接向量表示。使用两个LSTM分别从左至右(前向)和从右至左(后向)处理输入句子。对于每一个词汇,LSTM会输出一个向量表示,拼接前向和后向LSTM所产生的输出作为词汇的向量表示(融合了本身及其左右的上下文信息),以此表示作为输入,使用一个线性层来预测词汇所属的标签。
在双向LSTM模型基础上还可以进一步利用所预测词汇标签之间的依赖关系,即带转移概率的双向LSTM。即给定一个中文句子,网络会输出一个矩阵,矩阵中的每一个元素fθ(t|i)表示句子中第i个词汇属于标签t的可能性的估计,其中θ表示网络的参数。在语义标注任务中,由于前后标签之间也有一定的依赖关系,引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定含有n个词汇的句子s[1:n],可以为某个等长的标签序列t[1:n]进行估分:
在网络参数给定的情况下,可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。训练的方法是在训练集上,要求每一个样本所对应的正确语义标注序列发生的概率最大。若当前网络参数产生错误预测时,使用梯度下降法计算各参数对于目标函数的梯度,据此更新参数。
双向LSTM的中文语义角色标注模型的特征在于:
(1)LSTM网络的每一时刻(对应输入句子的每一个词汇)以分词、词性和/或命名类型所对应向量的拼接作为输入。
(2)对于输入的中文语句进行了必要的预处理,包括:统一编码、繁体转简体、全角转半角、特殊字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成特殊字符。
(3)采用双向LSTM来产生每一个中文词汇的特征表示。
(4)模型采用如下关键参数:词汇特征向量维度为30、词性特征向量维度为10、类型特征向量维度为10,每个LSTM的Block数量为50,每个Block包含1个Cell单元。
(5)对于带转移概率的双向LSTM,同时引入语义标签之间的转移概率,然后采用维特比解码来进行中文句子的语义角色标注。
下面以具体实施例来说明本发明实施例的具体内容:
比如手机收到一条短信“您尾号5714的账户于07月16日11时15分完成一笔现存交易,金额为1300.00元,余额3456.03元。[中国农业银行]”。
首先对原始文本进行规范处理,比如有的短信中“[”写成“【”,这就要求进行规范化,全角半角,各种符号的不同形式,统一后便于后续处理。
再对特殊类型的词汇进行识别,主要采用正则表达式的方式在文本字符串中搜索识别,这样就能识别出:
3-6:DIGIT 5714
11-16:DATE 07月16日
17-22:TIME 11时15分
35-42:CURRENCY 1300.00元
46-53:CURRENCY 3456.03元
同时还能识别出文本中标点符号“,,。[]”的位置。
根据命名识别单元或自定义词典(通常命名识别单元不能识别出的特定词汇可以添加到自定义词典中,比如在自定义词典中预先添加了银行类的关键词)还能识别出:
56-61:BANK中国农业银行
注:上述第一列的两个数字是特殊词汇在原始文本中的起始位置(首字符从0计数)。
那么经过预处理,上述已经识别出的分词就构成下一步的约束(即这些词汇不再被重新分词和词性标注),约束条件可用一个字符串表示,表示每一个字符的分词及词性,比如“
O O O B_D I_D I_D E_D O O O O B_NT I_NT I_NT I_NT_I NT E_NT B_NT I_NTI_NT I_NT I_NT E_NT O O O O O O O O S_PU O O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU S_PU B_NR I_NR I_NR I_NR I_NRE_NR S_PU”
上述“O”表示其他字符,在下一个步骤进行分词和词性识别。诸如“B_D”表示一个数字词的开始,“I_D”表示数字词的中间,“E_D”表示数字词的结尾。下划线“_”前面表示字符在词中的位置,后面表示词性,这就是进行联合分词和词性标注。“B”、“I”、“E”分别表示字符在分词中的开始、中间、结尾处。“S”符号表示单独的字词,例如标点符号就用“S_PU”表示。“NT”表示时间名词,“NR”表示特殊名词,还有诸如其他动词、形容词等等各种词性可以预先规定好。
经过分词和词性标注后,就能将文本中每个字词分辨开来(“/”前是原始字词,后面表示词性),如:
“您/PN尾号/NN 5714/D的/U账户/NN于/P 07月16日/NT 11时15分/NT完成/V一/D笔/M现存/V交易/V,/PU金额/NN为/V 1300.00元/D,/PU余额/NN 3456.03元/D。/PU[/PU中国农业银行/NR]/PU”。
上述例子中,比如分词“尾号”,其词性是普通名词,用“NN”表示。又如分词“5714”,其词性是数字,用“D”表示,分词“交易”,词性是动词,用“V”表示。分词“[”,其词性是标点符号,以“PU”表示。以此类推,把规范化的文本按照分词为单元切分开来(单字、标点符号也作为单独的分词结构),并且标记出该分词在文本中词性。
进行语义分析时,特殊类型的词汇可以统一表示,即用一个标签符号替换,这样就有:
“您/PN尾号/NN DIGIT/D的/U账户/NN于/P DATE/NT TIME/NT完成/V一/D笔/M现存/V交易/V,/PU金额/NN为/V CURRENCY/D,/PU余额/NN CURRENCY/D。/PU[/PU BANK/NR]/PU”
根据分词、词性和/或命名识别类型通过语义分析,就可以抽取出用户感兴趣的词,比如对银行通知短信,可以抽取日期、时间、帐号、出入金额、余额及银行名称等关键信息,这些关键信息即语义角色标注,标记在对应词后面,用“/”隔开。“/”后面为“O”即不需抽取的内容。
本例的语义分析结果:“您/O尾号/O 5714/ACCOUNT的/O账户/O于/O 07月16日/DATE 11时15分/TIME完成/O一/O笔/O现存/O交易/O,/O金额/O为/O 1300.00元/INCOME,/O余额/O3456.03元/BALANCE。/O[/O中国农业银行/BANK]/O”。
其中“ACCOUNT”,“DATE”,“TIME”,“INCOME”,“BALANCE”,“BANK”就是语义角色标签并标注在对应的分词上。
最终,根据抽取的关键信息,在界面或应用中进行提示、交互等等。比如,收到上文的短信,可以提示用户:
事件:入账
账号:5714
日期:07月16日
时间:11时15分
入账:1300.00元
余额:3456.03元
银行:中国农业银行
根据本发明实施例提供的方案,基于深度学***台上,不需要借助额外的计算资源和设备就能够完成复杂的中文语义分析任务,能够较大地提高相关应用的响应速度和用户满意度。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。
Claims (10)
1.一种基于深度学习的中文语义分析的方法,包括:
移动终端通过对所获取的中文文本进行规范化处理,得到规范中文文本;
移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性;
移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
2.根据权利要求1所述的方法,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用特殊类型词汇模板对规范中文文本进行特殊类型词汇识别,得到所述规范中文文本的特殊类型词汇识别结果,并将得到的特殊类型词汇识别结果作为第一约束条件。
3.根据权利要求1所述的方法,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别,得到所述规范中文文本的自定义词汇识别结果,并将得到的自定义词汇识别结果作为第二约束条件。
4.根据权利要求1所述的方法,所述移动终端对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件包括:
所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别,得到所述规范中文文本的中文命名识别结果,并将所得到的中文命名识别结果作为第三约束条件。
5.根据权利要求2-4任一所述的方法,所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
6.根据权利要求1-5任一所述的方法,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型,对所述规范中文文本进行句子分类,得到所述规范中文文本的句子分类结果。
7.根据权利要求6所述的方法,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型,再根据所述规范中文文本的分词、词性和/或命名识别类型以及所述双向长短时记忆LSTM的中文语义角色标注模型,对所述规范中文文本的每个分词和符号进行语义角色标注,得到所述规范中文文本的语义角色标注结果。
8.根据权利要求7所述的方法,所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析包括:
所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型,对所述规范中文文本进行结构化处理,提取出所述规范中文文本的关键信息。
9.根据权利要求8所述的方法,所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
10.一种基于深度学习的中文语义分析的装置,包括:
规范化处理模块,用于通过对所获取的中文文本进行规范化处理,得到规范中文文本;
识别模块,用于对规范中文文本进行特殊类型词汇识别和/或自定义词汇识别和/或中文命名识别,并将识别结果作为约束条件;
分析模块,用于根据所述约束条件和利用深度学习得到中文分词和词性标注模型,对所规范中文文本进行中文分词和词性分析,得到规范中文文本的分词和词性,并利用所述规范中文文本的分词、词性和/或命名识别类型,对所规范中文文本进行中文语义分析。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610658579.XA CN107729309B (zh) | 2016-08-11 | 2016-08-11 | 一种基于深度学习的中文语义分析的方法及装置 |
PCT/CN2016/105977 WO2018028077A1 (zh) | 2016-08-11 | 2016-11-15 | 一种基于深度学习的中文语义分析的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610658579.XA CN107729309B (zh) | 2016-08-11 | 2016-08-11 | 一种基于深度学习的中文语义分析的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729309A CN107729309A (zh) | 2018-02-23 |
CN107729309B true CN107729309B (zh) | 2022-11-08 |
Family
ID=61161388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610658579.XA Active CN107729309B (zh) | 2016-08-11 | 2016-08-11 | 一种基于深度学习的中文语义分析的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107729309B (zh) |
WO (1) | WO2018028077A1 (zh) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232182B (zh) * | 2018-04-10 | 2023-05-16 | 蔚来控股有限公司 | 语义识别方法、装置和语音对话*** |
CN110413983B (zh) * | 2018-04-27 | 2022-09-27 | 北京海马轻帆娱乐科技有限公司 | 一种识别人名的方法及装置 |
CN108806671B (zh) * | 2018-05-29 | 2019-06-28 | 杭州认识科技有限公司 | 语义分析方法、装置及电子设备 |
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN108874776B (zh) * | 2018-06-11 | 2022-06-03 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
CN109101584B (zh) * | 2018-07-23 | 2020-11-03 | 湖南大学 | 一种将深度学习与数学分析相结合的句子分类改进方法 |
CN109145296A (zh) * | 2018-08-09 | 2019-01-04 | 新华智云科技有限公司 | 一种基于监督模型的泛词识别方法及装置 |
CN109582949B (zh) * | 2018-09-14 | 2022-11-22 | 创新先进技术有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109344406B (zh) * | 2018-09-30 | 2023-06-20 | 创新先进技术有限公司 | 词性标注方法、装置和电子设备 |
CN109543187B (zh) * | 2018-11-23 | 2021-09-17 | 中山大学 | 电子病历特征的生成方法、装置及存储介质 |
CN109657207B (zh) * | 2018-11-29 | 2023-11-03 | 爱保科技有限公司 | 条款的格式化处理方法和处理装置 |
CN109710924B (zh) * | 2018-12-07 | 2022-04-12 | 平安科技(深圳)有限公司 | 文本模型训练方法、文本识别方法、装置、设备及介质 |
CN109615006B (zh) * | 2018-12-10 | 2021-08-17 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN109753564A (zh) * | 2018-12-13 | 2019-05-14 | 四川大学 | 基于机器学习的中文rct智能分类器的构建方法 |
CN111368506B (zh) * | 2018-12-24 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 文本处理方法及装置 |
CN109740160B (zh) * | 2018-12-31 | 2022-11-25 | 浙江成功软件开发有限公司 | 一种基于人工智能语义分析的任务发布方法 |
CN109918506B (zh) * | 2019-03-07 | 2022-12-16 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN110032634A (zh) * | 2019-04-17 | 2019-07-19 | 北京理工大学 | 一种基于多类型深度特征的中文命名实体识别方法 |
CN110134954B (zh) * | 2019-05-06 | 2023-12-22 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110222338B (zh) * | 2019-05-28 | 2022-11-22 | 浙江邦盛科技股份有限公司 | 一种机构名实体识别方法 |
CN110321565B (zh) * | 2019-07-09 | 2024-02-23 | 广东工业大学 | 基于深度学习的实时文本情感分析方法、装置及设备 |
CN110427615B (zh) * | 2019-07-17 | 2022-11-22 | 宁波深擎信息科技有限公司 | 一种基于注意力机制的金融事件修饰时态的分析方法 |
CN110443291B (zh) * | 2019-07-24 | 2023-04-14 | 创新先进技术有限公司 | 一种模型训练方法、装置及设备 |
CN110674639B (zh) * | 2019-09-24 | 2022-12-09 | 识因智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN110826330B (zh) * | 2019-10-12 | 2023-11-07 | 上海数禾信息科技有限公司 | 人名识别方法及装置、计算机设备及可读存储介质 |
CN110837735B (zh) * | 2019-11-17 | 2023-11-03 | 内蒙古中媒互动科技有限公司 | 一种数据智能分析识别方法及*** |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及*** |
CN111078947B (zh) * | 2019-11-19 | 2023-06-02 | 太极计算机股份有限公司 | 基于xml的领域要素提取配置语言*** |
CN110990532A (zh) * | 2019-11-28 | 2020-04-10 | 中国银行股份有限公司 | 一种处理文本的方法和装置 |
CN111144127B (zh) * | 2019-12-25 | 2023-07-25 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN113052544A (zh) * | 2019-12-26 | 2021-06-29 | 东软集团(上海)有限公司 | 工作流依用户行为智能适配方法、装置以及存储介质 |
CN111310468B (zh) * | 2020-01-15 | 2023-05-05 | 同济大学 | 一种利用不确定分词信息实现中文命名实体识别方法 |
CN111507104B (zh) | 2020-03-19 | 2022-03-25 | 北京百度网讯科技有限公司 | 建立标签标注模型的方法、装置、电子设备和可读存储介质 |
CN111460831B (zh) * | 2020-03-27 | 2024-04-19 | 科大讯飞股份有限公司 | 事件确定方法、相关设备及可读存储介质 |
CN112749561B (zh) * | 2020-04-17 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN111563161B (zh) * | 2020-04-26 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 一种语句识别方法、语句识别装置及智能设备 |
CN111597350B (zh) * | 2020-04-30 | 2023-06-02 | 西安理工大学 | 基于深度学习的轨道交通事件知识图谱构建方法 |
CN111709241B (zh) * | 2020-05-27 | 2023-03-28 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN111666381B (zh) * | 2020-06-17 | 2022-11-18 | 中国电子科技集团公司第二十八研究所 | 一种面向智能管制的任务型问答交互*** |
CN111931481A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本情感识别方法、装置、存储介质及计算机设备 |
CN111859858B (zh) * | 2020-07-22 | 2024-03-01 | 智者四海(北京)技术有限公司 | 从文本中提取关系的方法及装置 |
CN111966579A (zh) * | 2020-07-24 | 2020-11-20 | 复旦大学 | 基于自然语言处理与机器学习的自适应文本输入生成方法 |
CN111914538B (zh) * | 2020-07-31 | 2024-05-31 | 长江航道测量中心 | 一种航道通告信息智能空间匹配方法及*** |
CN112101014B (zh) * | 2020-08-20 | 2022-07-26 | 淮阴工学院 | 一种混合特征融合的中文化工文献分词方法 |
CN112052670B (zh) * | 2020-08-28 | 2024-04-02 | 丰图科技(深圳)有限公司 | 地址文本分词方法、装置、计算机设备和存储介质 |
CN112069814A (zh) * | 2020-09-01 | 2020-12-11 | 应急管理部沈阳消防研究所 | 一种基于深度学习的消防预案分类方法 |
CN112269862B (zh) * | 2020-10-14 | 2024-04-26 | 北京百度网讯科技有限公司 | 文本角色标注方法、装置、电子设备和存储介质 |
CN112528653B (zh) * | 2020-12-02 | 2023-11-28 | 支付宝(杭州)信息技术有限公司 | 短文本实体识别方法和*** |
CN112700881B (zh) * | 2020-12-29 | 2022-04-08 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN112965909B (zh) * | 2021-03-19 | 2024-04-09 | 湖南大学 | 测试数据、测试用例生成方法及***、存储介质 |
CN112966525B (zh) * | 2021-03-31 | 2023-02-10 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN113177108A (zh) * | 2021-05-27 | 2021-07-27 | 中国平安人寿保险股份有限公司 | 语义角色标注方法、装置、计算机设备和存储介质 |
CN114706942B (zh) * | 2022-03-16 | 2023-11-24 | 马上消费金融股份有限公司 | 文本转换模型训练方法、文本转换方法、装置及电子设备 |
CN115048940B (zh) * | 2022-06-23 | 2024-04-09 | 之江实验室 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
WO2014087506A1 (ja) * | 2012-12-05 | 2014-06-12 | 三菱電機株式会社 | 語義推定装置、語義推定方法及び語義推定プログラム |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047183B2 (en) * | 2001-08-21 | 2006-05-16 | Microsoft Corporation | Method and apparatus for using wildcards in semantic parsing |
US8326809B2 (en) * | 2008-10-27 | 2012-12-04 | Sas Institute Inc. | Systems and methods for defining and processing text segmentation rules |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN104965822B (zh) * | 2015-07-29 | 2017-08-25 | 中南大学 | 一种基于计算机信息处理技术的中文文本情感分析方法 |
CN105243055B (zh) * | 2015-09-28 | 2018-07-31 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
-
2016
- 2016-08-11 CN CN201610658579.XA patent/CN107729309B/zh active Active
- 2016-11-15 WO PCT/CN2016/105977 patent/WO2018028077A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
WO2014087506A1 (ja) * | 2012-12-05 | 2014-06-12 | 三菱電機株式会社 | 語義推定装置、語義推定方法及び語義推定プログラム |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析*** |
Non-Patent Citations (1)
Title |
---|
基于条件随机场的无监督中文词性标注;孙静等;《计算机应用与软件》;20110415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107729309A (zh) | 2018-02-23 |
WO2018028077A1 (zh) | 2018-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109657230B (zh) | 融合词向量和词性向量的命名实体识别方法及装置 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111291566B (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN111274394A (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN110263325A (zh) | 中文分词*** | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、***及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其*** | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、***和装置 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、***及装置 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |