CN111553157A - 一种基于实体替换的对话意图识别方法 - Google Patents

一种基于实体替换的对话意图识别方法 Download PDF

Info

Publication number
CN111553157A
CN111553157A CN202010271707.1A CN202010271707A CN111553157A CN 111553157 A CN111553157 A CN 111553157A CN 202010271707 A CN202010271707 A CN 202010271707A CN 111553157 A CN111553157 A CN 111553157A
Authority
CN
China
Prior art keywords
entity
text
named entity
dialog
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010271707.1A
Other languages
English (en)
Inventor
张堃
王天宇
周波
李文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Borazhe Technology Co ltd
Nantong University
Original Assignee
Hangzhou Borazhe Technology Co ltd
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Borazhe Technology Co ltd, Nantong University filed Critical Hangzhou Borazhe Technology Co ltd
Priority to CN202010271707.1A priority Critical patent/CN111553157A/zh
Publication of CN111553157A publication Critical patent/CN111553157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于实体替换的对话意图识别方法,包括以下步骤:步骤一、文本分词;步骤二、文本过滤;步骤三、文本命名实体识别:步骤四、文本命名实体替换;步骤五、文本特征提取:步骤六、文本意图识别;实现实体替换的对话意图识别,本方法利用命名实体识别结果,将文本信息中的实体名称替换为实体类型,降低了对话***语料数据的量级与不平衡度,从而综合提升对话过程意图识别的准确度。

Description

一种基于实体替换的对话意图识别方法
技术领域
本发明涉及一种基于对话意图识别方法,具体涉及一种基于实体替换的对话意图识别方法。
背景技术
近年来,在人工智能与半导体芯片技术的飞速发展和语音交互需求日益扩增的影响下,诸如智能音箱、智能家具、智能语音客服等各类基于对话***的应用产品逐渐在市场上百花齐放。
此类对话***一般由语音识别(ASR),自然语言理解(NLU),对话管理(DM),自然语言生成(NLG)和语音合成(TTS)这五个模块组成。目前,语音识别模块利用深度学习技术已有了较好的解决方案,自然语言生成和语音合成模块相对较易控制,对话***设计的难点主要在于自然语言理解和对话管理模块。其中自然语言理解模块的目标是将语音识别模块所得到的文本信息转化为语义表示,使得机器具备人一样的语言理解能力。因此语言理解模块的准确率是维持对话***正常运转的前提和保障。
随着深度学***。然而,由于复杂对话***中语料数据的量级和意图的复杂度相较前者有显著提高,语料数据不平衡、意图种类繁多等问题加剧了对话意图识别的难度。如发明专利“人机交互中自然语言意图理解方法及装置”(CN201710219326)以文本信息的词向量作为输入,利用意图识别模型得到文本信息的意图类型。一旦训练样本类别分布不均衡,其意图识别模型容易出现严重的过拟合和欠拟合现象,存在一定的局限性。如发明专利“一种意图识别方法及装置”(CN201811368503)将文本信息输入至少一个意图识别模型,生成与每个意图识别模型对应的预测结果,最终确定文本意图。随着意图种类的增多,该方法模型训练的成本和难度会大幅提高,不适用于复杂对话***的意图识别。
发明内容
发明目的:本发明旨在弥补现有技术手段的缺乏与不足,提供一种基于实体替换的对话意图识别方法;该方法利用命名实体识别结果,将文本信息中的实体名称替换为实体类型,降低了对话***语料数据的量级与不平衡度,从而综合提升对话过程意图识别的准确度。
技术方案:为了实现上述发明目的,本发明采用的技术方案为:
一种基于实体替换的对话意图识别方法,包括以下步骤:
步骤一、文本分词:
利用分词工具对语音识别模块所得到的文本信息进行分词,得到分词结果集合Token;其中分词结果表示为集合{W},W代表切分的单词;
步骤二、文本过滤:
根据对话***建立所需的停用词词库,利用停用词词库对步骤一所得的分词结果集合Token进行文本信息过滤,得到文本清洗后的结果Token*
步骤三、文本命名实体识别:
通过命名实体识别,得到命名实体识别结果为{E:T},其中E代表实体名称,T代表实体类型;
步骤四、文本命名实体替换:
用特定字符将对话***中所涉及到的命名实体类型做一一映射,记为{T:C},重新组合得到新的语料,其中T代表实体类型,C代表特定字符;所选特定字符需确保不存在于对话***的语料中;
步骤五、文本特征提取:
基于不同类型的预训练模型,利用步骤四中得到的新的语料,对上述预训练模型进行微调,得到微调后的特征提取模型;利用微调后的特征提取模型得到对话***语料的词向量Vec;
步骤六、文本意图识别:
采用双向长短期记忆Bi-LSTM+注意力机制Attention的网络结构实现文本意图识别。
进一步的,步骤三、文本命名实体识别具体工作步骤,具体工作如下:
1)基于规则匹配,
根据对话***的需求设计相应的正则表达式,基于正则表达式对命名实体进行抽取,匹配出符合要求的字段;
2)基于实体词典
根据对话***构建相应的命名实体词典,基于命名实体词典对步骤一中所得的分词结果进行匹配;
3)基于模型
通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence,对Sentence中的各个位置进行人工或自动标注,完成序列标注任务;标注完成后得到标注语句Sentence*,由B-T,I-T,O,E-T,S-T组成,进而通过训练命名实体识别模型实现基于模型的命名实体识别。
进一步的,步骤三中的基于模型中,序列标注可采用BIO标注模式或BIOES标注模式;其中在BIOES标注模式中,B为Begin,代表实体的开始,I为Intermediate,代表实体的中间,O为Other,代表非实体的无关字符,E为End,代表实体的结尾,S为Single,代表该实体由单字符组成。
进一步的,所述步骤四、中文本命名实体替换具体工作步骤:将步骤三中所得的命名实体识别结果{E:T}中的实体名称T用特定字符C做替换,得到命名实体替换后的结果集合{E:C},代入步骤二中所得的分词结果Token*,将包含在实体名称E中的单词W用特定字符C替换后,重新组合得到新的语料Sentence′;
进一步的,所述步骤六文本意图识别中的网络结构,网络结构主要由4个部分组成,具体分别为:
1)输入层:将步骤五中所获得的对话***语料的词向量Vec作为输入V;
2)双向LSTM层:利用双向长短期记忆网络对输入层的词向量进行前向计算得到向量VL,后向计算得到向量VR;对前后向量进行拼接得到拼接后的LSTM层输出向量VC,其中VC=[VL,VR];
3)Attention层:对LSTM层的输出向量VC进行Attention加权,进一步得到输出结果VA,计算方法如下:
Vm=tanh(Vc)
α=softmax(wTVm)
VA=VcαT
其中w为Attention层的权重矩阵。
4)输出层:将Attention层的输出结果VA利用Softmax分类器对语句意图进行预测,得到意图预测结果
Figure BDA0002441736800000051
Figure BDA0002441736800000052
其中WS,bS分别为输出层的权重矩阵和偏置值。
有益效果:与现有技术相比,本方法利用命名实体识别结果,将文本信息中的实体名称替换为实体类型,降低了对话***语料数据的量级与不平衡度,从而综合提升对话过程意图识别的准确度。
附图说明
图1是本发明一种基于实体替换的对话意图识别方法的示意性流程图;
图2是本发明一种文本命名实体替换过程的示例;
图3是本发明一种语料序列标注方式;
图4是本发明一种实现文本意图识别的网络结构。
具体实施方式
下面结合具体实施例进一步说明本发明,但这些实施例并不用来限制本发明。
一种基于实体替换的对话意图识别方法,如图1所示,该方法包含如下几个步骤:
步骤一:文本分词
利用分词工具对语音识别模块所得到的文本信息进行分词,得到分词结果集合Token,其中分词结果可表示为集合{W},W代表切分的单词。
步骤二:文本过滤
根据对话***建立所需的停用词词库,通常停用词包括但不限于助词、语气词、连接词等等。利用停用词词库对步骤一所得的分词结果集合Token进行文本信息过滤,得到文本清洗后的结果Token*
步骤三:文本命名实体识别
命名实体识别包括但不限于以下三种方式,同时多种方式可混合使用,得到命名实体识别结果为{E:T},其中E代表实体名称,T代表实体类型。
1)基于规则匹配,
根据对话***的需求设计相应的正则表达式,基于正则表达式对例如电话号码、邮箱地址、身份证号码等类型的命名实体进行抽取,匹配出符合要求的字段。
2)基于实体词典
根据对话***构建相应的命名实体词典,基于命名实体词典对步骤一中所得的分词结果进行匹配,匹配方式包括但不限于字符串多模匹配、切词匹配等等。
3)基于模型
通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence,对Sentence中的各个位置进行人工或自动标注,完成序列标注任务。通常序列标注可采用BIO标注模式或BIOES标注模式。以BIOES标注模式为例,B为Begin,代表实体的开始,I为Intermediate,代表实体的中间,O为Other,代表非实体的无关字符,E为End,代表实体的结尾,S为Single,代表该实体由单字符组成。标注完成后得到标注语句Sentence*,由B-T,I-T,O,E-T,S-T组成,进而通过训练命名实体识别模型实现基于模型的命名实体识别。具体如图3所示为某订餐***的语料数据序列标注结果。命名实体识别一般可采用HMM、CRF等模型,优选的,本发明专利中采用双向长短期记忆(BiLSTM)+条件随机场(CRF)模型实现命名实体识别可取得较优效果。
步骤四:文本命名实体替换
用特定字符将对话***中所涉及到的命名实体类型做一一映射,记为{T:C},其中T代表实体类型,C代表特定字符。所选特定字符需确保不存在于对话***的语料中,包括但不限于英文字符、罗马数字、希腊字母等等。
将步骤三中所得的命名实体识别结果{E:T}中的实体名称T用特定字符C做替换,得到命名实体替换后的结果集合{E:C},代入步骤二中所得的分词结果Token*,将包含在实体名称E中的单词W用特定字符C替换后,重新组合得到新的语料Sentence′。
例如语料中包含3条语句分别为S1,S2,S3,经文本信息分词后得到S1=abc1d,S2=abc2d,S3=abc3d,其中a、b、c1、c2、c3、d代表语料分词结果Token中的不同词汇,且c1、c2、c3代表同种命名实体类型下的不同实体名称。用特定字符c0替换c1、c2、c3后,得到3条完成命名实体替换后的语料分别为S1′,S2′,S3′,其中S1′=abcod,S2′=abcod,S3′=abcod,从而缩小意图识别模型中语料的多样性,降低文本信息的不平衡度。具体如图2所示为某天气查询***的语料数据命名实体替换示例。
步骤五:文本特征提取
基于BERT,GPT,XLNet,XLM等预训练模型,利用步骤四中得到的语料Sentence′,对上述预训练模型进行微调,得到微调后的特征提取模型。利用微调后的特征提取模型得到对话***语料的词向量Vec。
步骤六:文本意图识别
本发明中采用双向长短期记忆(Bi-LSTM)+注意力机制(Attention)的网络结构实现文本意图识别。该网络结构主要由4个部分组成,如图4所示,具体分别为:
1)输入层:将步骤五中所获得的对话***语料的词向量Vec作为输入V;
2)双向LSTM层:利用双向长短期记忆网络对输入层的词向量进行前向计算得到向量VL,后向计算得到向量VR。对前后向量进行拼接得到拼接后的LSTM层输出向量VC,其中VC=[VL,VR];
3)Attention层:对LSTM层的输出向量VC进行Attention加权,进一步得到输出结果VA,计算方法如下:
Vm=tanh(Vc)
α=softmax(wTVm)
VA=VcαT
其中w为Attention层的权重矩阵。
4)输出层:将Attention层的输出结果VA利用Softmax分类器对语句意图进行预测,得到意图预测结果
Figure BDA0002441736800000101
Figure BDA0002441736800000102
其中Ws,bs分别为输出层的权重矩阵和偏置值。
本方法利用命名实体识别结果,将文本信息中的实体名称替换为实体类型,降低了对话***语料数据的量级与不平衡度,从而综合提升对话过程意图识别的准确度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于实体替换的对话意图识别方法,其特征在于,包括以下步骤:
步骤一、文本分词:
利用分词工具对语音识别模块所得到的文本信息进行分词,得到分词结果集合Token;
步骤二、文本过滤:
根据对话***建立所需的停用词词库,利用停用词词库对步骤一所得的分词结果集合Token进行文本信息过滤,得到文本清洗后的结果Token*
步骤三、文本命名实体识别:
通过深度学习模型对步骤二所得的文本清洗结果进行命名实体识别;
步骤四、文本命名实体替换:
用特定字符将对话***中所涉及到的命名实体类型做一一映射,记为{T∶C},重新组合得到新的语料,其中T代表实体类型,C代表特定字符;所选特定字符需确保不存在于对话***的语料中;
步骤五、文本特征提取:
基于不同类型的预训练模型,利用步骤四中得到的新的语料,对上述预训练模型进行微调,得到微调后的特征提取模型;利用微调后的特征提取模型得到对话***语料的词向量Vec;
步骤六、文本意图识别:
采用双向长短期记忆Bi-LSTM+注意力机制Attention的网络结构实现文本意图识别。
2.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:所述步骤一集合Token的分词结果表示为集合{W},W代表切分的单词;
3.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:所述步骤3中,通过命名进行实体识别后,得到命名实体识别结果为{E:T},其中E代表实体名称,T代表实体类型。
4.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:步骤三、文本命名实体识别具体工作步骤,具体工作如下:
1)基于规则匹配,
根据对话***的需求设计相应的正则表达式,基于正则表达式对命名实体进行抽取,匹配出符合要求的字段;
2)基于实体词典
根据对话***构建相应的命名实体词典,基于命名实体词典对步骤一中所得的分词结果进行匹配;
3)基于模型
通过收集对话***的历史语料或语料生成的方式得到原始语料Sentence,对Sentence中的各个位置进行人工或自动标注,完成序列标注任务;标注完成后得到标注语句Sentence*,进而通过训练命名实体识别模型实现基于模型的命名实体识别。
5.根据权利要求4所述的基于实体替换的对话意图识别方法,其特征在于:所述标注语句Sentence*是由B-T,I-T,O,E-T,S-T组成。
6.根据权利要求4所述的基于实体替换的对话意图识别方法,其特征在于:基于模型中,序列标注可采用BIO标注模式或BIOES标注模式。
7.根据权利要求6所述的基于实体替换的对话意图识别方法,其特征在于:BIOES标注模式中,B为Begin,代表实体的开始,I为Intermediate,代表实体的中间,O为Other,代表非实体的无关字符,E为End,代表实体的结尾,S为Single,代表该实体由单字符组成。
8.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:所述步骤四、中文本命名实体替换具体工作步骤:将步骤三中所得的命名实体识别结果{E∶T}中的实体名称T用特定字符C做替换,得到命名实体替换后的结果集合{E∶C},代入步骤二中所得的分词结果Token*,将包含在实体名称E中的单词W用特定字符C替换后,重新组合得到新的语料Sentence′。
9.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:所述步骤六文本意图识别中的网络结构,网络结构主要由4个部分组成,具体分别为:
1)输入层:将步骤五中所获得的对话***语料的词向量Vec作为输入V;
2)双向LSTM层:利用双向长短期记忆网络对输入层的词向量进行前向计算得到向量VL,后向计算得到向量VR;对前后向量进行拼接得到拼接后的LSTM层输出向量VC,其中VC=[VL,VR];
3)Attention层:对LSTM层的输出向量VC进行Attention加权,进一步得到输出结果VA,计算方法如下:
Vm=tanh(Vc)
α=softmax(wTVm)
VA=VcαT
其中w为Attention层的权重矩阵。
4)输出层:将Attention层的输出结果VA利用Softmax分类器对语句意图进行预测,得到意图预测结果
Figure FDA0002441736790000041
Figure FDA0002441736790000042
其中WS,bS分别为输出层的权重矩阵和偏置值。
10.根据权利要求1所述的基于实体替换的对话意图识别方法,其特征在于:所述步骤3采用双向长短期记忆BiLSTM+条件随机场CRF模型实现命名实体识别可取得较优效果。
CN202010271707.1A 2020-04-08 2020-04-08 一种基于实体替换的对话意图识别方法 Pending CN111553157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010271707.1A CN111553157A (zh) 2020-04-08 2020-04-08 一种基于实体替换的对话意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010271707.1A CN111553157A (zh) 2020-04-08 2020-04-08 一种基于实体替换的对话意图识别方法

Publications (1)

Publication Number Publication Date
CN111553157A true CN111553157A (zh) 2020-08-18

Family

ID=72002342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010271707.1A Pending CN111553157A (zh) 2020-04-08 2020-04-08 一种基于实体替换的对话意图识别方法

Country Status (1)

Country Link
CN (1) CN111553157A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905774A (zh) * 2021-02-22 2021-06-04 武汉市聚联科软件有限公司 一种基于事理图谱的人机对话深度意图理解方法
CN113779229A (zh) * 2021-08-31 2021-12-10 康键信息技术(深圳)有限公司 用户需求识别匹配方法、装置、设备和可读存储介质
CN115064170A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101598495A (zh) * 2009-06-29 2009-12-09 上海泽玛克敏达机械设备有限公司 冷凝水回收装置
CN108874774A (zh) * 2018-06-05 2018-11-23 浪潮软件股份有限公司 一种基于意图理解的服务调用方法和***
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别***
CN110287479A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN110298044A (zh) * 2019-07-09 2019-10-01 广东工业大学 一种实体关系识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101598495A (zh) * 2009-06-29 2009-12-09 上海泽玛克敏达机械设备有限公司 冷凝水回收装置
CN108874774A (zh) * 2018-06-05 2018-11-23 浪潮软件股份有限公司 一种基于意图理解的服务调用方法和***
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别***
CN110287479A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN110298044A (zh) * 2019-07-09 2019-10-01 广东工业大学 一种实体关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐啸;朱艳辉;冀相冰;: "基于自注意力深度学习的微博实体识别研究" *
王子岳;邵曦;: "基于S-LSTM模型利用‘槽值门’机制的说话人意图识别" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905774A (zh) * 2021-02-22 2021-06-04 武汉市聚联科软件有限公司 一种基于事理图谱的人机对话深度意图理解方法
CN113779229A (zh) * 2021-08-31 2021-12-10 康键信息技术(深圳)有限公司 用户需求识别匹配方法、装置、设备和可读存储介质
CN115064170A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115064170B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Similar Documents

Publication Publication Date Title
US11488586B1 (en) System for speech recognition text enhancement fusing multi-modal semantic invariance
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110070855B (zh) 一种基于迁移神经网络声学模型的语音识别***及方法
EP4281967A1 (en) Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN113205817A (zh) 语音语义识别方法、***、设备及介质
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类***及方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN115935959A (zh) 一种低资源黏着语序列标注的方法
Bai et al. A universal bert-based front-end model for mandarin text-to-speech synthesis
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和***
Zeng Implementation of Embedded Technology-Based English Speech Identification and Translation System.
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
CN114238605B (zh) 一种智能语音客服机器人自动对话方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
EP4281966A1 (en) Generation of optimized spoken language understanding model through joint training with integrated acoustic knowledge-speech module
WO2022159198A1 (en) Generation of optimized knowledge-based language model through knowledge graph multi-alignment
Qiang et al. Back-translation-style data augmentation for mandarin chinese polyphone disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination