CN107507613A - 面向场景的中文指令识别方法、装置、设备和存储介质 - Google Patents
面向场景的中文指令识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN107507613A CN107507613A CN201710620448.7A CN201710620448A CN107507613A CN 107507613 A CN107507613 A CN 107507613A CN 201710620448 A CN201710620448 A CN 201710620448A CN 107507613 A CN107507613 A CN 107507613A
- Authority
- CN
- China
- Prior art keywords
- sample
- prediction
- mrow
- forecast model
- mistake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 171
- 238000005070 sampling Methods 0.000 claims description 53
- 238000002790 cross-validation Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 24
- 239000000463 material Substances 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 8
- 235000013305 food Nutrition 0.000 description 8
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 240000007087 Apium graveolens Species 0.000 description 4
- 235000015849 Apium graveolens Dulce Group Nutrition 0.000 description 4
- 235000010591 Appio Nutrition 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 4
- 241000220225 Malus Species 0.000 description 4
- 235000011430 Malus pumila Nutrition 0.000 description 4
- 235000015103 Malus silvestris Nutrition 0.000 description 4
- 208000003351 Melanosis Diseases 0.000 description 4
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 4
- 244000061456 Solanum tuberosum Species 0.000 description 4
- 235000002595 Solanum tuberosum Nutrition 0.000 description 4
- 244000269722 Thea sinensis Species 0.000 description 4
- 230000003255 anti-acne Effects 0.000 description 4
- 235000021168 barbecue Nutrition 0.000 description 4
- 230000003796 beauty Effects 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000796 flavoring agent Substances 0.000 description 4
- 235000019634 flavors Nutrition 0.000 description 4
- 206010022000 influenza Diseases 0.000 description 4
- 206010022437 insomnia Diseases 0.000 description 4
- 230000000050 nutritive effect Effects 0.000 description 4
- 235000015277 pork Nutrition 0.000 description 4
- 235000021108 sauerkraut Nutrition 0.000 description 4
- 235000011888 snacks Nutrition 0.000 description 4
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 4
- 208000004371 toothache Diseases 0.000 description 4
- 235000013311 vegetables Nutrition 0.000 description 4
- 230000002087 whitening effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种面向场景的中文指令识别方法、装置、设备和存储介质,其中,面向场景的中文指令识别方法,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。通过本发明的技术方案,用包括错分样本的样本集训练修正每个预测模型的预测权重,有效提高了中文指令识别的准确率,而且通过场景预判,有效节省了后台计算资源,提高了中文指令识别的智能化水平。
Description
技术领域
本发明涉及人机智能交互技术领域,具体而言,涉及一种面向场景的中文指令识别方法、一种面向场景的中文指令识别装置、一种计算机设备和一种计算机可读存储介质。
背景技术
现代智能问答***一般包含语音识别、文本解析、句法分析、语义分析、主题识别、解析应答等多个技术环节,其中句法分析中的面向场景的中文指令识别(主要是疑问句句式识别)充当了整个智能问答***的门户验证功能。
相关技术中,句法分析中的面向场景的中文指令识别主要通过疑问词规则模式匹配、转换生成句法分析两大类方法来实现,存在以下技术缺陷:
(1)疑问词规则模式匹配,需要十分庞杂且难以穷举所有疑问词表,而且对中文指令的理解比较粗浅,识别的准确率较低。
(2)转换生成句法分析,需要预先建立相应的词库集和事先制定句法模式,需要过多的人工干预,智能化程度较低。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种面向场景的中文指令识别方法。
本发明的另一个目的在于提供一种面向场景的中文指令识别装置。
本发明的再一个目的在于提供一种计算机设备。
本发明的又一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,本发明的第一方面的技术方案提供了一种面向场景的中文指令识别方法,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。
在该技术方案中,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,实现了用预测类标识与实际类标识不匹配的测试样本来修正每个预测模型的预测权重,可以有效训练预测模型,提高预测的准确率,进而有效提高中文指令识别的准确率,而且在测试样本的预测类标识与实际类标识不匹配时,就会被标记为错分样本,同时提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,同时也提高了中文指令识别的智能化水平。
另外,包括错分样本的样本集可以是全部为错分样本的样本集,也可以是一部分为错分样本、一部分为预测正确的样本的样本集,样本集的数量要较大,以便达到修正每个预测模型的预测权重的目的。
在上述技术方案中,优选地,根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,具体包括:根据包括错分样本的样本集,交叉验证每个预测模型,以确定每个预测模型的预测精度;根据第一预设公式和预测精度,修正每个预测模型的预测权重,其中,第一预设公式包括:
ωi表征为第i个预测模型的预测权重,pi表征为第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
在该技术方案中,通过用包括错分样本的样本集,交叉验证每个预测模型,来确定每个预测模型的预测精度,具体地,可以采用10折交叉验证法,即将包括错分样本的样本集分为10份,9份作为训练数据,1份作为测试数据,进行试验,每次试验都会得出相应的正确率,将10次结果的正确率的平均值作为对预测模型的预测精度,一般还会进行多次10折交叉验证,比如10次,然后求均值,以提高预测模型的预测精度确定的准确性。
通过第一预设公式和预测精度,来计算每个预测模型的预测权重,以得到修正的每个预测模型的预测权重,提高了每个预测模型的预测权重的确定的准确性,进一步提高了中文指令识别的准确率。
在上述任一项技术方案中,优选地,在根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:根据每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;若测试样本的实际类标识与预测类标识不匹配,则确定测试样本为错分样本;提高错分样本的抽样概率,以抽取包括错分样本的样本集和以抽取错分样本作为新的测试样本,其中,第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即预测类标识。
在该技术方案中,通过根据每个预测模型的预测权重和第二预设公式,来确定测试样本的预测类标识,并将预测类标识和实际类标识不匹配的测试样本标记为错分样本,实现了对预测模型的测试,有利于对预测模型的下一步的训练,通过提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,有利于进一步提高中文指令识别的准确率。
在上述任一项技术方案中,优选地,在根据每个预测模型的预设权重和第二预设公式,确定测试样本的预测类标识之前,还包括:确定测试样本中是否包括与预设场景词汇库相匹配的词汇;若确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定;若确定测试样本中包括与预设场景词汇库相匹配的词汇,则以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定。
在该技术方案中,通过在确定测试样本的预测类标识之前,确定测试样本中是否包括与预设场景词汇库相匹配的词汇,实现了场景的预判,使得中文指令识别面向场景,比较有针对性,可以有效节省后台的计算资源,如果确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定,可以将不相关的测试样本过滤掉,进一步有效节省后台的计算资源,通过在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定,提高了进入预测模型的测试样本的标准化程度,有利于预测模型输出与实际类标识相匹配的预测类标识,进一步提高了中文指令识别的准确度。
比如将场景设为厨房场景,那么预设场景词汇库中,就可以包括以下词汇:第一类常用食材(界定选取了苹果、芹菜、土豆等450种常用食材及其同义);第二类常用食谱(界定选取了酸菜鱼、鱼香肉丝等10000种常用食谱及其同义);第三类口味风味(包含酸、辣、淡等多个子类及其同义);第四类季节时令(包含端午节、情人节等多个子类及其同义);第五类营养功效(包含减肥、失眠、瘦身等多个子类及其同义);第六类特殊人群(包含司机、教师、考生等多个子类及其同义);第七类疾病调理(包含高血压、感冒、牙痛等多个子类及其同义);第八类美容瘦身(包含美白、祛痘、祛斑等多个子类及其同义);第九类菜式菜品(包含小吃、烧烤、宵夜等多个子类及其同义);第十类情景场景(包含单身、下午茶、升迁等多个子类及其同义)。
在上述任一项技术方案中,优选地,提高错分样本的抽样概率,具体包括:根据第三预设公式,重新确定错分样本的抽样概率,其中,第三预设公式包括:
yk表征为测试样本k的实际类标识,h(k)表征为测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
在该技术方案中,通过第三预设公式,重新确定错分样本的抽样概率,实现了以一定的规则提高错分样本的抽样概率,有利于抽取包含错分样本的样本集去修正每个预测模型的预测权重,也有利于抽取错分样本作为新的测试样本,通过第三预设公式计算出来的错分样本的抽样概率是逐步提高的,也就是说,第一次被错分的样本的抽样概率大于一般样本的抽样概率,如果错分样本作为新的测试样本再被错分的话,抽样概率会继续提高,即第二次被错分的样本的抽样概率大于第一次被错分的样本的抽样概率,经过多次轮回训练,会得到一个比较适宜的每个预测模型的预测权重,可以有效提高中文指令识别的准确率。
在上述任一项技术方案中,优选地,在根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:基于预设规则,根据预设语料库,构建预测模型,并预设每个预测模型的预测权重。
在该技术方案中,通过基于预设规则,根据预设语料库,实现了对预测模型的构建,然后预设每个预测模型的预测权重,有利于实现对预测模型的训练,比如有4个预测模型,可以预设每个预测模型的预测权重为0.25。
其中,预设规则为支持向量机算法、随机森林树算法、KNN最近邻算法、朴素贝叶斯算法,每种算法各自独立构建预测模型,结合这几个预测模型可以进一步提高中文指令识别的准确率。
预设语料库为预测模型的构建,以及训练提供语料,测试样本和包括错分样本的样本集都是从预设语料库中抽取的,具体地,搜集整理疑问句、祈使句、感叹句、陈述句4类语料库作为预设语料库,并标注,以形成预测模型训练测试集T={(x1,y1),(x2,y2)…(xn,yn)},其中,x∈χ,而实例空间χ∈Rn,yn属于标记集合{1,2,3,4},该集合分别对应疑问句、祈使句、感叹句、陈述句4个类标识,每类语料库包含相关子类,其中,疑问句包含特指问句、选择问句、正反问句、是否问句4个子类,祈使句(包含命令祈使句、请求祈使句、禁止祈使句、劝阻祈使句4个子类,感叹句包含叹词感叹句、名词感叹句、口语感叹句、副词感叹句4个子类,陈述句包含否定陈述陈述句、肯定陈述陈述句等2个子类。
本发明第二方面的技术方案提供了一种面向场景的中文指令识别装置,包括:修正单元,用于根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。
在该技术方案中,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,实现了用预测类标识与实际类标识不匹配的测试样本来修正每个预测模型的预测权重,可以有效训练预测模型,提高预测的准确率,进而有效提高中文指令识别的准确率,而且在测试样本的预测类标识与实际类标识不匹配时,就会被标记为错分样本,同时提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,同时也提高了中文指令识别的智能化水平。
另外,包括错分样本的样本集可以是全部为错分样本的样本集,也可以是一部分为错分样本、一部分为预测正确的样本的样本集,样本集的数量要较大,以便达到修正每个预测模型的预测权重的目的。
在上述技术方案中,优选地,还包括:验证单元,用于根据包括错分样本的样本集,交叉验证每个预测模型,以确定每个预测模型的预测精度;修正单元还用于:根据第一预设公式和预测精度,修正每个预测模型的预测权重,其中,第一预设公式包括:
ωi表征为第i个预测模型的预测权重,pi表征为第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
在该技术方案中,通过用包括错分样本的样本集,交叉验证每个预测模型,来确定每个预测模型的预测精度,具体地,可以采用10折交叉验证法,即将包括错分样本的样本集分为10份,9份作为训练数据,1份作为测试数据,进行试验,每次试验都会得出相应的正确率,将10次结果的正确率的平均值作为对预测模型的预测精度,一般还会进行多次10折交叉验证,比如10次,然后求均值,以提高预测模型的预测精度确定的准确性。
通过第一预设公式和预测精度,来计算每个预测模型的预测权重,以得到修正的每个预测模型的预测权重,提高了每个预测模型的预测权重的确定的准确性,进一步提高了中文指令识别的准确率。
在上述任一项技术方案中,优选地,还包括:确定单元,用于根据每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;确定单元还用于:在测试样本的实际类标识与预测类标识不匹配时,确定测试样本为错分样本;提高单元,用于提高错分样本的抽样概率,以抽取包括错分样本的样本集和以抽取错分样本作为新的测试样本,其中,第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即预测类标识。
在该技术方案中,通过根据每个预测模型的预测权重和第二预设公式,来确定测试样本的预测类标识,并将预测类标识和实际类标识不匹配的测试样本标记为错分样本,实现了对预测模型的测试,有利于对预测模型的下一步的训练,通过提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,有利于进一步提高中文指令识别的准确率。
在上述任一项技术方案中,优选地,确定单元还用于:确定测试样本中是否包括与预设场景词汇库相匹配的词汇;中文指令识别装置还包括:提示单元,用于在确定测试样本中不包括与预设场景词汇库相匹配的词汇时,发出提示信号,并不进行测试样本的预测类标识的确定;替换单元,用于在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定。
在该技术方案中,通过在确定测试样本的预测类标识之前,确定测试样本中是否包括与预设场景词汇库相匹配的词汇,实现了场景的预判,使得中文指令识别面向场景,比较有针对性,可以有效节省后台的计算资源,如果确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定,可以将不相关的测试样本过滤掉,进一步有效节省后台的计算资源,通过在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定,提高了进入预测模型的测试样本的标准化程度,有利于预测模型输出与实际类标识相匹配的预测类标识,进一步提高了中文指令识别的准确度。
比如将场景设为厨房场景,那么预设场景词汇库中,就可以包括以下词汇:第一类常用食材(界定选取了苹果、芹菜、土豆等450种常用食材及其同义);第二类常用食谱(界定选取了酸菜鱼、鱼香肉丝等10000种常用食谱及其同义);第三类口味风味(包含酸、辣、淡等多个子类及其同义);第四类季节时令(包含端午节、情人节等多个子类及其同义);第五类营养功效(包含减肥、失眠、瘦身等多个子类及其同义);第六类特殊人群(包含司机、教师、考生等多个子类及其同义);第七类疾病调理(包含高血压、感冒、牙痛等多个子类及其同义);第八类美容瘦身(包含美白、祛痘、祛斑等多个子类及其同义);第九类菜式菜品(包含小吃、烧烤、宵夜等多个子类及其同义);第十类情景场景(包含单身、下午茶、升迁等多个子类及其同义)。
在上述任一项技术方案中,优选地,确定单元还用于:根据第三预设公式,重新确定错分样本的抽样概率,其中,第三预设公式包括:
yk表征为测试样本k的实际类标识,h(k)表征为测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
在该技术方案中,通过第三预设公式,重新确定错分样本的抽样概率,实现了以一定的规则提高错分样本的抽样概率,有利于抽取包含错分样本的样本集去修正每个预测模型的预测权重,也有利于抽取错分样本作为新的测试样本,通过第三预设公式计算出来的错分样本的抽样概率是逐步提高的,也就是说,第一次被错分的样本的抽样概率大于一般样本的抽样概率,如果错分样本作为新的测试样本再被错分的话,抽样概率会继续提高,即第二次被错分的样本的抽样概率大于第一次被错分的样本的抽样概率,经过多次轮回训练,会得到一个比较适宜的每个预测模型的预测权重,可以有效提高中文指令识别的准确率。
在上述任一项技术方案中,优选地,还包括:预设单元,用于基于预设规则,根据预设语料库,构建预测模型,并预设每个预测模型的预测权重。
在该技术方案中,通过基于预设规则,根据预设语料库,实现了对预测模型的构建,然后预设每个预测模型的预测权重,有利于实现对预测模型的训练,比如有4个预测模型,可以预设每个预测模型的预测权重为0.25。
其中,预设规则为支持向量机算法、随机森林树算法、KNN最近邻算法、朴素贝叶斯算法,每种算法各自独立构建预测模型,结合这几个预测模型可以进一步提高中文指令识别的准确率。
预设语料库为预测模型的构建,以及训练提供语料,测试样本和包括错分样本的样本集都是从预设语料库中抽取的,具体地,搜集整理疑问句、祈使句、感叹句、陈述句4类语料库作为预设语料库,并标注,以形成预测模型训练测试集T={(x1,y1),(x2,y2)…(xn,yn)},其中,x∈χ,而实例空间χ∈Rn,yn属于标记集合{1,2,3,4},该集合分别对应疑问句、祈使句、感叹句、陈述句4个类标识,每类语料库包含相关子类,其中,疑问句包含特指问句、选择问句、正反问句、是否问句4个子类,祈使句(包含命令祈使句、请求祈使句、禁止祈使句、劝阻祈使句4个子类,感叹句包含叹词感叹句、名词感叹句、口语感叹句、副词感叹句4个子类,陈述句包含否定陈述陈述句、肯定陈述陈述句等2个子类。
本发明的第三方面的技术方案提出了一种计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的步骤。
在该技术方案中,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的全部有益效果,在此不再赘述。
本发明的第四方面的技术方案提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的步骤。
在该技术方案中,计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的面向场景的中文指令识别方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的面向场景的中文指令识别方法的示意流程图;
图2示出了根据本发明的一个实施例的面向场景的中文指令识别装置的示意流程图;
图3示出了根据本发明的另一个实施例的面向场景的中文指令识别方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,根据本发明的实施例的面向场景的中文指令识别方法,包括:步骤S102,根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。
在该实施例中,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,实现了用预测类标识与实际类标识不匹配的测试样本来修正每个预测模型的预测权重,可以有效训练预测模型,提高预测的准确率,进而有效提高中文指令识别的准确率,而且在测试样本的预测类标识与实际类标识不匹配时,就会被标记为错分样本,同时提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,同时也提高了中文指令识别的智能化水平。
另外,包括错分样本的样本集可以是全部为错分样本的样本集,也可以是一部分为错分样本、一部分为预测正确的样本的样本集,样本集的数量要较大,以便达到修正每个预测模型的预测权重的目的。
在上述实施例中,优选地,根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,具体包括:根据包括错分样本的样本集,交叉验证每个预测模型,以确定每个预测模型的预测精度;根据第一预设公式和预测精度,修正每个预测模型的预测权重,其中,第一预设公式包括:
ωi表征为第i个预测模型的预测权重,pi表征为第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
在该实施例中,通过用包括错分样本的样本集,交叉验证每个预测模型,来确定每个预测模型的预测精度,具体地,可以采用10折交叉验证法,即将包括错分样本的样本集分为10份,9份作为训练数据,1份作为测试数据,进行试验,每次试验都会得出相应的正确率,将10次结果的正确率的平均值作为对预测模型的预测精度,一般还会进行多次10折交叉验证,比如10次,然后求均值,以提高预测模型的预测精度确定的准确性。
通过第一预设公式和预测精度,来计算每个预测模型的预测权重,以得到修正的每个预测模型的预测权重,提高了每个预测模型的预测权重的确定的准确性,进一步提高了中文指令识别的准确率。
在上述任一项实施例中,优选地,在根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:根据每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;若测试样本的实际类标识与预测类标识不匹配,则确定测试样本为错分样本;提高错分样本的抽样概率,以抽取包括错分样本的样本集和以抽取错分样本作为新的测试样本,其中,第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即预测类标识。
在该实施例中,通过根据每个预测模型的预测权重和第二预设公式,来确定测试样本的预测类标识,并将预测类标识和实际类标识不匹配的测试样本标记为错分样本,实现了对预测模型的测试,有利于对预测模型的下一步的训练,通过提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,有利于进一步提高中文指令识别的准确率。
在上述任一项实施例中,优选地,在根据每个预测模型的预设权重和第二预设公式,确定测试样本的预测类标识之前,还包括:确定测试样本中是否包括与预设场景词汇库相匹配的词汇;若确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定;若确定测试样本中包括与预设场景词汇库相匹配的词汇,则以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定。
在该实施例中,通过在确定测试样本的预测类标识之前,确定测试样本中是否包括与预设场景词汇库相匹配的词汇,实现了场景的预判,使得中文指令识别面向场景,比较有针对性,可以有效节省后台的计算资源,如果确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定,可以将不相关的测试样本过滤掉,进一步有效节省后台的计算资源,通过在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定,提高了进入预测模型的测试样本的标准化程度,有利于预测模型输出与实际类标识相匹配的预测类标识,进一步提高了中文指令识别的准确度。
比如将场景设为厨房场景,那么预设场景词汇库中,就可以包括以下词汇:第一类常用食材(界定选取了苹果、芹菜、土豆等450种常用食材及其同义);第二类常用食谱(界定选取了酸菜鱼、鱼香肉丝等10000种常用食谱及其同义);第三类口味风味(包含酸、辣、淡等多个子类及其同义);第四类季节时令(包含端午节、情人节等多个子类及其同义);第五类营养功效(包含减肥、失眠、瘦身等多个子类及其同义);第六类特殊人群(包含司机、教师、考生等多个子类及其同义);第七类疾病调理(包含高血压、感冒、牙痛等多个子类及其同义);第八类美容瘦身(包含美白、祛痘、祛斑等多个子类及其同义);第九类菜式菜品(包含小吃、烧烤、宵夜等多个子类及其同义);第十类情景场景(包含单身、下午茶、升迁等多个子类及其同义)。
在上述任一项实施例中,优选地,提高错分样本的抽样概率,具体包括:根据第三预设公式,重新确定错分样本的抽样概率,其中,第三预设公式包括:
yk表征为测试样本k的实际类标识,h(k)表征为测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
在该实施例中,通过第三预设公式,重新确定错分样本的抽样概率,实现了以一定的规则提高错分样本的抽样概率,有利于抽取包含错分样本的样本集去修正每个预测模型的预测权重,也有利于抽取错分样本作为新的测试样本,通过第三预设公式计算出来的错分样本的抽样概率是逐步提高的,也就是说,第一次被错分的样本的抽样概率大于一般样本的抽样概率,如果错分样本作为新的测试样本再被错分的话,抽样概率会继续提高,即第二次被错分的样本的抽样概率大于第一次被错分的样本的抽样概率,经过多次轮回训练,会得到一个比较适宜的每个预测模型的预测权重,可以有效提高中文指令识别的准确率。
在上述任一项实施例中,优选地,在根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:基于预设规则,根据预设语料库,构建预测模型,并预设每个预测模型的预测权重。
在该实施例中,通过基于预设规则,根据预设语料库,实现了对预测模型的构建,然后预设每个预测模型的预测权重,有利于实现对预测模型的训练,比如有4个预测模型,可以预设每个预测模型的预测权重为0.25。
其中,预设规则为支持向量机算法、随机森林树算法、KNN最近邻算法、朴素贝叶斯算法,每种算法各自独立构建预测模型,结合这几个预测模型可以进一步提高中文指令识别的准确率。
预设语料库为预测模型的构建,以及训练提供语料,测试样本和包括错分样本的样本集都是从预设语料库中抽取的,具体地,搜集整理疑问句、祈使句、感叹句、陈述句4类语料库作为预设语料库,并标注,以形成预测模型训练测试集T={(x1,y1),(x2,y2)…(xn,yn)},其中,x∈χ,而实例空间χ∈Rn,yn属于标记集合{1,2,3,4},该集合分别对应疑问句、祈使句、感叹句、陈述句4个类标识,每类语料库包含相关子类,其中,疑问句包含特指问句、选择问句、正反问句、是否问句4个子类,祈使句(包含命令祈使句、请求祈使句、禁止祈使句、劝阻祈使句4个子类,感叹句包含叹词感叹句、名词感叹句、口语感叹句、副词感叹句4个子类,陈述句包含否定陈述陈述句、肯定陈述陈述句等2个子类。
实施例2
如图2所示,根据本发明的一个实施例的面向场景的中文指令识别装置200,包括:修正单元201,用于根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。
在该实施例中,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,实现了用预测类标识与实际类标识不匹配的测试样本来修正每个预测模型的预测权重,可以有效训练预测模型,提高预测的准确率,进而有效提高中文指令识别的准确率,而且在测试样本的预测类标识与实际类标识不匹配时,就会被标记为错分样本,同时提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,同时也提高了中文指令识别的智能化水平。
另外,包括错分样本的样本集可以是全部为错分样本的样本集,也可以是一部分为错分样本、一部分为预测正确的样本的样本集,样本集的数量要较大,以便达到修正每个预测模型的预测权重的目的。
在上述实施例中,优选地,还包括:验证单元202,用于根据包括错分样本的样本集,交叉验证每个预测模型,以确定每个预测模型的预测精度;
修正单元201还用于:根据第一预设公式和预测精度,修正每个预测模型的预测权重,其中,第一预设公式包括:
ωi表征为第i个预测模型的预测权重,pi表征为第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
在该实施例中,通过用包括错分样本的样本集,交叉验证每个预测模型,来确定每个预测模型的预测精度,具体地,可以采用10折交叉验证法,即将包括错分样本的样本集分为10份,9份作为训练数据,1份作为测试数据,进行试验,每次试验都会得出相应的正确率,将10次结果的正确率的平均值作为对预测模型的预测精度,一般还会进行多次10折交叉验证,比如10次,然后求均值,以提高预测模型的预测精度确定的准确性。
通过第一预设公式和预测精度,来计算每个预测模型的预测权重,以得到修正的每个预测模型的预测权重,提高了每个预测模型的预测权重的确定的准确性,进一步提高了中文指令识别的准确率。
在上述任一项实施例中,优选地,还包括:确定单元206,用于根据每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;确定单元206还用于:在测试样本的实际类标识与预测类标识不匹配时,确定测试样本为错分样本;提高单元208,用于提高错分样本的抽样概率,以抽取包括错分样本的样本集和以抽取错分样本作为新的测试样本,其中,第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即预测类标识。
在该实施例中,通过根据每个预测模型的预测权重和第二预设公式,来确定测试样本的预测类标识,并将预测类标识和实际类标识不匹配的测试样本标记为错分样本,实现了对预测模型的测试,有利于对预测模型的下一步的训练,通过提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,有利于进一步提高中文指令识别的准确率。
在上述任一项实施例中,优选地,确定单元206还用于:确定测试样本中是否包括与预设场景词汇库相匹配的词汇;中文指令识别装置还包括:提示单元210,用于在确定测试样本中不包括与预设场景词汇库相匹配的词汇时,发出提示信号,并不进行测试样本的预测类标识的确定;替换单元212,用于在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定。
在该实施例中,通过在确定测试样本的预测类标识之前,确定测试样本中是否包括与预设场景词汇库相匹配的词汇,实现了场景的预判,使得中文指令识别面向场景,比较有针对性,可以有效节省后台的计算资源,如果确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定,可以将不相关的测试样本过滤掉,进一步有效节省后台的计算资源,通过在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定,提高了进入预测模型的测试样本的标准化程度,有利于预测模型输出与实际类标识相匹配的预测类标识,进一步提高了中文指令识别的准确度。
比如将场景设为厨房场景,那么预设场景词汇库中,就可以包括以下词汇:第一类常用食材(界定选取了苹果、芹菜、土豆等450种常用食材及其同义);第二类常用食谱(界定选取了酸菜鱼、鱼香肉丝等10000种常用食谱及其同义);第三类口味风味(包含酸、辣、淡等多个子类及其同义);第四类季节时令(包含端午节、情人节等多个子类及其同义);第五类营养功效(包含减肥、失眠、瘦身等多个子类及其同义);第六类特殊人群(包含司机、教师、考生等多个子类及其同义);第七类疾病调理(包含高血压、感冒、牙痛等多个子类及其同义);第八类美容瘦身(包含美白、祛痘、祛斑等多个子类及其同义);第九类菜式菜品(包含小吃、烧烤、宵夜等多个子类及其同义);第十类情景场景(包含单身、下午茶、升迁等多个子类及其同义)。
在上述任一项实施例中,优选地,确定单元206还用于:根据第三预设公式,重新确定错分样本的抽样概率,其中,第三预设公式包括:
yk表征为测试样本k的实际类标识,h(k)表征为测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
在该实施例中,通过第三预设公式,重新确定错分样本的抽样概率,实现了以一定的规则提高错分样本的抽样概率,有利于抽取包含错分样本的样本集去修正每个预测模型的预测权重,也有利于抽取错分样本作为新的测试样本,通过第三预设公式计算出来的错分样本的抽样概率是逐步提高的,也就是说,第一次被错分的样本的抽样概率大于一般样本的抽样概率,如果错分样本作为新的测试样本再被错分的话,抽样概率会继续提高,即第二次被错分的样本的抽样概率大于第一次被错分的样本的抽样概率,经过多次轮回训练,会得到一个比较适宜的每个预测模型的预测权重,可以有效提高中文指令识别的准确率。
在上述任一项实施例中,优选地,还包括:预设单元214,用于基于预设规则,根据预设语料库,构建预测模型,并预设每个预测模型的预测权重。
在该实施例中,通过基于预设规则,根据预设语料库,实现了对预测模型的构建,然后预设每个预测模型的预测权重,有利于实现对预测模型的训练,比如有4个预测模型,可以预设每个预测模型的预测权重为0.25。
其中,预设规则为支持向量机算法、随机森林树算法、KNN最近邻算法、朴素贝叶斯算法,每种算法各自独立构建预测模型,结合这几个预测模型可以进一步提高中文指令识别的准确率。
预设语料库为预测模型的构建,以及训练提供语料,测试样本和包括错分样本的样本集都是从预设语料库中抽取的,具体地,搜集整理疑问句、祈使句、感叹句、陈述句4类语料库作为预设语料库,并标注,以形成预测模型训练测试集T={(x1,y1),(x2,y2)…(xn,yn)},其中,x∈χ,而实例空间χ∈Rn,yn属于标记集合{1,2,3,4},该集合分别对应疑问句、祈使句、感叹句、陈述句4个类标识,每类语料库包含相关子类,其中,疑问句包含特指问句、选择问句、正反问句、是否问句4个子类,祈使句(包含命令祈使句、请求祈使句、禁止祈使句、劝阻祈使句4个子类,感叹句包含叹词感叹句、名词感叹句、口语感叹句、副词感叹句4个子类,陈述句包含否定陈述陈述句、肯定陈述陈述句等2个子类。
实施例3
根据本发明的实施例的计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的步骤。
在该实施例中,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的步骤,因此具有上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的全部有益效果,在此不再赘述。
实施例4
根据本发明的实施例的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的步骤。
在该实施例中,计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的步骤,因此具有上述本发明的实施例提出的任一项的面向场景的中文指令识别方法的全部有益效果,在此不再赘述。
实施例5
如图3所示,根据本发明的一个实施例的面向场景的中文指令识别方法,先根据语料库,通过支持向量机算法、随机森林树算法、KNN最近邻算法、朴素贝叶斯算法构建4个预测模型,并分别预设权重ω1,ω2,ω3,ω4,然后从语料库中抽取测试样本,读测试样本,获取语音识别返回的文本字符串,在文本解析层利用自然语言处理技术对该文本进行中文切词、停用词过滤、自定义词典以及文本去重,之后得到处理后的测试样本的文本字符串数组,然后在场景主题层,判断是否包括预设场景词汇库中的词汇,如果判定为否,即不包括预设场景词汇库中的词汇,则输出预测结果,该问句与场景无关,如果判定为是,即包括预设场景词汇库中的词汇,则通过构建的4个预测模型分别预测测试文本的类标识,然后根据预设权重ω1,ω2,ω3,ω4综合每个预测模型的预测结果,得出测试文本的预测类标识,然后进行错分判断,如果测试文本的实际类标识与预测类标识不匹配,即判定为是错分,则将测试文本确定为错分文本,并修正每个预测模型的预测权重,如果测试文本的实际类标识与预测类标识匹配,即判定为不是错分,则输出预测结果,即预测类标识,也就是实际类标识,每个预测模型的预测权重的修正是根据错分样本来实现的,通过修正每个预测模型的预测权重,可以有效提高中文指令识别的准确率。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种面向场景的中文指令识别方法、装置、设备和存储介质,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,有效提高了中文指令识别的准确率,而且通过场景预判,有效节省了后台计算资源,提高了中文指令识别的智能化水平。
本发明方法中的步骤可根据实际需要进行顺序调整、合并和删减。
本发明装置中的单元可根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种面向场景的中文指令识别方法,其特征在于,包括:
根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,
其中,所述错分样本为预测类标识与实际类标识不匹配的测试样本。
2.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,具体包括:
根据所述包括错分样本的样本集,交叉验证所述每个预测模型,以确定所述每个预测模型的预测精度;
根据所述第一预设公式和所述预测精度,修正所述每个预测模型的预测权重,
其中,所述第一预设公式包括:
<mrow>
<msub>
<mi>&omega;</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
</mrow>
ωi表征为第i个预测模型的预测权重,pi表征为所述第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
3.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,在所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:
根据所述每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;
若所述测试样本的实际类标识与所述预测类标识不匹配,则确定所述测试样本为所述错分样本;
提高所述错分样本的抽样概率,以抽取所述包括错分样本的样本集和以抽取所述错分样本作为新的测试样本,
其中,所述第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即所述预测类标识。
4.根据权利要求3所述的面向场景的中文指令识别方法,其特征在于,在所述根据所述每个预测模型的预设权重和第二预设公式,确定测试样本的预测类标识之前,还包括:
确定所述测试样本中是否包括与预设场景词汇库相匹配的词汇;
若确定所述测试样本中不包括与所述预设场景词汇库相匹配的词汇,则发出提示信号,并不进行所述测试样本的预测类标识的确定;
若确定所述测试样本中包括与所述预设场景词汇库相匹配的词汇,则以所述预设场景词汇库中相匹配的词汇替换所述测试样本中对应的词汇,并进行所述测试样本的预测类标识的确定。
5.根据权利要求3所述的面向场景的中文指令识别方法,其特征在于,所述提高所述错分样本的抽样概率,具体包括:
根据第三预设公式,重新确定所述错分样本的抽样概率,
其中,所述第三预设公式包括:
<mrow>
<msub>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mo>&Sigma;</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
</mrow>
</msub>
<msub>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
yk表征为测试样本k的实际类标识,h(k)表征为所述测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
6.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,在所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:
基于预设规则,根据预设语料库,构建所述预测模型,并预设所述每个预测模型的预测权重。
7.一种面向场景的中文指令识别装置,其特征在于,包括:
修正单元,用于根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,
其中,所述错分样本为预测类标识与实际类标识不匹配的测试样本。
8.根据权利要求7所述的面向场景的中文指令识别装置,其特征在于,还包括:
验证单元,用于根据所述包括错分样本的样本集,交叉验证所述每个预测模型,以确定所述每个预测模型的预测精度;
所述修正单元还用于:根据所述第一预设公式和所述预测精度,修正所述每个预测模型的预测权重,
其中,所述第一预设公式包括:
<mrow>
<msub>
<mi>&omega;</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
</mrow>
ωi表征为第i个预测模型的预测权重,pi表征为所述第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。
9.根据权利要求7所述的面向场景的中文指令识别装置,其特征在于,还包括:
确定单元,用于根据所述每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;
所述确定单元还用于:在所述测试样本的实际类标识与所述预测类标识不匹配时,确定所述测试样本为所述错分样本;
提高单元,用于提高所述错分样本的抽样概率,以抽取所述包括错分样本的样本集和以抽取所述错分样本作为新的测试样本,
其中,所述第二预设公式包括:
pred=Max(ωi·nj)
ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即所述预测类标识。
10.根据权利要求9所述的面向场景的中文指令识别装置,其特征在于,
所述确定单元还用于:确定所述测试样本中是否包括与预设场景词汇库相匹配的词汇;
所述中文指令识别装置还包括:
提示单元,用于在确定所述测试样本中不包括与所述预设场景词汇库相匹配的词汇时,发出提示信号,并不进行所述测试样本的预测类标识的确定;
替换单元,用于在确定所述测试样本中包括与所述预设场景词汇库相匹配的词汇时,以所述预设场景词汇库中相匹配的词汇替换所述测试样本中对应的词汇,并进行所述测试样本的预测类标识的确定。
11.根据权利要求9所述的面向场景的中文指令识别装置,其特征在于,
所述确定单元还用于:根据第三预设公式,重新确定所述错分样本的抽样概率,
其中,所述第三预设公式包括:
<mrow>
<msub>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mo>&Sigma;</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
</mrow>
</msub>
<msub>
<mi>h</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
yk表征为测试样本k的实际类标识,h(k)表征为所述测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。
12.根据权利要求7所述的面向场景的中文指令识别装置,其特征在于,还包括:
预设单元,用于基于预设规则,根据预设语料库,构建所述预测模型,并预设所述每个预测模型的预测权重。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任一项所述的面向场景的中文指令识别方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的面向场景的中文指令识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620448.7A CN107507613B (zh) | 2017-07-26 | 2017-07-26 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620448.7A CN107507613B (zh) | 2017-07-26 | 2017-07-26 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107507613A true CN107507613A (zh) | 2017-12-22 |
CN107507613B CN107507613B (zh) | 2021-03-16 |
Family
ID=60689769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710620448.7A Active CN107507613B (zh) | 2017-07-26 | 2017-07-26 | 面向场景的中文指令识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107507613B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602307A (zh) * | 2018-06-12 | 2019-12-20 | 范世汶 | 数据处理方法、装置及设备 |
CN110689135A (zh) * | 2019-09-05 | 2020-01-14 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法、装置及电子设备 |
CN111651686A (zh) * | 2019-09-24 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 一种测试处理方法、装置、电子设备及存储介质 |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208494A1 (en) * | 2006-03-03 | 2007-09-06 | Inrix, Inc. | Assessing road traffic flow conditions using data obtained from mobile data sources |
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
-
2017
- 2017-07-26 CN CN201710620448.7A patent/CN107507613B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208494A1 (en) * | 2006-03-03 | 2007-09-06 | Inrix, Inc. | Assessing road traffic flow conditions using data obtained from mobile data sources |
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602307A (zh) * | 2018-06-12 | 2019-12-20 | 范世汶 | 数据处理方法、装置及设备 |
CN110689135A (zh) * | 2019-09-05 | 2020-01-14 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法、装置及电子设备 |
CN110689135B (zh) * | 2019-09-05 | 2022-10-11 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法、装置及电子设备 |
CN111651686A (zh) * | 2019-09-24 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 一种测试处理方法、装置、电子设备及存储介质 |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107507613B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sóskuthy | Evaluating generalised additive mixed modelling strategies for dynamic speech analysis | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别*** | |
CN110543631B (zh) | 机器阅读理解的实现方法、装置、存储介质及电子设备 | |
US6188976B1 (en) | Apparatus and method for building domain-specific language models | |
CN108304385A (zh) | 一种语音识别文本纠错方法及装置 | |
CN107688608A (zh) | 智能语音问答方法、装置、计算机设备和可读存储介质 | |
CN107507613A (zh) | 面向场景的中文指令识别方法、装置、设备和存储介质 | |
CN105654250A (zh) | 一种满意度自动测评的方法和装置 | |
CN110442859B (zh) | 标注语料生成方法、装置、设备及存储介质 | |
CN102043774A (zh) | 机器翻译测评装置和方法 | |
CN109858042A (zh) | 一种翻译质量的确定方法及装置 | |
CA3052862A1 (en) | Systems and methods for report processing | |
CN103186658B (zh) | 用于英语口语考试自动评分的参考语法生成方法和设备 | |
CN114970560A (zh) | 对话意图识别方法、装置、存储介质和智能设备 | |
CN108763211A (zh) | 融合蕴含知识的自动文摘方法及*** | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111553159A (zh) | 一种问句生成方法及*** | |
CN110148413B (zh) | 语音评测方法及相关装置 | |
CN112216267A (zh) | 一种韵律预测的方法、装置、设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
JP2019204415A (ja) | 言い回し文生成方法、言い回し文装置及びプログラム | |
CN113987141A (zh) | 一种基于递归询问的问答***回答可靠性即时检查方法 | |
CN107992482A (zh) | 数学主观题解答步骤的规约方法及*** | |
CN114911922A (zh) | 一种情感分析方法、装置和存储介质 | |
KR20200072005A (ko) | 음성 인식된 문장의 보정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 230088 Building No. 198, building No. 198, Mingzhu Avenue, Anhui high tech Zone, Anhui Applicant after: Hefei Hualing Co.,Ltd. Address before: 230601 R & D building, No. 176, Jinxiu Road, Hefei economic and Technological Development Zone, Anhui 501 Applicant before: Hefei Hualing Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |