CN113377928B - 一种文本推荐方法、***、设备及介质 - Google Patents
一种文本推荐方法、***、设备及介质 Download PDFInfo
- Publication number
- CN113377928B CN113377928B CN202110916365.9A CN202110916365A CN113377928B CN 113377928 B CN113377928 B CN 113377928B CN 202110916365 A CN202110916365 A CN 202110916365A CN 113377928 B CN113377928 B CN 113377928B
- Authority
- CN
- China
- Prior art keywords
- text
- deep neural
- target
- neural network
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 97
- 238000012549 training Methods 0.000 claims description 63
- 239000013598 vector Substances 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 206010006451 bronchitis Diseases 0.000 description 46
- 206010057190 Respiratory tract infections Diseases 0.000 description 24
- 230000000241 respiratory effect Effects 0.000 description 18
- 238000012216 screening Methods 0.000 description 15
- 208000006673 asthma Diseases 0.000 description 14
- 239000012634 fragment Substances 0.000 description 11
- 206010019027 Haemothorax Diseases 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 125000004122 cyclic group Chemical group 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 208000015181 infectious disease Diseases 0.000 description 8
- 230000002458 infectious effect Effects 0.000 description 8
- 239000012528 membrane Substances 0.000 description 8
- 210000004379 membrane Anatomy 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 210000002345 respiratory system Anatomy 0.000 description 6
- 208000005530 hemopneumothorax Diseases 0.000 description 5
- 210000000115 thoracic cavity Anatomy 0.000 description 5
- 206010035664 Pneumonia Diseases 0.000 description 4
- 208000004756 Respiratory Insufficiency Diseases 0.000 description 4
- 208000027790 Rib fracture Diseases 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 201000004193 respiratory failure Diseases 0.000 description 4
- 230000029058 respiratory gaseous exchange Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 208000010392 Bone Fractures Diseases 0.000 description 2
- 208000002330 Congenital Heart Defects Diseases 0.000 description 2
- 206010017076 Fracture Diseases 0.000 description 2
- 208000006423 Myocardial Contusions Diseases 0.000 description 2
- 201000009267 bronchiectasis Diseases 0.000 description 2
- 230000000747 cardiac effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 208000028831 congenital heart disease Diseases 0.000 description 2
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000004224 pleura Anatomy 0.000 description 2
- 201000003144 pneumothorax Diseases 0.000 description 2
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本推荐方法、***、设备及介质,包括:获取待识别音频数据,利用训练后的文本识别模型对待识别音频数据进行音频识别,获取对应的识别文本;按照预设文本字典对识别文本进行词条拆分,获取对应的词条文本;从目标存储器中获取目标文本的关键词,并计算词条文本与关键词的相似度;对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为待识别音频数据的推荐文本。本发明通过对音频数据进行音频识别,根据识别结果为文本查找人员查找到数据库中相似度最大的前K个目标文本作为推荐文本,而文本查找人员只需要从推荐文本中进行查找即可,所以本发明可以节约查找文本数据的时间,提高文本查找效率和速度。
Description
技术领域
本发明涉及数据识别技术领域,特别是涉及一种文本推荐方法、***、设备及介质。
背景技术
目前,随着通信技术的发展,越来越多的单位或个人改变了某些文本数据的记录方式,选择将某些文本数据由线下记录改为线上记录,然后将在线上形成的文本数据存储至指定的数据库中。而这些文本数据可能对后面的实际应用有非常重要的意义,例如可以从这些文本数据中找出已有的案例,然后参照已有案例来对目前的案例进行处理等。但是,由于改变了这些文本数据的存储方式,将其由线下存储改为了线上存储,所以使用者在查找这些文本数据时,就需要在线上进行查找。如果从数据库中依次查找核对每一条文本数据,则会花费大量的时间来进行查找,导致找到文本数据后,可能会错过对应的使用时间。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文本推荐方法、***、设备及介质,用于解决技术中从数据库中查找文本数据花费时间长的问题。
为实现上述目的及其他相关目的,本发明提供一种文本推荐方法,所述方法包括以下步骤:
获取待识别音频数据,所述待识别音频数据由目标对象生成;
利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本。
可选地,对所述待识别音频数据进行音频识别前,还包括对所述待识别音频数据进行降噪处理;其中,降噪处理的过程包括:
对所述待识别音频数据进行分帧、加窗和傅里叶变换,获取对应的频谱;
获取所述频谱的幅度特征序列和相位特征序列,并将所述幅度特征序列和相位特征序列输入至卷积神经网络中,得到卷积后的幅度特征序列和相位特征序列;
对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,获取降噪后的待识别音频数据。
可选地,训练生成所述文本识别模型的过程包括:
从预设文本字典中随机选择多个词条文本进行相加、相减和/或拼接,生成初始训练文本数据;
对所述初始训练文本数据进行数据增强,获取增强文本数据;
将所述初始训练文本数据和所述增强文本数据进行合并,生成训练文本数据集;
将所述训练文本数据集输入至一个或多个深度神经网络中进行训练,生成所述文本识别模型。
可选地,将所述训练文本数据集输入至一个或多个深度神经网络中进行训练时,还包括:
获取每个深度神经网络的平滑损失和交叉熵损失;
对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;
若所述总损失小于或等于第一阈值,则停止对深度神经网络的训练,生成所述文本识别模型;
若所述总损失大于第一阈值,则继续对深度神经网络进行迭代训练,直至生成所述文本识别模型。
可选地,确定目标文本中关键词的过程包括:
获取所述目标存储器中的所有目标文本;
根据目标场景下的实体字符对每个目标文本进行分词处理,获取多个字符段;
将所述多个字符段进行任意两两组合,并计算每个组合中两个字符段间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合;
若存在字符段集合,则从所述字符段集合中任意选出一个字符段作为所述目标文本的关键词;
若不存在字符段集合,则将所述多个字符段作为所述目标文本的关键词。
可选地,若存在字符段集合,则还包括:
计算剩余的每个字符段与每个字符段集合的编辑距离,并在编辑距离小于第二阈值时,将该字符段合并至对应的字符段集合中;
以及,对所有的字符段集合进行任意两两组合,并计算任意两个字符段集合之间的编辑距离,将编辑距离小于第二阈值的两个字符段集合进行合并,更新原始的字符段集合,直至不再进行字符段集合的合并。
可选地,所述词条文本与所述关键词的相似度的计算过程如下:
获取至少两个深度神经网络,并将获取的深度神经网络进行异构,形成两层以上的深度神经网络架构;其中,每层深度神经网络架构至少包括一个深度神经网络;
利用其中一层深度神经网络架构中的深度神经网络获取词条文本特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取关键词特征向量;或者,利用其中一层深度神经网络架构中的深度神经网络获取关键词特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取词条文本特征向量;
计算所述词条文本特征向量与所述关键词特征向量之间的欧式距离,并根据所述欧式确定所述词条文本与所述关键词的相似度。
本发明还提供一种文本推荐***,所述***包括有:
音频采集模块,用于获取待识别音频数据,所述待识别音频数据由目标对象生成;
文本识别模块,用于利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
词条拆分模块,用于按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
相似度计算模块,用于从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
文本推荐模块,用于对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本。
本发明还提供一种文本推荐设备,包括:
处理器;和
存储有指令的计算机可读介质,当所述处理器执行所述指令时,使得所述设备执行如上述中任意一项所述的方法。
本发明还提供一种计算机可读介质,其上存储有指令,所述指令由处理器加载并执行如上述中任意一项所述的方法。
如上所述,本发明提供一种文本推荐方法、***、设备及介质,具有以下有益效果:本发明首先获取目标对象(例如文本查找人员)生成的待识别音频数据(例如待查找文本数据所对应的音频数据),并对其进行语音识别后得到对应的识别文本,然后根据对应的识别文本从目标存储器(例如数据库)中找到相似度最大的前K个目标文本作为对应识别文本的推荐文本;而目标对象可以直接从这些推荐文本中查找出自己希望找到的文本数据。相当于本发明通过识别文本查找人员在进行文本数据查找时输入的文本音频数据,然后对这些音频数据进行音频识别,根据识别结果为文本查找人员查找到数据库中相似度最大的前K个目标文本作为推荐文本,而文本查找人员只需要从推荐文本中进行查找即可。由此可知,文本查找人员进行文本数据查找时,本发明可以先从数据库中对所有目标文本进行一个初次筛选,然后将筛选结果展示给文本查找人员,供其浏览选择,从而为文本查找人员节约了查找文本数据的时间,提高了文本查找效率和速度。现有技术在进行文本查找时,不会进行文本筛选,而是直接将数据库中的所有目标文本都展示给文本查找人员,从而导致文本查找人员依次查找核对每一条文本数据,浪费大量查找时间。所以,本发明解决了文本查找人员在从数据库中查找文本数据花费时间长的问题。
附图说明
图1为一实施例提供的文本推荐方法的流程示意图。
图2为一实施例提供的确定目标文本中关键词的流程示意图。
图3为一实施例提供的文本推荐***的硬件结构示意图。
图4为一实施例提供的文本推荐设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1所示,本发明提供一种文本推荐方法,其特征在于,所述方法包括以下步骤:
S10,获取待识别音频数据,所述待识别音频数据由目标对象生成;
S20,利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
S30,按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
S40,从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
S50,对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本。
作为示例,文本查找人员进行文本数据查找时,本实施例可以先从数据库中对所有目标文本进行一个初次筛选,然后将筛选结果展示给文本查找人员,供其浏览选择,从而为文本查找人员节约了查找文本数据的时间,提高了文本查找效率和速度。现有技术在进行文本查找时,不会进行文本筛选,而是直接将数据库中的所有目标文本都展示给文本查找人员,从而导致文本查找人员依次查找核对每一条文本数据,浪费大量查找时间。所以,本实施例解决了文本查找人员在从数据库中查找文本数据花费时间长的问题。
具体地,以某医疗机构中的感染科医生A从数据库查找呼吸道感染的电子病历为例,首先由文本查找终端获取医生A在当前时刻生成的音频数据“呼吸道感染”或“呼吸道感染电子病历”,然后利用训练后的文本识别模型对待识别音频数据“呼吸道感染”或“呼吸道感染电子病历”进行音频识别,获取对应的识别文本,其中,文本识别模型预先被配置在文本查找终端内。再按照文本查找终端内部预设的文本字典对音频数据所对应的识别文本进行词条拆分,获取对应的词条文本,其中,本实施例中预设文本字典可以是由呼吸科名词组成的技术词典、教科书或技术手册等。按照预设文本字典对音频识别文本进行词条拆分后,可以得到词条“呼吸道”和“呼吸道感染”。从目标存储器中获取目标文本的关键词,并计算词条文本与关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中。本实施例中的目标存储器为数据库,目标文本是指在当前时刻前存储至数据库中的电子病历,作为示例,本实施例中呼吸科电子病历的关键词可以是:呼吸道、呼吸道感染、呼吸膜、动脉血氧分压、支气管炎、哮喘、呼吸衰竭、肺炎等关键词。从数据库中获取到呼吸科电子病历的关键词后,再计算预先完成词条拆分的词条“呼吸道”和“呼吸道感染”与关键词之间的相似度,然后获取每个词条与每个关键词的相似度,并对计算出的相似度按照从高到低的顺序进行排序,选择相似度最大的前K个关键词所对应的电子病历作为当前待识别音频数据的推荐文本数据。通过本实施例的记载可知,当感染科医生A需要从数据库中查找出与呼吸道感染的电子病历时,只需要对着文本查找终端说出“呼吸道感染”或“呼吸道感染电子病历”,然后文本查找终端就会根据感染科医生A说出的音频数据给其在显示界面上展示对应的推荐文本,即数据库中的电子病历。与现有技术中需要感染科医生依次从数据中依次查找核对每一条电子病历相比,本实施例能够缩短电子病历的查找时间,提高对应人员在进行文本查找时的速度和效率。
在一示例性实施例中,对所述待识别音频数据进行音频识别前,还包括对所述待识别音频数据进行降噪处理;其中,降噪处理的过程包括:对所述待识别音频数据进行分帧、加窗和傅里叶变换,获取对应的频谱;获取所述频谱的幅度特征序列和相位特征序列,并将所述幅度特征序列和相位特征序列输入至卷积神经网络中,得到卷积后的幅度特征序列和相位特征序列;对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,获取降噪后的待识别音频数据。在本实施例中,卷积神经网络包括循环网络、池化网络和全连接网络,当幅度特征序列和相位特征序列输入至卷积神经网络后,首先由循环网络对幅度特征序列和相位特征序列进行处理,得到对应的幅度循环特征序列和相位循环特征序列;再由池化网络进行处理,得到对应的池化幅度特征序列和池化相位特征序列;再然后由全连接网络将池化幅度特征序列和所述池化相位特征序列进行融合,得到卷积后的幅度特征序列和相位特征序列;所述融合包括:相加、相减和/或拼接。最后对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,得到降噪后的待识别音频数据。作为示例,本实施例中的幅度特征序列可以是:{ [0.6,0,0,0,0],[0,0.6,0,0,0] },相位特征序列可以是:{ [1,0,0,0,0],[0,1,0,0,0] };则卷积后的幅度特征序列可以是:{ [0.6,0,0,0,0,0,0.6,0,0,0 },卷积后的相位特征序列可以是:{ [1,0,0,0,0,0,1,0,0,0] }。其中,本实施例中的融合为拼接。
在一示例性实施例中,训练生成所述文本识别模型的过程包括:从预设文本字典中随机选择多个词条文本进行相加、相减和/或拼接,生成初始训练文本数据;对所述初始训练文本数据进行数据增强,获取增强文本数据;将所述初始训练文本数据和所述增强文本数据进行合并,生成训练文本数据集;将所述训练文本数据集输入至一个或多个深度神经网络中进行训练,生成所述文本识别模型。在本实施例中,预设文本字典可以是由呼吸科名词组成的技术词典、教科书或技术手册等,也可以是由胸腔科名词组成的技术词典、教科书或技术手册等。对于不同的应用场景,本实施例中的预设文本词典可以根据实际场景进行设定。本实施例中的文本识别模型可以是OCR字符识别模型(Optical CharacterRecognition , 光学字符识别,简称OCR)。本实施例可以通过改变初始识别训练文本数据中的字体清晰度、字体间距、字体背景和字体类型,来生成增强文本数据。通过对初始训练文本数据进行数据增强,然后将初始训练文本数据和增强文本数据进行合并生成训练文本数据集,可以在对深度神经网络进行训练时增加文本数据的多样性,使得训练后的文本识别模型的鲁棒性更好。
根据上述记载,将所述训练文本数据集输入至一个或多个深度神经网络中进行训练时,还包括:获取每个深度神经网络的平滑损失和交叉熵损失;对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;若所述总损失小于或等于第一阈值,则停止对深度神经网络的训练,生成所述文本识别模型;若所述总损失大于第一阈值,则继续对深度神经网络进行迭代训练,直至生成所述文本识别模型。作为示例,本实施例中的第一阈值可以为0.1,本实施例通过控制深度神经网络的训练损失来控制训练过程或次数,直至生成文本识别模型。
根据上述记载,在一示例性实施例中,如图2所示,确定目标文本中关键词的过程包括:
S100,获取所述目标存储器中的所有目标文本;
S200,根据目标场景下的实体字符对每个目标文本进行分词处理,获取多个字符段;
S300,将所述多个字符段进行任意两两组合,并计算每个组合中两个字符段间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合;
S400-1,若存在字符段集合,则从所述字符段集合中任意选出一个字符段作为所述目标文本的关键词;
S400-2,若不存在字符段集合,则将所述多个字符段作为所述目标文本的关键词。
作为示例,在本方法中,字符的笔画和字体类型越相似,两者的编辑距离越近,其中,第二阈值可以设为0.05。在本实施例中,随着目标场景不同,其对应的实体字符也不相同。例如对呼吸科场景而言,其实体字符可以是:呼吸道、呼吸道感染、呼吸膜、动脉血氧分压、支气管炎、哮喘、呼吸衰竭、肺炎等,对于胸腔科场景而言,其实体字符可以是:气胸、胸膜、肋骨骨折、血胸、血气胸、心脏挫伤、肺结核、支气管扩张、冠心病、先心病、心导管等。本实施例按照实体字符将目标文本(例如电子病历)进行分词,然后得到多个字段,再计算字符段之间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合。在本实施例中,若两个字符段的编辑距离小于第二阈值,则说明两者属于相同的字符段,且合并成一个字符段集合后,该集合中全是相同的字符段。例如,对某呼吸科的电子病历进行分词处理后,得到了3个“支气管炎”字符段,2个“哮喘”字符段和1个“呼吸膜”字符段;由于当前电子病历存在相同的字符段,所以对当前电子病历进行分词处理后,可以得到2个字符段集合,其中一个集合为{支气管炎,支气管炎},另一个字符段集合为{哮喘,哮喘},即当前电子病历的关键词有2个,一个是支气管炎,另一个是哮喘。作为另一示例,如果对某胸腔科的电子病历进行分词处理后,得到了1个“肋骨骨折”字符段,1个“血胸”字符段和1个“血气胸”字符段,由于当前电子病历不存在相同的字符段,所以当前电子病历的关键词为:“肋骨骨折”、“血胸”和“血气胸”。
根据上述记载,在一示例性实施例中,若存在字符段集合,则还包括:计算剩余的每个字符段与每个字符段集合的编辑距离,并在编辑距离小于第二阈值时,将该字符段合并至对应的字符段集合中;以及,对所有的字符段集合进行任意两两组合,并计算任意两个字符段集合之间的编辑距离,将编辑距离小于第二阈值的两个字符段集合进行合并,更新原始的字符段集合,直至不再进行字符段集合的合并。作为示例,以上述呼吸科的电子病历为例,对该电子病历进行分词处理后,得到了3个“支气管炎”字符段,2个“哮喘”字符段和1个“呼吸膜”字符段;若其中2个“支气管炎”字符段形成字符段集合{支气管炎,支气管炎}后,还会剩下一个“支气管炎”字符段,此时再计算字符段集合{支气管炎,支气管炎}与字符段“支气管炎”的编辑距离,由于字符段集合{支气管炎,支气管炎}中仅包括“支气管炎”字符段,所以字符段集合{支气管炎,支气管炎}与字符段“支气管炎”的编辑距离必然小于第二阈值,再将剩余的字符段“支气管炎”进行合并后,得到的新字符段集合为{支气管炎,支气管炎,支气管炎}。对于电子病历而言,多次出现的字符段可以是与该患者病情紧紧关联,所以本实施例通过将编辑距离相近的字符段进行合并,可以将电子病历中出现频次高的字符段确定为关键词,从而准确确定出电子病历中记载的患者病情。
在一示例性实施例中,所述词条文本与所述关键词的相似度的计算过程如下:获取至少两个深度神经网络,并将获取的深度神经网络进行异构,形成两层以上的深度神经网络架构;其中,每层深度神经网络架构至少包括一个深度神经网络;利用其中一层深度神经网络架构中的深度神经网络获取词条文本特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取关键词特征向量;或者,利用其中一层深度神经网络架构中的深度神经网络获取关键词特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取词条文本特征向量;计算所述词条文本特征向量与所述关键词特征向量之间的欧式距离,并根据所述欧式确定所述词条文本与所述关键词的相似度。本实施例首先利用深度神经网络来获取词条文本特征向量与关键词特征向量,然后再计算词条文本特征向量与关键词特征向量的欧式距离,并根据计算出的欧式距离来确定词条文本与关键词的相似度。其中,欧式距离与相似度之和为1,例如词条文本特征向量与关键词特征向量的欧式距离为0.4,则词条文本与关键词的相似度为0.6,即相似度为60%。
根据上述记载可知,本发明提供一种文本推荐方法,首先获取目标对象生成的待识别音频数据,并对其进行语音识别后得到对应的识别文本,然后根据对应的识别文本从目标存储器中找到相似度最大的前K个目标文本作为对应识别文本的推荐文本;而目标对象可以直接从这些推荐文本中查找出自己希望找到的文本数据。相当于本方法通过识别文本查找人员在进行文本数据查找时输入的文本音频数据,然后对这些音频数据进行音频识别,根据识别结果为文本查找人员查找到数据库中相似度最大的前K个目标文本作为推荐文本,而文本查找人员只需要从推荐文本中进行查找即可。由此可知,文本查找人员进行文本数据查找时,本方法可以先从数据库中对所有目标文本进行一个初次筛选,然后将筛选结果展示给文本查找人员,供其浏览选择,从而为文本查找人员节约了查找文本数据的时间,提高了文本查找效率和速度。现有技术在进行文本查找时,不会进行文本筛选,而是直接将数据库中的所有目标文本都展示给文本查找人员,从而导致文本查找人员依次查找核对每一条文本数据,浪费大量查找时间。所以,本方法解决了文本查找人员在从数据库中查找文本数据花费时间长的问题。
如图3所示,本发明还提供一种文本推荐***,所述***包括有:
音频采集模块M10,用于获取待识别音频数据,所述待识别音频数据由目标对象生成;
文本识别模块M20,用于利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
词条拆分模块M30,用于按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
相似度计算模块M40,用于从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
文本推荐模块M50,用于对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本。
作为示例,文本查找人员进行文本数据查找时,本实施例可以先从数据库中对所有目标文本进行一个初次筛选,然后将筛选结果展示给文本查找人员,供其浏览选择,从而为文本查找人员节约了查找文本数据的时间,提高了文本查找效率和速度。现有技术在进行文本查找时,不会进行文本筛选,而是直接将数据库中的所有目标文本都展示给文本查找人员,从而导致文本查找人员依次查找核对每一条文本数据,浪费大量查找时间。所以,本实施例解决了文本查找人员在从数据库中查找文本数据花费时间长的问题。
具体地,以某医疗机构中的感染科医生A从数据库查找呼吸道感染的电子病历为例,首先由文本查找终端获取医生A在当前时刻生成的音频数据“呼吸道感染”或“呼吸道感染电子病历”,然后利用训练后的文本识别模型对待识别音频数据“呼吸道感染”或“呼吸道感染电子病历”进行音频识别,获取对应的识别文本,其中,文本识别模型预先被配置在文本查找终端内。再按照文本查找终端内部预设的文本字典对音频数据所对应的识别文本进行词条拆分,获取对应的词条文本,其中,本实施例中预设文本字典可以是由呼吸科名词组成的技术词典、教科书或技术手册等。按照预设文本字典对音频识别文本进行词条拆分后,可以得到词条“呼吸道”和“呼吸道感染”。从目标存储器中获取目标文本的关键词,并计算词条文本与关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中。本实施例中的目标存储器为数据库,目标文本是指在当前时刻前存储至数据库中的电子病历,作为示例,本实施例中呼吸科电子病历的关键词可以是:呼吸道、呼吸道感染、呼吸膜、动脉血氧分压、支气管炎、哮喘、呼吸衰竭、肺炎等关键词。从数据库中获取到呼吸科电子病历的关键词后,再计算预先完成词条拆分的词条“呼吸道”和“呼吸道感染”与关键词之间的相似度,然后获取每个词条与每个关键词的相似度,并对计算出的相似度按照从高到低的顺序进行排序,选择相似度最大的前K个关键词所对应的电子病历作为当前待识别音频数据的推荐文本数据。通过本实施例的记载可知,当感染科医生A需要从数据库中查找出与呼吸道感染的电子病历时,只需要对着文本查找终端说出“呼吸道感染”或“呼吸道感染电子病历”,然后文本查找终端就会根据感染科医生A说出的音频数据给其在显示界面上展示对应的推荐文本,即数据库中的电子病历。与现有技术中需要感染科医生依次从数据中依次查找核对每一条电子病历相比,本实施例能够缩短电子病历的查找时间,提高对应人员在进行文本查找时的速度和效率。
在一示例性实施例中,对所述待识别音频数据进行音频识别前,还包括对所述待识别音频数据进行降噪处理;其中,降噪处理的过程包括:对所述待识别音频数据进行分帧、加窗和傅里叶变换,获取对应的频谱;获取所述频谱的幅度特征序列和相位特征序列,并将所述幅度特征序列和相位特征序列输入至卷积神经网络中,得到卷积后的幅度特征序列和相位特征序列;对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,获取降噪后的待识别音频数据。在本实施例中,卷积神经网络包括循环网络、池化网络和全连接网络,当幅度特征序列和相位特征序列输入至卷积神经网络后,首先由循环网络对幅度特征序列和相位特征序列进行处理,得到对应的幅度循环特征序列和相位循环特征序列;再由池化网络进行处理,得到对应的池化幅度特征序列和池化相位特征序列;再然后由全连接网络将池化幅度特征序列和所述池化相位特征序列进行融合,得到卷积后的幅度特征序列和相位特征序列;所述融合包括:相加、相减和/或拼接。最后对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,得到降噪后的待识别音频数据。作为示例,本实施例中的幅度特征序列可以是:{ [0.6,0,0,0,0],[0,0.6,0,0,0] },相位特征序列可以是:{ [1,0,0,0,0],[0,1,0,0,0] };则卷积后的幅度特征序列可以是:{ [0.6,0,0,0,0,0,0.6,0,0,0 },卷积后的相位特征序列可以是:{ [1,0,0,0,0,0,1,0,0,0] }。其中,本实施例中的融合为拼接。
在一示例性实施例中,训练生成所述文本识别模型的过程包括:从预设文本字典中随机选择多个词条文本进行相加、相减和/或拼接,生成初始训练文本数据;对所述初始训练文本数据进行数据增强,获取增强文本数据;将所述初始训练文本数据和所述增强文本数据进行合并,生成训练文本数据集;将所述训练文本数据集输入至一个或多个深度神经网络中进行训练,生成所述文本识别模型。在本实施例中,预设文本字典可以是由呼吸科名词组成的技术词典、教科书或技术手册等,也可以是由胸腔科名词组成的技术词典、教科书或技术手册等。对于不同的应用场景,本实施例中的预设文本词典可以根据实际场景进行设定。本实施例中的文本识别模型可以是OCR字符识别模型(Optical CharacterRecognition , 光学字符识别,简称OCR)。本实施例可以通过改变初始识别训练文本数据中的字体清晰度、字体间距、字体背景和字体类型,来生成增强文本数据。通过对初始训练文本数据进行数据增强,然后将初始训练文本数据和增强文本数据进行合并生成训练文本数据集,可以在对深度神经网络进行训练时增加文本数据的多样性,使得训练后的文本识别模型的鲁棒性更好。
根据上述记载,将所述训练文本数据集输入至一个或多个深度神经网络中进行训练时,还包括:获取每个深度神经网络的平滑损失和交叉熵损失;对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;若所述总损失小于或等于第一阈值,则停止对深度神经网络的训练,生成所述文本识别模型;若所述总损失大于第一阈值,则继续对深度神经网络进行迭代训练,直至生成所述文本识别模型。作为示例,本实施例中的第一阈值可以为0.1,本实施例通过控制深度神经网络的训练损失来控制训练过程或次数,直至生成文本识别模型。
根据上述记载,在一示例性实施例中,如图2所示,确定目标文本中关键词的过程包括:
S100,获取所述目标存储器中的所有目标文本;
S200,根据目标场景下的实体字符对每个目标文本进行分词处理,获取多个字符段;
S300,将所述多个字符段进行任意两两组合,并计算每个组合中两个字符段间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合;
S400-1,若存在字符段集合,则从所述字符段集合中任意选出一个字符段作为所述目标文本的关键词;
S400-2,若不存在字符段集合,则将所述多个字符段作为所述目标文本的关键词。
作为示例,在本***中,字符的笔画和字体类型越相似,两者的编辑距离越近,其中,第二阈值可以设为0.05。在本实施例中,随着目标场景不同,其对应的实体字符也不相同。例如对呼吸科场景而言,其实体字符可以是:呼吸道、呼吸道感染、呼吸膜、动脉血氧分压、支气管炎、哮喘、呼吸衰竭、肺炎等,对于胸腔科场景而言,其实体字符可以是:气胸、胸膜、肋骨骨折、血胸、血气胸、心脏挫伤、肺结核、支气管扩张、冠心病、先心病、心导管等。本实施例按照实体字符将目标文本(例如电子病历)进行分词,然后得到多个字段,再计算字符段之间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合。在本实施例中,若两个字符段的编辑距离小于第二阈值,则说明两者属于相同的字符段,且合并成一个字符段集合后,该集合中全是相同的字符段。例如,对某呼吸科的电子病历进行分词处理后,得到了3个“支气管炎”字符段,2个“哮喘”字符段和1个“呼吸膜”字符段;由于当前电子病历存在相同的字符段,所以对当前电子病历进行分词处理后,可以得到2个字符段集合,其中一个集合为{支气管炎,支气管炎},另一个字符段集合为{哮喘,哮喘},即当前电子病历的关键词有2个,一个是支气管炎,另一个是哮喘。作为另一示例,如果对某胸腔科的电子病历进行分词处理后,得到了1个“肋骨骨折”字符段,1个“血胸”字符段和1个“血气胸”字符段,由于当前电子病历不存在相同的字符段,所以当前电子病历的关键词为:“肋骨骨折”、“血胸”和“血气胸”。
根据上述记载,在一示例性实施例中,若存在字符段集合,则还包括:计算剩余的每个字符段与每个字符段集合的编辑距离,并在编辑距离小于第二阈值时,将该字符段合并至对应的字符段集合中;以及,对所有的字符段集合进行任意两两组合,并计算任意两个字符段集合之间的编辑距离,将编辑距离小于第二阈值的两个字符段集合进行合并,更新原始的字符段集合,直至不再进行字符段集合的合并。作为示例,以上述呼吸科的电子病历为例,对该电子病历进行分词处理后,得到了3个“支气管炎”字符段,2个“哮喘”字符段和1个“呼吸膜”字符段;若其中2个“支气管炎”字符段形成字符段集合{支气管炎,支气管炎}后,还会剩下一个“支气管炎”字符段,此时再计算字符段集合{支气管炎,支气管炎}与字符段“支气管炎”的编辑距离,由于字符段集合{支气管炎,支气管炎}中仅包括“支气管炎”字符段,所以字符段集合{支气管炎,支气管炎}与字符段“支气管炎”的编辑距离必然小于第二阈值,再将剩余的字符段“支气管炎”进行合并后,得到的新字符段集合为{支气管炎,支气管炎,支气管炎}。对于电子病历而言,多次出现的字符段可以是与该患者病情紧紧关联,所以本实施例通过将编辑距离相近的字符段进行合并,可以将电子病历中出现频次高的字符段确定为关键词,从而准确确定出电子病历中记载的患者病情。
在一示例性实施例中,所述词条文本与所述关键词的相似度的计算过程如下:获取至少两个深度神经网络,并将获取的深度神经网络进行异构,形成两层以上的深度神经网络架构;其中,每层深度神经网络架构至少包括一个深度神经网络;利用其中一层深度神经网络架构中的深度神经网络获取词条文本特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取关键词特征向量;或者,利用其中一层深度神经网络架构中的深度神经网络获取关键词特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取词条文本特征向量;计算所述词条文本特征向量与所述关键词特征向量之间的欧式距离,并根据所述欧式确定所述词条文本与所述关键词的相似度。本实施例首先利用深度神经网络来获取词条文本特征向量与关键词特征向量,然后再计算词条文本特征向量与关键词特征向量的欧式距离,并根据计算出的欧式距离来确定词条文本与关键词的相似度。其中,欧式距离与相似度之和为1,例如词条文本特征向量与关键词特征向量的欧式距离为0.4,则词条文本与关键词的相似度为0.6,即相似度为60%。
根据上述记载可知,本发明提供一种文本推荐***,首先获取目标对象生成的待识别音频数据,并对其进行语音识别后得到对应的识别文本,然后根据对应的识别文本从目标存储器中找到相似度最大的前K个目标文本作为对应识别文本的推荐文本;而目标对象可以直接从这些推荐文本中查找出自己希望找到的文本数据。相当于本***通过识别文本查找人员在进行文本数据查找时输入的文本音频数据,然后对这些音频数据进行音频识别,根据识别结果为文本查找人员查找到数据库中相似度最大的前K个目标文本作为推荐文本,而文本查找人员只需要从推荐文本中进行查找即可。由此可知,文本查找人员进行文本数据查找时,本***可以先从数据库中对所有目标文本进行一个初次筛选,然后将筛选结果展示给文本查找人员,供其浏览选择,从而为文本查找人员节约了查找文本数据的时间,提高了文本查找效率和速度。现有技术在进行文本查找时,不会进行文本筛选,而是直接将数据库中的所有目标文本都展示给文本查找人员,从而导致文本查找人员依次查找核对每一条文本数据,浪费大量查找时间。所以,本***解决了文本查找人员在从数据库中查找文本数据花费时间长的问题。
本申请实施例还提供了一种文本推荐设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。图4示出了一种文本推荐设备1000的结构示意图。参阅图4所示,文本推荐设备1000包括:处理器1010、存储器1020、电源1030、显示单元1040、输入单元1060。
处理器1010是文本推荐设备1000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器1020内的软件程序和/或数据,执行文本推荐设备1000的各种功能,从而对文本推荐设备1000进行整体监控。本申请实施例中,处理器1010调用存储器1020中存储的计算机程序时执行如图1所述的方法。可选的,处理器1010可包括一个或多个处理单元;优选的,处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用等,调制解调处理器主要处理无线通信。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、各种应用等;存储数据区可存储根据文本推荐设备1000的使用所创建的数据等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
文本推荐设备1000还包括给各个部件供电的电源1030(比如电池),电源可以通过电源管理***与处理器1010逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗等功能。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及文本推荐设备1000的各种菜单等,本发明实施例中主要用于显示文本推荐设备1000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元1040可以包括显示面板1050。显示面板1050可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置。
输入单元1060可用于接收用户输入的数字或字符等信息。输入单元1060可包括触控面板1070以及其他输入设备1080。其中,触控面板1070,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板1070上或在触控面板1070附近的操作)。
具体的,触控面板1070可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器1010,并接收处理器1010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1070。其他输入设备1080可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板1070可覆盖显示面板1050,当触控面板1070检测到在其上或附近的触摸操作后,传送给处理器1010以确定触摸事件的类型,随后处理器1010根据触摸事件的类型在显示面板1050上提供相应的视觉输出。虽然在图4中,触控面板1070与显示面板1050是作为两个独立的部件来实现文本推荐设备1000的输入和输出功能,但是在某些实施例中,可以将触控面板1070与显示面板1050集成而实现文本推荐设备1000的输入和输出功能。
文本推荐设备1000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述文本推荐设备1000还可以包括摄像头等其它部件。
本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有指令,当一个或多个处理器执行所述指令时,使得上述设备能够执行本申请中如图1所述的方法。
本领域技术人员可以理解的是,图4仅仅是文本推荐设备的举例,并不构成对该设备的限定,该设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时,可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。本领域内的技术人员应明白,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的,应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可应用至通用计算机、专用计算机、嵌入式处理机或其他可编程文本推荐设备的处理器中以产生一个机器,使得通过计算机或其他可编程文本推荐设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程文本推荐设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程文本推荐设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (7)
1.一种文本推荐方法,其特征在于,所述方法包括以下步骤:
获取待识别音频数据,所述待识别音频数据由目标对象生成;
利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本;
所述词条文本与所述关键词的相似度的计算过程如下:
获取至少两个深度神经网络,并将获取的深度神经网络进行异构,形成两层以上的深度神经网络架构;其中,每层深度神经网络架构至少包括一个深度神经网络;
利用其中一层深度神经网络架构中的深度神经网络获取词条文本特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取关键词特征向量;或者,利用其中一层深度神经网络架构中的深度神经网络获取关键词特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取词条文本特征向量;
计算所述词条文本特征向量与所述关键词特征向量之间的欧式距离,并根据所述欧式确定所述词条文本与所述关键词的相似度;
训练生成所述文本识别模型的过程包括:
从预设文本字典中随机选择多个词条文本进行相加、相减和/或拼接,生成初始训练文本数据;
对所述初始训练文本数据进行数据增强,获取增强文本数据;
将所述初始训练文本数据和所述增强文本数据进行合并,生成训练文本数据集;
将所述训练文本数据集输入至一个或多个深度神经网络中进行训练,生成所述文本识别模型;
确定目标文本中关键词的过程包括:
获取所述目标存储器中的所有目标文本;
根据目标场景下的实体字符对每个目标文本进行分词处理,获取多个字符段;
将所述多个字符段进行任意两两组合,并计算每个组合中两个字符段间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合;
若存在字符段集合,则从所述字符段集合中任意选出一个字符段作为所述目标文本的关键词;
若不存在字符段集合,则将所述多个字符段作为所述目标文本的关键词。
2.根据权利要求1所述的文本推荐方法,其特征在于,对所述待识别音频数据进行音频识别前,还包括对所述待识别音频数据进行降噪处理;其中,降噪处理的过程包括:
对所述待识别音频数据进行分帧、加窗和傅里叶变换,获取对应的频谱;
获取所述频谱的幅度特征序列和相位特征序列,并将所述幅度特征序列和相位特征序列输入至卷积神经网络中,得到卷积后的幅度特征序列和相位特征序列;
对卷积后的幅度特征序列和相位特征序列进行傅里叶逆变换,获取降噪后的待识别音频数据。
3.根据权利要求1所述的文本推荐方法,其特征在于,将所述训练文本数据集输入至一个或多个深度神经网络中进行训练时,还包括:
获取每个深度神经网络的平滑损失和交叉熵损失;
对所述平滑损失和所述交叉熵损失进行加权计算,获取对应深度神经网络的总损失;
若所述总损失小于或等于第一阈值,则停止对深度神经网络的训练,生成所述文本识别模型;
若所述总损失大于第一阈值,则继续对深度神经网络进行迭代训练,直至生成所述文本识别模型。
4.根据权利要求1所述的文本推荐方法,其特征在于,若存在字符段集合,则还包括:
计算剩余的每个字符段与每个字符段集合的编辑距离,并在编辑距离小于第二阈值时,将该字符段合并至对应的字符段集合中;
以及,对所有的字符段集合进行任意两两组合,并计算任意两个字符段集合之间的编辑距离,将编辑距离小于第二阈值的两个字符段集合进行合并,更新原始的字符段集合,直至不再进行字符段集合的合并。
5.一种文本推荐***,其特征在于,所述***包括有:
音频采集模块,用于获取待识别音频数据,所述待识别音频数据由目标对象生成;
文本识别模块,用于利用训练后的文本识别模型对所述待识别音频数据进行音频识别,获取对应的识别文本;
词条拆分模块,用于按照预设文本字典对所述识别文本进行词条拆分,获取对应的词条文本;
相似度计算模块,用于从目标存储器中获取目标文本的关键词,并计算所述词条文本与所述关键词的相似度;其中,所述目标文本预先存储在所述目标存储器中;
文本推荐模块,用于对计算出的相似度进行排序,并选择相似度最大的前K个关键词所对应的目标文本作为当前待识别音频数据的推荐文本;
所述相似度计算模块中所述词条文本与所述关键词的相似度的计算过程如下:
获取至少两个深度神经网络,并将获取的深度神经网络进行异构,形成两层以上的深度神经网络架构;其中,每层深度神经网络架构至少包括一个深度神经网络;
利用其中一层深度神经网络架构中的深度神经网络获取词条文本特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取关键词特征向量;或者,利用其中一层深度神经网络架构中的深度神经网络获取关键词特征向量,以及利用剩余的一层或多层深度神经网络架构中的深度神经网络获取词条文本特征向量;
计算所述词条文本特征向量与所述关键词特征向量之间的欧式距离,并根据所述欧式确定所述词条文本与所述关键词的相似度;
所述文本识别模块中所述文本识别模型的训练生成过程包括:
从预设文本字典中随机选择多个词条文本进行相加、相减和/或拼接,生成初始训练文本数据;
对所述初始训练文本数据进行数据增强,获取增强文本数据;
将所述初始训练文本数据和所述增强文本数据进行合并,生成训练文本数据集;
将所述训练文本数据集输入至一个或多个深度神经网络中进行训练,生成所述文本识别模型;
所述相似度计算模块确定目标文本中关键词的过程包括:
获取所述目标存储器中的所有目标文本;
根据目标场景下的实体字符对每个目标文本进行分词处理,获取多个字符段;
将所述多个字符段进行任意两两组合,并计算每个组合中两个字符段间的编辑距离,将编辑距离小于第二阈值的两个字符段进行合并,形成一个字符段集合;
若存在字符段集合,则从所述字符段集合中任意选出一个字符段作为所述目标文本的关键词;
若不存在字符段集合,则将所述多个字符段作为所述目标文本的关键词。
6.一种文本推荐设备,其特征在于,包括:
处理器;和
存储有指令的计算机可读介质,当所述处理器执行所述指令时,使得所述设备执行如权利要求1至4中任意一项所述的方法。
7.一种计算机可读介质,其特征在于,其上存储有指令,所述指令由处理器加载并执行如权利要求1至4中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916365.9A CN113377928B (zh) | 2021-08-11 | 2021-08-11 | 一种文本推荐方法、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916365.9A CN113377928B (zh) | 2021-08-11 | 2021-08-11 | 一种文本推荐方法、***、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377928A CN113377928A (zh) | 2021-09-10 |
CN113377928B true CN113377928B (zh) | 2022-05-27 |
Family
ID=77576726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916365.9A Active CN113377928B (zh) | 2021-08-11 | 2021-08-11 | 一种文本推荐方法、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377928B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114528851B (zh) * | 2022-02-17 | 2023-07-25 | 平安科技(深圳)有限公司 | 回复语句确定方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及*** |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110287325A (zh) * | 2019-06-28 | 2019-09-27 | 南方电网科学研究院有限责任公司 | 一种基于智能语音分析的电网客服业务推荐方法及装置 |
CN110853716A (zh) * | 2019-09-19 | 2020-02-28 | 北京紫冬认知科技有限公司 | 病历模板的创建方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11269935B2 (en) * | 2019-12-30 | 2022-03-08 | Paypal, Inc. | Searching free-text data using indexed queries |
-
2021
- 2021-08-11 CN CN202110916365.9A patent/CN113377928B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及*** |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110287325A (zh) * | 2019-06-28 | 2019-09-27 | 南方电网科学研究院有限责任公司 | 一种基于智能语音分析的电网客服业务推荐方法及装置 |
CN110853716A (zh) * | 2019-09-19 | 2020-02-28 | 北京紫冬认知科技有限公司 | 病历模板的创建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113377928A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10915577B2 (en) | Constructing enterprise-specific knowledge graphs | |
CN111985240B (zh) | 命名实体识别模型的训练方法、命名实体识别方法及装置 | |
CN111522994B (zh) | 用于生成信息的方法和装置 | |
RU2688271C2 (ru) | Поиск изображений на естественном языке | |
WO2021120834A1 (zh) | 基于生物识别的手势识别方法、装置、计算机设备及介质 | |
JP7234483B2 (ja) | エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム | |
CN108491754A (zh) | 一种基于骨骼特征的动态表示和匹配的人体行为识别方法 | |
Xiao et al. | Multi-sensor data fusion for sign language recognition based on dynamic Bayesian network and convolutional neural network | |
CN114625923B (zh) | 视频检索模型的训练方法、视频检索方法、装置以及设备 | |
CN112668463B (zh) | 一种基于场景识别的中文手语翻译方法及*** | |
CN113377928B (zh) | 一种文本推荐方法、***、设备及介质 | |
US9336195B2 (en) | Method and system for dictionary noise removal | |
CN107894979B (zh) | 用于语义挖掘的复合词处理方法、装置及其设备 | |
Singha et al. | ANN-based hand gesture recognition using self co-articulated set of features | |
Ryumin et al. | Towards automatic recognition of sign language gestures using kinect 2.0 | |
CN111160049B (zh) | 文本翻译方法、装置、机器翻译***和存储介质 | |
Truong et al. | Laban movement analysis and hidden Markov models for dynamic 3D gesture recognition | |
CN113257253B (zh) | 一种文本提取方法、***、设备及介质 | |
Giunchi et al. | Mixing modalities of 3d sketching and speech for interactive model retrieval in virtual reality | |
CN111738009B (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
Li et al. | Static hand gesture recognition based on hierarchical decision and classification of finger features | |
Zahra et al. | Camera-based interactive wall display using hand gesture recognition | |
CN113254653B (zh) | 一种文本分类方法、***、设备及介质 | |
US20230040181A1 (en) | System and method for improving named entity recognition | |
Zhou et al. | Training convolutional neural network for sketch recognition on large-scale dataset. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220721 Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd. Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd. |