CN115391494B - 中医症候智能识别方法及装置 - Google Patents

中医症候智能识别方法及装置 Download PDF

Info

Publication number
CN115391494B
CN115391494B CN202211323785.7A CN202211323785A CN115391494B CN 115391494 B CN115391494 B CN 115391494B CN 202211323785 A CN202211323785 A CN 202211323785A CN 115391494 B CN115391494 B CN 115391494B
Authority
CN
China
Prior art keywords
word
chinese medicine
traditional chinese
vector
symptom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211323785.7A
Other languages
English (en)
Other versions
CN115391494A (zh
Inventor
雷亮
贺跃杰
丁宇
申冠生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanzhi Chuangzhi Technology Co ltd
Original Assignee
Beijing Yuanzhi Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanzhi Chuangzhi Technology Co ltd filed Critical Beijing Yuanzhi Chuangzhi Technology Co ltd
Priority to CN202211323785.7A priority Critical patent/CN115391494B/zh
Publication of CN115391494A publication Critical patent/CN115391494A/zh
Application granted granted Critical
Publication of CN115391494B publication Critical patent/CN115391494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供一种中医症候智能识别方法及装置,方法包括:根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中匹配得到各个目标症状词各自的目标词向量,各个症状词是预先对中医医案描述文本进行词典匹配及文本分词后生成的;各个词向量为预先采用N‑gram语言特征对各个症状词进行切词,再基于CBOW或skip‑gram模型训练后生成的;生成目标中医医案向量;根据目标中医医案向量和中医症候智能识别模型识别目标中医医案的症候信息。本申请能够充分的提取中医医案中的语义特征,能够在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性。

Description

中医症候智能识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及中医症候智能识别方法及装置。
背景技术
中医是经过长期实践验证的传统医学,采用“望闻问切”的方式收集并分析患者的症状,利用实践经验,根据患者的症状判断其症候,从而敲定对于该症候的最佳治疗方案,开方抓药。但传统的中医症候判断方式,辩证开方高度依赖中医医师的经验,对症状的描述语言缺乏统一标准,对实现中医症候的识别自动化存在一定阻碍。因此,用于自动辅助医生或患者进行中医症候自动识别的研究越来越受到广泛关注。
目前,现有的中医症候自动识别过程通常应用支持向量机和神经网络、贝叶斯统计算法或Bert模型等实现,然而,这些方式都在一定程度上受中医医案文档数据等样本缺乏的影响,导致采用这些方式进行中医症候自动识别的准确性受限,进而影响中医症候识别结果的应用可靠性。
发明内容
鉴于此,本申请实施例提供了中医症候智能识别方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
本申请的一个方面提供了一种中医症候智能识别方法,包括:
根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;
生成各个所述目标词向量对应的一个目标中医医案向量;
根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息。
在本申请的一些实施例中,在所述自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量之前,还包括:
获取多个历史中医医案文档数据;
对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果;
基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词;
根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量;
基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
在本申请的一些实施例中,所述中医症候智能识别模型包括:用于存储各个症候向量的症候向量数据库和相似度计算公式;
相对应的,所述根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息,包括:
获取所述目标中医医案向量分别与所述症候向量数据库中的各个症候向量之间的相似度;
在各个所述相似度中选取数值最大的一个作为目标相似度,并将该目标相似度对应的症候向量确定为所述目标中医医案向量对应的症候向量;
输出所述症候向量对应的症候信息。
在本申请的一些实施例中,在所述根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息之前,还包括:
归类各个预设的症候各自对应的历史中医医案文档数据,并获取各个所述历史中医医案文档数据各自对应的各个症状词;
在所述词向量数据库中分别匹配得到各个所述症状词对应的词向量;
分别将每个所述历史中医医案文档数据各自对应的各个所述词向量相加,得到各个所述历史中医医案文档数据分别对应的医案向量;
分别获取归类至每个所述症候下的各个所述医案向量的平均值,得到各个所述症候分别对应的初始症候向量;
获取每个所述症候下的各个所述医案向量与对应的所述初始症候向量之间的欧式距离或余弦相似度;
按所述欧式距离或余弦相似度从小到大的顺序,对每个所述症候下的各个所述医案向量进行排序,得到各个所述症候各自对应的第一医案向量排序序列;
自各个所述第一医案向量排序序列的尾部删除预设百分比的医案向量,以形成各个症候各自对应的第二医案向量排序序列;
获取各个症候各自对应的第二医案向量排序序列中的各个所述医案向量的平均值,得到各个所述症候分别对应的症候向量,将各个所述症候向量存储至症候向量数据库。
在本申请的一些实施例中,所述中医症候智能识别模型包括:叶子结点为症候的霍夫曼树;
相对应的,所述根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息,包括:
将所述目标中医医案向量输入叶子结点为症候的霍夫曼树,以使得该霍夫曼树输出目的结点对应的症候信息。
在本申请的一些实施例中,在所述将所述目标中医医案向量输入叶子结点为症候的霍夫曼树之前,还包括:
归类各个预设的症候各自对应的历史中医医案文档数据,并获取各个所述历史中医医案文档数据各自对应的各个症状词;
在所述词向量数据库中分别匹配得到各个所述症状词各自对应的词向量,以得到对应的训练数据集;
分别将每个所述历史中医医案文档数据各自对应的各个所述词向量相加,得到各个所述历史中医医案文档数据分别对应的医案向量;
根据各个所述症候在所述训练数据集中出现的频率构建叶结点是症候的霍夫曼树,并基于各个所述医案向量迭代更新所述霍夫曼树。
本申请的另一个方面提供了一种中医症候智能识别装置,包括:
词向量匹配模块,用于根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;
医案向量生成模块,用于生成各个所述目标词向量对应的一个目标中医医案向量;
症候识别模块,用于根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息。
在本申请的一些实施例中,还包括:词向量数据库构建模块;
所述词向量数据库构建模块用于执行下述内容:
获取多个历史中医医案文档数据;
对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果;
基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词;
根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量;
基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
本申请的另一个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的中医症候智能识别方法。
本申请的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的中医症候智能识别方法。
本申请提供的中医症候智能识别方法,根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;生成各个所述目标词向量对应的一个目标中医医案向量;根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息,本申请利用N-gram语言特征对历史中医医案分词结果进行切分,并对各个症状词进行词向量表示,使得词向量数据库的词向量能更细化的表达其语义环境,进而在应用该词向量数据库进行中医症候智能识别时,能够充分的提取中医医案文档中的语义特征,能够解决现有的中医症候智能识别方法因样本数不足而导致的识别准确性不高的问题,能够在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性,进而能够中医症候识别结果的应用可靠性,并能够提高应用该中医症候识别方法的医生、患者等的用户体验。
本申请的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本申请实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。附图中的部件不是成比例绘制的,而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分,附图中对应部分可能被放大,即,相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为本申请一实施例中的中医症候智能识别方法的一种流程示意图。
图2为本申请一实施例中的中医症候智能识别方法的另一种流程示意图。
图3为本申请一实施例中的中医症候智能识别方法中步骤300的一种具体流程示意图。
图4为本申请另一实施例中的中医症候智能识别装置的一种结构示意图。
图5为本申请另一实施例中的中医症候智能识别装置的另一种结构示意图。
图6 为本申请应用实例提供的词向量表示方法的处理过程示意图。
图7为本申请应用实例提供的一条历史医案文档数据的举例示意图。
图8为本申请应用实例提供的医师-医案-症候-症状组合的对应关系举例示意图。
图9为本申请应用实例提供的症候向量更新过程示意图。
图10为本申请应用实例提供的CBOW的模型举例示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本申请做进一步详细说明。在此,本申请的示意性实施方式及其说明用于解释本申请,但并不作为对本申请的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤,而省略了与本申请关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本申请的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
传统的中医症候分类或识别方法,存在以下限制:
(1)辩证开方高度依赖中医医师的经验。相较于经验更加丰富的医师,经验尚缺的医师或难以判断最切合患者临床表现的症候。但是,富有经验的中医医师的数量较为稀缺,这对于中医医疗资源产生了一定的限制,因此需要一些中医症候自动识别方式进行辅助。
(2)对症状的描述语言缺乏统一标准。即多位医师对临床表现高度类似的患者通过望闻问切获取并记录的症状,可能存在差异性。比如一位医师的记录是“发热”,另一位医师的记录是“发烧”;或者如一位医师的记录是“肢体酸痛”,另一位医师的记录是“肢体酸楚”。对高度相似的症状的不同的描述语言给现有的中医症候自动识别方式带来了困难。
现有的中医症候自动识别方式举例为:
方式1:利用支持向量机和神经网络对心血管疾病中医症候进行分类,准确率在60%以上;
方式2:对已建立的肺痿患者症状与专家组症候分类数据,利用贝叶斯统计算法进行分类,取前十个分值较高的症状作为症候分型规则,提高了辨证规则的健壮性;
方式3:Bert模型提取症状的文本特征,并利用金字塔池化等手段重新整合多尺度的语义特征,构建症候分类模型。
但上述方式1和2都只是针对某一个细分领域,传统统计机器学习算法,面对样本数量有限的情况时,会导致相应的症候分类模型泛化能力较弱,预测准确率降低;方式3利用算法复杂度较高的Bert模型,提高了识别准确率,但是在实际场景中识别效率较低,进而影响中医症候识别结果的应用可靠性。
因此,本申请提供一种中医症候智能识别方法,能够充分的提取中医医案中的语义特征,能够在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性。
在本申请的一个或多个实施例中,中医症候也可以简写为:证候,均是指中医学中一系列有相互关联的症状总称;即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化。
具体通过下述实施例进行详细说明。
为了在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性,本申请实施例提供一种中医症候智能识别方法,参见图1,可由中医症候智能识别装置执行的所述中医症候智能识别方法具体包含有如下内容:
步骤100:根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的。
在本申请的一个或多个实施例中,目标中医医案是指当前待进行中医症候识别的中医医案档案数据,所述目标症状词是指自所述目标中医医案中识别得到的症状词;所述目标词向量是指在词向量数据库中匹配得到的对应所述目标中医医案的词向量。
在步骤100中,中医症候智能识别装置可以自客户端设备等接收目标中医医案文档图像数据,再基于OCR文字识别等方式识别得到该图像数据对应的文本数据,然后对该文本数据进行预处理,并基于预设的中医症状词库从该文本数据中提取得到各个目标症状词。
可以理解的是,目标中医医案或历史中医医案文档数据等,均可以包含有西医诊断、中医诊断、临床表现、治法和处方中的至少一项。为了进一步提高中医症候智能识别的准确性,在一种目标中医医案或历史中医医案文档数据中的具体实现方式中,可以包含有西医诊断、中医诊断、临床表现、治法和处方这五类数据。
在本申请的一个或多个实施例中,基于CBOW或skip-gram,引入N-gram语言特征的模型是自然语言处理中的基于神经网络和霍夫曼树的语言模型LM(Language Model),语言模型是一个基于概率的判别模型。
在步骤100中,词典匹配是指在预设的词典数据中对历史中医医案文档数据进行症状专业词匹配,并将匹配到的数据作为历史中医医案文档数据对应的症状数据匹配结果。
基于此,预先对历史中医医案文档数据进行词典匹配及文本分词的举例为:可以预先建立中医领域症状专业词汇表作为词典数据,首先从历史中医医案文档数据匹配症状专业词,得到症状数据匹配结果,再对匹配结果再进行分词处理,以得到各个所述症状词,并将得到的各个所述症状词作为历史中医医案分词结果。
在本申请的一个或多个实施中,N-gram语言特征并非指N-gram语言模型,而是指基于N-gram的一种词的切分手段,该N-gram语言特征的应用举例为:针对所述历史中医医案分词结果中的每一个症状词,均采用字符级的固定大小的滑动窗口来对其进行切分,得到各个所述症状词分别对应的N-gram特征词,然后再得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量。步骤200:生成各个所述目标词向量对应的一个目标中医医案向量。
可以理解的是,目标中医医案向量根据各个所述目标词向量生成,具体可以采用直接将各个所述目标词向量求和的方式得到,还可以基于预设的各个所述词向量各自对应的权重值,对各个所述目标词向量进行加权求和后得到等,各类向量累加或叠加的方式均适用于本申请实施例的步骤300。而在步骤300的一种优选举例中,可以采用直接将各个所述目标词向量求和的方式得到目标中医医案向量P,以在保证目标中医医案向量应用可靠性的基础上,有效降低目标中医医案向量的计算复杂度。
步骤300:根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息。
在步骤300中,中医症候智能识别装置可以将所述目标中医医案向量输入预设的用于进行中医症候智能识别的机器学习模型或其他数据结构等中,以使用于进行中医症候智能识别的机器学习模型或其他数据结构输出所述目标中医医案对应的症候向量,并将该症候向量对应的症候文字信息作为中医症候智能识别结果。
从上述描述可知,本申请实施例提供的中医症候智能识别方法,利用N-gram语言特征对历史中医医案分词结果进行切分,并对各个症状词进行词向量表示,使得词向量数据库的词向量能更细化的表达其语义环境,进而在应用该词向量数据库进行中医症候智能识别时,能够充分的提取中医医案文档中的语义特征,能够解决现有的中医症候智能识别方法因样本数不足而导致的识别准确性不高的问题,能够在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性,进而能够中医症候识别结果的应用可靠性,并能够提高应用该中医症候识别方法的医生、患者等的用户体验。
为了进一步提高应用词向量数据库进行中医症候智能识别的准确性,在本申请实施例提供的一种中医症候智能识别方法中,参见图2,所述中医症候智能识别方法中的步骤100之前还具体包含有如下内容:
步骤010:获取多个历史中医医案文档数据。
在步骤010中,获取大规模的中医医案的文档数据,医案文档里面包括西医诊断、中医诊断、临床表现、治法和处方数据。
步骤020:对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果。
步骤030:基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词。
步骤040:根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量。
步骤050:基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
在步骤050中,所述词向量表示方式可以采用Word2Vec中的CBOW词向量表示方式或者Skip-gram词向量表示方式等,其中,Word2vec是一类神经网络模型——在给定无标签的语料库的情况下,为语料库中的单词产生一个能表达语义的向量。CBOW词向量表示方式具体指连续词袋模型CBOW,CBOW和Skip-gram词向量神经网络模型都是在word2vec中用于将文本进行向量表示的实现方法,在CBOW方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词(上下文词)的向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量进行了调整,这样也就获得了整个文本里面所有词的词向量。
Skip-gram词向量神经网络模型进行预测的次数是要多于CBOW的:因为每个词在作为中心词时,都要使用周围词进行预测一次。这样相当于比CBOW的方法多进行了K次(假设K为窗口大小),因此时间的复杂度为O(KV),训练时间要比CBOW要长。因此,为了进一步提高词向量表示的效率,进而提高中医症候智能识别过程的效率,在本申请实施例提供的一种中医症候智能识别方法中,可以选取CBOW词向量表示方式作为步骤050中的词向量表示方式的具体实现方式,所述中医症候智能识别方法中的步骤050具体包含有如下内容:
步骤051:初始化预设的词向量维度数的症状及其N-gram特征词词向量;
步骤052:根据预设的一个固定窗口,按照CBOW词向量训练方式,掩盖中间次,利用窗口内的上下文预测中间词,遍历上下文出现的,经过初始化的词向量,将每个维度数为V的向量进行累加,获得一个新的向量,并将其称为投影层。
再将投影层维度数为V的向量接入一棵二叉树(霍夫曼树),二叉树的叶子节点是所有已知的词库中的词。各个非叶子节点均放置一个Sigmoid函数,使用输入的向量和参数向量θ的点积结果,计算Sigmoid值。如果Sigmoid值大于等于0.5则选择左子树,如果Sigmoid值小于0.5则选择右子树。递归地将输入维度数为V的向量指向一个叶子节点,即对应的要预测的中间词。将此二叉树称为输出层。
而后根据给定的上下文context(w),输出目标词w,确定最大似然函数并利用梯度上升过程,迭代更新节点参数向量θ和词向量X,直到梯度收敛,最终得到所有词向量,以形成词向量数据库。
从上述描述可知,本申请实施例提供的中医症候智能识别方法,通过采用CBOW词向量表示方式,能够在保证词向量表示结果准确性的技术上,有效提高中医词向量表示的效率。
而在步骤050的另一种举例中,可以选取Skip-gram词向量神经网络模型进行模型训练作为步骤050中的词向量表示方式的具体实现方式,因此,所述中医症候智能识别方法中的步骤050还可以包含有如下内容:
步骤053:初始化预设的词向量维度数的症状及其N-gram特征词词向量;
步骤054:根据预设的一个固定窗口,按照Skip-gram词向量训练方式,掩盖除中间词之外的其它词,利用窗口内的中间词预测上下文词,遍历上下文出现的,经过初始化的词向量,遍历每一个上下文词和中间词形成的组合,并将每一个上下文词向量称为投影层。
再将投影层维度数为V的向量接入一棵二叉树(霍夫曼树),二叉树的叶子节点是所有已知的词库中的词。各个非叶子节点均放置一个Sigmoid函数,使用输入的向量和参数向量θ的点积结果,计算Sigmoid值。如果Sigmoid值大于等于0.5则选择左子树,如果Sigmoid值小于0.5则选择右子树。递归地将输入维度数为V的向量指向一个叶子节点,即对应的要预测的中间词。将此二叉树称为输出层。
而后根据给定的上下文context(w),输出目标词w,确定最大似然函数并利用梯度上升过程,迭代更新节点参数向量θ和词向量X,直到梯度收敛,最终得到所有词向量,以形成词向量数据库。
为了进一步解决现有的中医症候自动识别方式普遍存在的计算复杂度高且效率较低的问题,在本申请实施例提供的一种中医症候智能识别方法中,所述中医症候智能识别模型包括:用于存储各个症候向量的症候向量数据库和相似度计算公式;参见图3,所述中医症候智能识别方法中的步骤300的一种实现方式具体包含有如下内容:
步骤310:获取所述目标中医医案向量分别与所述症候向量数据库中的各个症候向量之间的相似度。
可以理解的是,可以采用基于相似度计算公式获取所述目标中医医案向量分别与所述症候向量数据库中的各个症候向量之间的相似度,所述相似度计算公式可以选取余弦相似度的计算公式:
Figure DEST_PATH_IMAGE001
其中,
Figure 380688DEST_PATH_IMAGE002
表示第i个目标中医医案向量,
Figure DEST_PATH_IMAGE003
表示第i个症候向量。
步骤320:在各个所述相似度中选取数值最大的一个作为目标相似度,并将该目标相似度对应的症候向量确定为所述目标中医医案向量对应的症候向量。
步骤330:输出所述症候向量对应的症候信息。
从上述描述可知,本申请实施例提供的中医症候智能识别方法,通过采用症候向量数据库中的各个症候向量之间的相似度,能够有效降低中医症候智能识别的计算复杂度并提高识别效率。
其中,为了提高用于存储各个症候向量的症候向量数据库的应用可靠性及有效性,在本申请实施例提供的一种中医症候智能识别方法中,所述中医症候智能识别方法中的步骤310之前还具体包含有如下内容:
步骤061:归类各个预设的症候各自对应的历史中医医案文档数据,并获取各个所述历史中医医案文档数据各自对应的各个症状词;
步骤062:在所述词向量数据库中分别匹配得到各个所述症状词对应的词向量;
步骤063:分别将每个所述历史中医医案文档数据各自对应的各个所述词向量相加,得到各个所述历史中医医案文档数据分别对应的医案向量;
步骤064:分别获取归类至每个所述症候下的各个所述医案向量的平均值,得到各个所述症候分别对应的初始症候向量;
步骤065:获取每个所述症候下的各个所述医案向量与对应的所述初始症候向量之间的欧式距离或余弦相似度;
步骤066:按所述欧式距离或余弦相似度从小到大的顺序,对每个所述症候下的各个所述医案向量进行排序,得到各个所述症候各自对应的第一医案向量排序序列;
步骤067:自各个所述第一医案向量排序序列的尾部删除预设百分比的医案向量,以形成各个症候各自对应的第二医案向量排序序列;
步骤068:获取各个症候各自对应的第二医案向量排序序列中的各个所述医案向量的平均值,得到各个所述症候分别对应的症候向量,将各个所述症候向量存储至症候向量数据库。
在一种举例中,所述预设百分比可以根据具体应用需要设置,可以在1%至10%之前选取,例如可以为5%。
具体来说,按照症候归类每一个医案,遍历每一个医案的所有症状,针对每一个症状,去词向量数据库中匹配,得到该症状的词向量表示;将每一条医案下的所有词向量相加,代表该条医案;将症候下的所有医案向量,求和取平均,代表该症候;将每个症候下的各个医案按照其距离中心点的欧式距离从小到大排序,去除位于序列的后5%的医案;随后使用保留的95%医案重新计算中心点,并将症候向量更新为此中心点。并将更新后的症候向量进行本地化存储。
为了进一步解决现有的中医症候自动识别方式普遍存在的计算复杂度高且效率较低的问题,在本申请实施例提供的一种中医症候智能识别方法中,所述中医症候智能识别模型包括:叶子结点为症候向量的霍夫曼树;所述中医症候智能识别方法中的步骤300的另一种实现方式具体包含有如下内容:
步骤340:将所述目标中医医案向量输入叶子结点为症候向量的霍夫曼树,以使得该霍夫曼树输出目的结点对应的症候信息。
从上述描述可知,本申请实施例提供的中医症候智能识别方法,通过采用叶子结点为症候向量的霍夫曼树,能够有效降低中医症候智能识别的计算复杂度并提高识别效率。
其中,为了提高叶子结点为症候向量的霍夫曼树的应用可靠性及有效性,在本申请实施例提供的一种中医症候智能识别方法中,所述中医症候智能识别方法中的步骤340之前还具体包含有如下内容:
步骤071:归类各个预设的症候各自对应的历史中医医案文档数据,并获取各个所述历史中医医案文档数据各自对应的各个症状词;
步骤072:在所述词向量数据库中分别匹配得到各个所述症状词各自对应的词向量,以得到对应的训练数据集;
步骤073:分别将每个所述历史中医医案文档数据各自对应的各个所述词向量相加,得到各个所述历史中医医案文档数据分别对应的医案向量;
步骤074:根据各个所述症候在所述训练数据集中出现的频率构建叶结点是症候的霍夫曼树,并基于各个所述医案向量迭代更新所述霍夫曼树。
具体来说,可以先建立医师-医案-症候-症状组合的训练数据;遍历每一条医案下的所有症状,每个症状都可以在已经训练好的词向量库中匹配,得到向量化表示;将所有词向量相加;根据训练样本中症候出现频率,构建霍夫曼树;将词向量相加的结果,输入给霍夫曼树,根据目标症候构建似然函数,按照概率最大化原则,选择梯度上升方法,迭代更新霍夫曼向量化参数θ和输入词向量X。
从软件层面来说,本申请还提供一种用于执行所述中医症候智能识别方法中全部或部分内的中医症候智能识别装置,参见图4,所述中医症候智能识别装置具体包含有如下内容:
词向量匹配模块10,用于根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;
医案向量生成模块20,用于生成各个所述目标词向量对应的一个目标中医医案向量;
症候识别模块30,用于根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息。
参见图5,所述中医症候智能识别装置还具体包含有:词向量数据库构建模块01;
所述词向量数据库构建模块01用于执行下述内容:
获取多个历史中医医案文档数据;
对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果;
基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词;
根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量;
基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
本申请提供的中医症候智能识别装置的实施例具体可以用于执行上述实施例中的中医症候智能识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述中医症候智能识别方法实施例的详细描述。
所述中医症候智能识别装置进行中医症候智能识别的部分可以在服务器中执行,而在另一种实际应用情形中,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于中医症候智能识别的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
从上述描述可知,本申请实施例提供的中医症候智能识别装置,利用N-gram语言特征对历史中医医案分词结果进行切分,并对各个症状词及其N-gram特征词进行词向量表示,使得词向量数据库的词向量能更细化的表达其语义环境,进而在应用该词向量数据库进行中医症候智能识别时,能够充分的提取中医医案文档中的语义特征,能够解决现有的中医症候智能识别方法因样本数不足而导致的识别准确性不高的问题,能够在保证中医症候分类识别的自动化及智能化的基础上,有效提高中医症候分类识别的精确性及有效性,进而能够中医症候识别结果的应用可靠性,并能够提高应用该中医症候识别方法的医生、患者等的用户体验。
为了进一步说明本方案,本申请还提供一种中医症候智能识别方法的具体应用实例,具体涉及基于词向量技术的中医症候智能识别模型的训练及使用过程,该中医症候智能识别模型也可以被称之为智能辩证机器学习模型,利用词向量等自然语言处理领域的技术,使机器学习不同医师的症候判定逻辑,从而让该医师的症候判定逻辑可以规模化复用,对其他医师的辩证过程起到参考作用。
本申请应用实例采用的技术方案包括以下步骤:
(一)症状词向量表示
参见图6,症状词向量表示方法包含有症状描述、N-gram处理及初始化等处理过程,其中,d≥4;[X11、X12、X13…X1d]是指“恶”的维度d编码;[X21、X22、X23…X2d]是指“恶寒”的维度d编码;[X31、X32、X33…X3d]是指“寒”的维度d编码;[X41、X42、X43…X4d]是指“咳”的维度d编码;[X51、X52、X53…X5d]是指“咳嗽”的维度d编码;[X61、X62、X63…X6d]是指“嗽不”的维度d编码;[X71、X72、X73…X7d]是指“不止”的维度d编码;[X81、X82、X83…X8d]是指“头”的维度d编码;[X91、X92、X93…X9d]是指“头痛”的维度d编码;[Xn1、Xn2、Xn3…Xnd]是指第n个症状词“痛”对应的维度d编码。
具体说明如下:
步骤11:获取所有历史医案文档数据,每一条医案包含中医诊断、临床表现、治法和处方,参见图7。
步骤12:对医案文本先经过词典匹配,再进行内容分词,并对分词结果按照指定的N-gram方法进一步切分,将包含症状及N-gram特征词的所有结果放入词库中。
步骤13:初始化预设的词向量维度数的症状及其N-gram特征词词向量。
步骤14:针对所有的医案文本,指定一个固定大小的上下文窗口,采用CBOW词向量训练原理,利用上下文词汇,预测中间词并使得概率最大化。遍历每一个窗口,获取除了预测词外所有词的初始化向量,将窗口内和上下文有关的所有词向量相加,得到一个累加向量,并将其称之为投影层,上述CBOW模型参见图10。
步骤15:将步骤14中的投影层向量,输入给一个根据词频生成的霍夫曼树,获取窗口内的要预测的词的霍夫曼路径,确定使得概率最大化的似然函数,利用梯度上升原则,迭代更新霍夫曼树中的向量化参数θ和输入层的词向量。
具体来说,将每个维度数为V的向量进行累加,获得一个新的向量,并将其称为投影层。投影层使用的公式如下:
Figure 625724DEST_PATH_IMAGE004
其中,X表示每一个上下文词向量,Z表示各个词向量累加生成的向量。
将新的维度数为V的向量接入一棵二叉树(霍夫曼树),二叉树的叶子节点是所有已知的词库中的词。各个非叶子节点均放置一个Sigmoid函数,使用输入的向量和参数向量θ的点积结果,计算Sigmoid值。如果Sigmoid值大于等于0.5则选择左子树,如果Sigmoid值小于0.5则选择右子树。递归地将输入维度数为V的向量指向一个叶子节点,即对应的要预测的中间词。将此二叉树称为输出层。Sigmoid函数的公式如下:
Figure DEST_PATH_IMAGE005
用Sigmoid函数选择左右子树的公式如下:
Figure 936620DEST_PATH_IMAGE006
根据给定的上下文context(w),输出目标词w,确定最大似然函数并利用梯度上升过程,迭代更新节点参数向量θ和词向量X,直到梯度收敛,最终得到所有词向量,形成词向量数据库,作为下一步的输入。
(二)第一中医症候智能识别方法:应用用于存储各个症候向量的症候向量数据库和相似度计算公式实现
步骤21:按照症候归类每一个医案,遍历每一个医案的所有症状,针对每一个症状,去词向量数据库中匹配,得到该症状的词向量表示。
具体来说,参见图8,建立医师-医案-症候-症状组合的对应关系。每名医师诊断过多条医案,每条医案对应一名患者的症状组合,每个症状组合包含多个症状,每个症状组合对应一个症候。
在建立症状组合与症候的对应关系的同时,将现有医案进行清洗,逐个提取各个症状,根据(一)中的词向量数据库,匹配得到各个症状的词向量信息。
步骤22:将每一条医案下的所有症状词向量相加,代表该条医案。
具体来说,对于每一条医案,将各个症状的词向量累加,得到一个维度为Zi的向量,表示为该条医案下的所有症状的整体向量表示。
步骤23:将症候下的所有医案向量,求和取平均,代表该症候。
具体来说,取一个症候下面的所有医案,累加每条医案的症状整体向量表示Zi,并取平均,视为此症候下所有医案向量的中心点,并暂时将此中心点作为该症候向量。一个症候各个医案向量的中心点的计算公式如下:
Figure DEST_PATH_IMAGE007
其中,m表示该症候下记录的医案的总数量,C表示中心点的向量,即症候向量。
步骤24:将每个症候下的各个医案按照其距离中心点的欧式距离从小到大排序,去除位于序列的后5%(从1%-10%范围内选取)的医案。随后使用保留的95%医案重新计算中心点,如图9所示的症候向量C的更新过程,并将症候向量更新为此中心点,将更新后的症候向量进行本地化存储,其中,V1和V2分别不同症状词对应的词向量。
具体来说,逐个计算各个症候下的每个医案距离上述中心点的欧式距离,欧式距离的计算公式如下:
Figure 987622DEST_PATH_IMAGE008
步骤25:预测阶段:将输入医案的所有症状词向量相加,和每一个症候表示向量做相似度,取相似度最高的症候输出。
具体来说,当模型完成训练后,即可执行预测任务。扫描需要预测的医案的症状描述,逐个获取症状描述中的收录于症状库的各个症状,形成症状组合。将该症状组合作为预测数据,经过N-gram语言特征处理后,去词向量数据库匹配每一个症状的词向量,将词向量叠加得到P,从数据库中调取所有症候向量{C},计算预测医案的向量P与输出症候向量Ci的余弦相似度。余弦相似度的计算公式如下:
Figure DEST_PATH_IMAGE009
其中,P表示预测医案的向量,C表示输出症候向量。
将预测医案与所有症候的相似度排序,找到相似度最高的症候结果进行输出,并结束模型的使用阶段。
(三)第二中医症候智能识别方法:应用叶子结点为症候的霍夫曼树实现
步骤31:建立医师-医案-症候-症状组合的训练数据。遍历每一条医案下的所有症状,每个症状都可以在已经训练好的词向量库中匹配,得到向量化表示。将所有症状词向量相加。
具体来说,建立医师-医案-症候-症状组合的对应关系。每名医师诊断过多条医案,每条医案对应一名患者的症状组合,每个症状组合包含多个症状,每个症状组合对应一个症候。
针对每一条医案,拿到所有的症状,再去(一)中的词向量数据库中,匹配得到每个症状的词向量表示并求和,作为投影层输出给霍夫曼树。
步骤32:根据训练样本中症候出现频率,统计每个症候的词频,根据词频建立叶结点是症候的霍夫曼树,如图10中的输出层所示。
步骤33:将症状词向量相加的结果,输入给霍夫曼树,根据目标症候构建似然函数,按照概率最大化原则,选择梯度上升方法,迭代更新霍夫曼向量化参数θ和输入词向量X。
具体来说,根据要预测的目标症候,构建最大似然函数Confidence,并利用梯度上升过程,迭代更新霍夫曼树的节点参数向量θ和词向量X。
基于图10,Confidence(风寒束表)= Confidence(n 0 ,left)×Confidence(n 1 left)×Confidence(n 2 ,left)
其中,图10中的V1+V2+…+Vn表示各个症状词对应的词向量的加和;n0、n1和n2分别表示二叉树上的各个节点;上述公式中的Confidence(风寒束表)表示症候为风寒束表的置信度;Confidence(n 0 ,left)表示经过节点n0向左走的置信度;Confidence(n 1 ,left)表示经过节点n1向左走的置信度 ;Confidence(n 2 ,left)表示经过节点n2向左走的置信度 。
步骤34:预测阶段:将输入医案的所有症状词向量相加,输入已经训练好的霍夫曼树,输出最终的叶子结点症候信息的结果,实现智能辨症的学习方法。
具体来说,预测阶段输入各个症状,在(一)中输出的词向量数据库匹配得到每一个症状词向量,所有症状向量累加,输入给已经训练好参数向量θ的霍夫曼树,输出最终叶子节点的症候信息,完成预测,结束智能辨症。
综上所述,本申请应用实例提供的中医症候智能识别方法,基于大规模真实医案文档数据,利用N-gram语言特征进一步切分单词、采用CBOW词向量原理,训练出来的词向量能更细化的表达其语义环境,并输入给症候分类模型;本发明提供两种症候预测方法,第一种基于症候向量和预测向量相似度,第二种基于神经网络和霍夫曼树,都能充分的提取医案文档中的语义特征,保证分类准确率的前提下,显著提高生产环境中的在线预测效率。
本申请实施例还提供了一种电子设备(也即电子设备),该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的中医症候智能识别方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述电子设备可自所述无线多媒体传感器网络中的传感器接收实时运动数据,并自所述视频采集装置接收原始视频序列。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的中医症候智能识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的中医症候智能识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的中医症候智能识别方法。
在本申请的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线***连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
作为一种实现方式,本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述中医症候智能识别方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、***和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本申请中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种中医症候智能识别方法,其特征在于,包括:
根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;
生成各个所述目标词向量对应的一个目标中医医案向量;
根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息;
其中,所述中医症候智能识别模型包括:输入层、投影层和输出层,且所述输出层中包含有:叶子结点为症候的霍夫曼树;
相对应的,所述生成各个所述目标词向量对应的一个目标中医医案向量,包括:
将各个所述目标词向量输入所述输入层中,并在与该输入层相接的所述投影层中将各个所述目标词向量相加,得到目标中医医案向量;
相对应的,所述根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息,包括:
将所述目标中医医案向量输入所述输出层中的叶子结点为症候的霍夫曼树,以使得该霍夫曼树根据用于表示对应症候的置信度的最大似然函数,并利用梯度上升过程进行迭代更新,以输出对应的症候信息。
2.根据权利要求1所述的中医症候智能识别方法,其特征在于,在所述自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量之前,还包括:
获取多个历史中医医案文档数据;
对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果;
基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词;
根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量;
基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
3.根据权利要求1所述的中医症候智能识别方法,其特征在于,在所述将所述目标中医医案向量输入叶子结点为症候的霍夫曼树之前,还包括:
归类各个预设的症候各自对应的历史中医医案文档数据,并获取各个所述历史中医医案文档数据各自对应的各个症状词;
在所述词向量数据库中分别匹配得到各个所述症状词各自对应的词向量,以得到对应的训练数据集;
将各个所述词向量分别输入所述输入层,并在与该输入层相接的所述投影层中分别将每个所述历史中医医案文档数据各自对应的各个所述词向量相加,得到各个所述历史中医医案文档数据分别对应的医案向量;
根据待预测的症候信息构建似然函数,按照概率最大化原则,选择梯度上升方法,基于各个所述医案向量迭代更新与所述投影层相接的所述输入层中的霍夫曼树,以使该霍夫曼树的叶子结点输出对应的症候信息。
4.一种中医症候智能识别装置,其特征在于,包括:
词向量匹配模块,用于根据目标中医医案对应的各个目标症状词,自用于存储各个症状词与各个词向量之间对应关系的词向量数据库中分别匹配得到各个所述目标症状词各自对应的目标词向量,其中,各个所述症状词是预先对历史中医医案文档数据进行词典匹配及文本分词后生成的;各个所述词向量为预先采用N-gram语言特征对各个症状词进行切词,然后基于CBOW或skip-gram词向量神经网络模型训练后生成的;
医案向量生成模块,用于生成各个所述目标词向量对应的一个目标中医医案向量;
症候识别模块,用于根据所述目标中医医案向量和预设的中医症候智能识别模型识别得到所述目标中医医案对应的症候信息;
其中,所述中医症候智能识别模型包括:输入层、投影层和输出层,且所述输出层中包含有:叶子结点为症候的霍夫曼树;
相对应的,所述医案向量生成模块具体用于执行下述内容:
将各个所述目标词向量输入所述输入层中,并在与该输入层相接的所述投影层中将各个所述目标词向量相加,得到目标中医医案向量;
所述症候识别模块具体用于执行下述内容:
将所述目标中医医案向量输入所述输出层中的叶子结点为症候的霍夫曼树,以使得该霍夫曼树根据用于表示对应症候的置信度的最大似然函数,并利用梯度上升过程进行迭代更新,以输出对应的症候信息。
5.根据权利要求4所述的中医症候智能识别装置,其特征在于,还包括:词向量数据库构建模块;
所述词向量数据库构建模块用于执行下述内容:
获取多个历史中医医案文档数据;
对各个所述历史中医医案文档数据分别进行词典匹配及文本分词处理,得到对应的包含有各个症状词的历史中医医案分词结果;
基于N-gram语言特征对所述历史中医医案分词结果进行切分,得到各个所述症状词分别对应的N-gram特征词;
根据预设的词向量维度,对各个所述症状词和各个所述N-gram特征词进行向量初始化操作,得到各个所述症状词和各个所述N-gram特征词分别对应的初始化向量;
基于CBOW或skip-gram词向量神经网络模型对所述初始化向量进行模型训练,得到各个症状词和各个所述N-gram特征词各自对应的词向量,并将各个症状词和各个所述N-gram特征词分别与各个词向量之间的对应关系存储至词向量数据库中。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的中医症候智能识别方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3任一项所述的中医症候智能识别方法。
CN202211323785.7A 2022-10-27 2022-10-27 中医症候智能识别方法及装置 Active CN115391494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211323785.7A CN115391494B (zh) 2022-10-27 2022-10-27 中医症候智能识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211323785.7A CN115391494B (zh) 2022-10-27 2022-10-27 中医症候智能识别方法及装置

Publications (2)

Publication Number Publication Date
CN115391494A CN115391494A (zh) 2022-11-25
CN115391494B true CN115391494B (zh) 2023-02-17

Family

ID=84129130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211323785.7A Active CN115391494B (zh) 2022-10-27 2022-10-27 中医症候智能识别方法及装置

Country Status (1)

Country Link
CN (1) CN115391494B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签***的中医开方反向校验方法及***
CN117854713B (zh) * 2024-03-06 2024-06-04 之江实验室 一种中医证候诊断模型训练的方法、一种信息推荐的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199797A (zh) * 2019-12-31 2020-05-26 中国中医科学院中医药信息研究所 一种辅助诊断模型建立和辅助诊断方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199797A (zh) * 2019-12-31 2020-05-26 中国中医科学院中医药信息研究所 一种辅助诊断模型建立和辅助诊断方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Word2vec与BP神经网络的病历症状自动分类研究;叶辉 等;《医学信息杂志》;20181231;第39卷(第11期);第59-62页 *
基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究;许朝霞 等;《北京中医药大学学报》;20110831;第34卷(第8期);第539-543页 *

Also Published As

Publication number Publication date
CN115391494A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN115391494B (zh) 中医症候智能识别方法及装置
CN111709233B (zh) 基于多注意力卷积神经网络的智能导诊方法及***
WO2023160472A1 (zh) 一种模型训练方法及相关设备
JP7143456B2 (ja) 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN111914562B (zh) 电子信息分析方法、装置、设备及可读存储介质
CN109741824B (zh) 一种基于机器学习的医疗问诊方法
CN111881292B (zh) 一种文本分类方法及装置
US20240152770A1 (en) Neural network search method and related device
CN110517767A (zh) 辅助诊断方法、装置、电子设备及存储介质
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN116168825A (zh) 基于知识图谱增强的自动可解释性疾病自动诊断装置
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN116595994A (zh) 基于提示学习的矛盾信息预测方法、装置、设备及介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN114898426B (zh) 一种同义标签聚合方法、装置、设备及存储介质
CN114117082B (zh) 用于对待校正数据校正的方法、设备和介质
CN114387602A (zh) 医疗ocr数据优化模型训练方法、优化方法及设备
CN117438104B (zh) 一种智能药品预警方法、电子设备以及计算机存储介质
CN115223720A (zh) 基于医学词库增强的病历质检解析方法、装置及设备
CN116525102A (zh) 基于图表示学习的数据预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant