CN112269880B - 一种基于线性函数的口甜文本分类匹配*** - Google Patents
一种基于线性函数的口甜文本分类匹配*** Download PDFInfo
- Publication number
- CN112269880B CN112269880B CN202011217922.XA CN202011217922A CN112269880B CN 112269880 B CN112269880 B CN 112269880B CN 202011217922 A CN202011217922 A CN 202011217922A CN 112269880 B CN112269880 B CN 112269880B
- Authority
- CN
- China
- Prior art keywords
- sweet
- sweet taste
- vector set
- feature vector
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000009508 confectionery Nutrition 0.000 title claims abstract description 93
- 238000012886 linear function Methods 0.000 title claims abstract description 49
- 235000019605 sweet taste sensations Nutrition 0.000 claims abstract description 131
- 239000013598 vector Substances 0.000 claims abstract description 116
- 239000003814 drug Substances 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 26
- 208000024891 symptom Diseases 0.000 claims description 39
- 238000012795 verification Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 210000000214 mouth Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 210000000952 spleen Anatomy 0.000 description 8
- 235000019640 taste Nutrition 0.000 description 7
- 210000002784 stomach Anatomy 0.000 description 6
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 230000035943 smell Effects 0.000 description 3
- 235000021147 sweet food Nutrition 0.000 description 3
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- 206010013781 dry mouth Diseases 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000013220 shortness of breath Diseases 0.000 description 2
- 230000003867 tiredness Effects 0.000 description 2
- 208000016255 tiredness Diseases 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010020710 Hyperphagia Diseases 0.000 description 1
- 208000025371 Taste disease Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 208000019790 abdominal distention Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019658 bitter taste Nutrition 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000001969 hypertrophic effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 235000019643 salty taste Nutrition 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 235000019615 sensations Nutrition 0.000 description 1
- 235000019614 sour taste Nutrition 0.000 description 1
- 235000019654 spicy taste Nutrition 0.000 description 1
- 230000005982 spleen dysfunction Effects 0.000 description 1
- 238000010025 steaming Methods 0.000 description 1
- 230000005985 stomach dysfunction Effects 0.000 description 1
- 210000000108 taste bud cell Anatomy 0.000 description 1
- 235000019669 taste disorders Nutrition 0.000 description 1
- 235000019590 thick flavour Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于线性函数的口甜文本分类匹配***。包括:获取模块,获取口甜特征信息,根据该口甜特征信息建立口甜特征向量集;分类模块,建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,并合并为口甜特征向量匹配模型;计算模块,建立TF‑IDF算法,获取待匹配口甜文本信息,选取口甜特征词,并建立待匹配口甜特征向量集;匹配模块,通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。本发明通过线性函数分类法、TF‑IDF算法以及杰卡德相似系数能够精确对文本信息进行匹配,提高整个匹配过程的精确度。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于线性函数的口甜文本分类匹配***。
背景技术
俗话说,“鼻闻香臭,舌尝五味”。酸、甜、苦、辣、咸五味的信息,是靠舌面上密布的细小***,称为舌蕾的味觉细胞来传递的,再经大脑皮质味觉中枢产生兴奋,由反馈环路神经体液***完成整个味的分析活动但是有的人在进食时,口中会有异味感,或者不进食口腔内也觉得有异常味道,这常常提示可能得了某种疾病。
现在医学实现口甜文本信息与对应疾病信息之间的匹配手段往往是通过临床医生完成对口甜文本的收集,然后通过医生在电脑上进行操作选择,但是现有的技术手段在进行信息匹配时,往往是对一大堆信息进行遍历匹配,这样不仅需要消耗的资源大,耗费的时间也长,所以亟需对现有方案进行改进。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种基于线性函数的口甜文本分类匹配***,旨在解决现有技术无法实现通过线性函数对口甜文本信息进行分类以此降低数据处理消耗的资源的技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于线性函数的口甜文本分类匹配***,所述基于线性函数的口甜文本分类匹配***包括:
获取模块,用于获取口甜特征信息,根据该口甜特征信息建立口甜特征向量集;
分类模块,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;
计算模块,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;
匹配模块,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。
在以上技术方案的基础上,优选的,获取模块包括处理模块,用于获取口甜特征信息,所述口甜特征信息为口甜伴随症状特征信息,建立特征信息完整性验证规则,根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证,当验证通过时,根据口甜伴随症状特征信息建立口甜特征向量集。
在以上技术方案的基础上,优选的,获取模块包括添加模块,用于获取历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较,筛选出没有重复的历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息添加进口甜特征向量集。
在以上技术方案的基础上,优选的,分类模块包括分类计算模块,用于建立线性分类函数,设定两种分类类别:中医口甜以及西医口甜,将口甜特征向量集作为函数向量,将分类类别作为分类标记,利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集,并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。
在以上技术方案的基础上,优选的,计算模块包括算法模块,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频,将计算出词频的词语作为待筛选词。
在以上技术方案的基础上,优选的,计算模块包括特征词处理模块,设定常用词库以及词频阈值,根据该常用词库对待筛选词进行筛选,筛选出常用词后,将剩下的待筛选词的词频与词频阈值进行比较,选出满足词频阈值的待筛选词作为口甜特征词,并建立待匹配口甜特征向量集。
在以上技术方案的基础上,优选的,匹配模块包括匹配报告生成模块,用于建立杰卡德相似系数,通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成对应的匹配报告。
更进一步优选的,所述基于线性函数的口甜文本分类匹配设备包括:
获取单元,用于获取口甜特征信息以及疾病特征信息,根据该口甜特征信息以及疾病特征信息分别建立口甜特征向量集以及疾病特征向量集;
分类单元,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;
计算单元,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;
匹配单元,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。
本发明的一种基于线性函数的口甜文本分类匹配***相对于现有技术具有以下有益效果:
(1)通过利用线性函数分类法以及TF-IDF算法提取特征词,能够提高提取的特征词的精确度,有利于后续信息进行匹配,同时通过线性函数分类法对特征向量集进行分类,极大程度降低了信息匹配时的资源消耗,提高了资源匹配速度;
(2)通过利用杰卡德相似系数对信息文本的相似度进行计算,能够提高信息匹配的精确度,同时提高信息匹配的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于线性函数的口甜文本分类匹配***第一实施例的结构框图;
图2为本发明基于线性函数的口甜文本分类匹配***的第二实施例结构框图;
图3为本发明基于线性函数的口甜文本分类匹配***的第三实施例结构框图;
图4为本发明基于线性函数的口甜文本分类匹配***的第四实施例结构框图;
图5为本发明基于线性函数的口甜文本分类匹配***的第五实施例结构框图;
图6为本发明基于线性函数的口甜文本分类匹配设备结构框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,图1为本发明基于线性函数的口甜文本分类匹配***第一实施例的结构框图。其中,所述基于线性函数的口甜文本分类匹配***包括:获取模块10、分类模块20、计算模块30和匹配模块40。
获取模块10,用于获取口甜特征信息,根据该口甜特征信息建立口甜特征向量集;
分类模块20,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;
计算模块30,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;
匹配模块40,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。
进一步地,如图2所示,基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第二实施例结构框图,在本实施例中,获取模块10还包括:
处理模块101,用于获取口甜特征信息,所述口甜特征信息为口甜伴随症状特征信息,建立特征信息完整性验证规则,根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证,当验证通过时,根据口甜伴随症状特征信息建立口甜特征向量集。
添加模块102,用于获取历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较,筛选出没有重复的历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息添加进口甜特征向量集。
应当理解的是,本实施例中***会获取口甜特征信息,所述口甜特征信息为口甜伴随症状特征信息,建立特征信息完整性验证规则,根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证,当验证通过时,根据口甜伴随症状特征信息建立口甜特征向量集,这一步是为了提前对特征词进行检测,以确保信息匹配时能够直接匹配,而不会因为特征信息不完整而导致匹配失败。
应当理解的是,口甜一般伴随症状表现为口甜口干而饮水不多、气短体倦、不思饮食、皖腹作胀、大便时干时软。由于味蕾细胞都是由周围上皮细胞更新,所以味觉的恢复至少在10天以上。不过一定要及早发现治疗,味觉障碍产生后一个月内发现进行治疗的。
应当理解的是,本实施例中还会取历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较,筛选出没有重复的历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息添加进口甜特征向量集,这一步是为了进一步对口甜特征向量集进行添加,以此增加信息匹配的可靠性。
应当理解的是,本实施例中还会获取口甜伴随症状特征信息对应的所有疾病与疾病症状特征信息,建立口甜以及伴随症状特征信息对应的疾病与疾病症状特征信息向量集。比如,中医认为,口甜多为胃功能失常所致。临床上分为脾胃热蒸口甜和脾胃气阴口甜。前者多因过度食辛辣厚味之品,滋生内热或外感邪热蕴积于脾胃所致,多属脾胃湿热。可见于平素嗜食甘肥厚味的消渴病人。表现为口甜而渴,喜饮水,多食易饥,或唇舌生疮,大便干结,舌红苔燥,脉数有力等;后者多由年老或久病伤及脾胃,导致气阴两伤,虚热内生,脾津受灼所致,多见脾胃气阴两虑而口甜,表现为口甜口干而饮水不多,气短体倦,不思饮食,脘腹作胀,大便时干时软等症状。
进一步地,如图3所示,基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第三实施例结构框图,在本实施例中,分类模块20还包括:
分类计算模块201,用于建立线性分类函数,设定两种分类类别:中医口甜以及西医口甜,将口甜特征向量集作为函数向量,将分类类别作为分类标记,利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集,并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。
应当理解的是,本实例中会建立线性分类函数,根据口甜发病的原因,将口甜分为二个类别,并根据症状的特征信息进行疾病分类。这二个类别为:中医口甜和西医口甜(比如糖尿病等)。每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。然后将分类类别作为分类标记,利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集,并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型
进一步地,如图4所示,基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第四实施例结构框图,在本实施例中,计算模块30包括:
算法模块301,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频,将计算出词频的词语作为待筛选词。
特征词处理模块302,设定常用词库以及词频阈值,根据该常用词库对待筛选词进行筛选,筛选出常用词后,将剩下的待筛选词的词频与词频阈值进行比较,选出满足词频阈值的待筛选词作为口甜特征词,并建立待匹配口甜特征向量集。
应当理解的是,本实施例中还会建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频,将计算出词频的词语作为待筛选词。
应当理解的是,TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。词频(TF)表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
应当理解的是,为了选出特征词,***还会设定常用词库以及词频阈值,根据该常用词库对待筛选词进行筛选。此处常用词库包括一些连词、语气词以及标点符号之类的词语,筛选出常用词后,将剩下的待筛选词的词频与词频阈值进行比较,选出满足词频阈值的待筛选词作为口甜特征词,并建立待匹配口甜特征向量集。
进一步地,如图5所示,基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第五实施例结构框图,在本实施例中,匹配模块40包括:
匹配报告生成模块401,用于建立杰卡德相似系数,通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成对应的匹配报告。
应当理解的是,最后***会建立杰卡德相似系数,通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,同时设定对应的相似度范围,然后根据计算得到的相似度与相似度范围进行比较,最后生成对应匹配报告,比如,如果口腔是甜的,通常是由糖尿病引起的,或者可能是由脾胃功能障碍引起的。特别是在早上,感觉更明显。即使喝开水也会感觉很甜。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例提出了一种基于线性函数的口甜文本分类匹配***,包括:获取模块,用于获取口甜特征信息,根据该口甜特征信息建立口甜特征向量集;分类模块,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;计算模块,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;匹配模块,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。本实施例通过线性函数分类法、TF-IDF算法以及杰卡德相似系数能够精确对文本信息进行匹配,提高整个匹配过程的精确度。
此外,本发明实施例还提出一种基于线性函数的口甜文本分类匹配设备。如图6所示,该基于线性函数的口甜文本分类匹配设备包括:获取单元10、分类单元20、计算单元30以及匹配单元40。
获取单元10,用于获取口甜特征信息以及疾病特征信息,根据该口甜特征信息以及疾病特征信息分别建立口甜特征向量集以及疾病特征向量集;
分类单元20,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;
计算单元30,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;
匹配单元40,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于线性函数的口甜文本分类匹配***,此处不再赘述。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于线性函数的口甜文本分类匹配***,其特征在于,所述基于线性函数的口甜文本分类匹配***包括:
获取模块,用于获取口甜特征信息,根据该口甜特征信息建立口甜特征向量集;获取模块包括处理模块,用于获取口甜特征信息,所述口甜特征信息为口甜伴随症状特征信息,建立特征信息完整性验证规则,根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证,当验证通过时,根据口甜伴随症状特征信息建立口甜特征向量集;获取模块包括添加模块,用于获取历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较,筛选出没有重复的历史口甜伴随症状特征信息,将该历史口甜伴随症状特征信息添加进口甜特征向量集;
分类模块,用于建立线性函数分类法,根据该线性函数分类法对口甜特征向量集进行分类,建立中医口甜特征向量集以及西医口甜特征向量集,将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型;
计算模块,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词,并建立待匹配口甜特征向量集;
匹配模块,用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成匹配报告。
2.如权利要求1所述的基于线性函数的口甜文本分类匹配***,其特征在于:分类模块包括分类计算模块,用于建立线性分类函数,设定两种分类类别:中医口甜以及西医口甜,将口甜特征向量集作为函数向量,将分类类别作为分类标记,利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集,并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。
3.如权利要求2所述的基于线性函数的口甜文本分类匹配***,其特征在于:计算模块包括算法模块,用于建立TF-IDF算法,获取待匹配口甜文本信息,通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频,将计算出词频的词语作为待筛选词。
4.如权利要求3所述的基于线性函数的口甜文本分类匹配***,其特征在于:计算模块包括特征词处理模块,设定常用词库以及词频阈值,根据该常用词库对待筛选词进行筛选,筛选出常用词后,将剩下的待筛选词的词频与词频阈值进行比较,选出满足词频阈值的待筛选词作为口甜特征词,并建立待匹配口甜特征向量集。
5.如权利要求4所述的基于线性函数的口甜文本分类匹配***,其特征在于:匹配模块包括匹配报告生成模块,用于建立杰卡德相似系数,通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度,根据该相似度生成对应的匹配报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011217922.XA CN112269880B (zh) | 2020-11-04 | 2020-11-04 | 一种基于线性函数的口甜文本分类匹配*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011217922.XA CN112269880B (zh) | 2020-11-04 | 2020-11-04 | 一种基于线性函数的口甜文本分类匹配*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269880A CN112269880A (zh) | 2021-01-26 |
CN112269880B true CN112269880B (zh) | 2024-02-09 |
Family
ID=74346045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011217922.XA Active CN112269880B (zh) | 2020-11-04 | 2020-11-04 | 一种基于线性函数的口甜文本分类匹配*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269880B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类***及方法 |
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN105046273A (zh) * | 2015-07-07 | 2015-11-11 | 南京邮电大学 | 基于多尺度样本熵的癫痫脑皮层电图信号分类方法 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN106548134A (zh) * | 2016-10-17 | 2017-03-29 | 沈阳化工大学 | Ga优化svm和归一化相结合的掌纹与掌静脉融合识别方法 |
CN108733733A (zh) * | 2017-04-21 | 2018-11-02 | 为朔生物医学有限公司 | 基于机器学习的生物医学文本分类方法、***和存储介质 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109902223A (zh) * | 2019-01-14 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于多模态信息特征的不良内容过滤方法 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练*** |
WO2020007028A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN111415740A (zh) * | 2020-02-12 | 2020-07-14 | 东北大学 | 问诊信息的处理方法、装置、存储介质及计算机设备 |
CN111816321A (zh) * | 2020-07-09 | 2020-10-23 | 武汉东湖大数据交易中心股份有限公司 | 基于法定诊断标准智能识别传染病的***、设备及存储介质 |
-
2020
- 2020-11-04 CN CN202011217922.XA patent/CN112269880B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类***及方法 |
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN105046273A (zh) * | 2015-07-07 | 2015-11-11 | 南京邮电大学 | 基于多尺度样本熵的癫痫脑皮层电图信号分类方法 |
CN106548134A (zh) * | 2016-10-17 | 2017-03-29 | 沈阳化工大学 | Ga优化svm和归一化相结合的掌纹与掌静脉融合识别方法 |
CN108733733A (zh) * | 2017-04-21 | 2018-11-02 | 为朔生物医学有限公司 | 基于机器学习的生物医学文本分类方法、***和存储介质 |
CN109145097A (zh) * | 2018-06-11 | 2019-01-04 | 人民法院信息技术服务中心 | 一种基于信息提取的裁判文书分类方法 |
WO2020007028A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109902223A (zh) * | 2019-01-14 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于多模态信息特征的不良内容过滤方法 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练*** |
CN111415740A (zh) * | 2020-02-12 | 2020-07-14 | 东北大学 | 问诊信息的处理方法、装置、存储介质及计算机设备 |
CN111816321A (zh) * | 2020-07-09 | 2020-10-23 | 武汉东湖大数据交易中心股份有限公司 | 基于法定诊断标准智能识别传染病的***、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于中文文本分类的自动诊病***;王丁;《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》(第03期);I140-584 * |
Also Published As
Publication number | Publication date |
---|---|
CN112269880A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443798B (zh) | 一种基于磁共振图像的自闭症检测方法、装置及*** | |
Bahia et al. | A systematic review of the physiological effects of the effortful swallow maneuver in adults with normal and disordered swallowing | |
Iatridi et al. | Reconsidering the classification of sweet taste liker phenotypes: A methodological review | |
Mieloszyk et al. | Automated quantitative analysis of capnogram shape for COPD–normal and COPD–CHF classification | |
Mancopes et al. | Effects of expiratory muscle strength training on videofluoroscopic measures of swallowing: a systematic review | |
Terrill et al. | Attractor structure discriminates sleep states: recurrence plot analysis applied to infant breathing patterns | |
JP7466914B2 (ja) | 健康度ポジショニングマップおよび健康関数を作成する方法、システム、およびプログラム、ならびにそれらの使用方法 | |
Turkington et al. | Carbonation as a sensory enhancement strategy: a narrative synthesis of existing evidence | |
CN112269880B (zh) | 一种基于线性函数的口甜文本分类匹配*** | |
Xu et al. | Impact of adherence to cancer-specific prevention recommendations on subsequent risk of cancer in participants in Alberta’s Tomorrow Project | |
Dietsch et al. | Taste manipulation and swallowing mechanics in trauma-related sensory-based dysphagia | |
Frakking et al. | Aspirating and nonaspirating swallow sounds in children: a pilot study | |
CN112185571B (zh) | 一种基于口酸的疾病辅助诊断***、设备、存储介质 | |
Bofill-Soler et al. | Is EAT-10 useful to assess swallowing during the chemo-radiotherapy phase in patients with head and neck cancer? A pilot study | |
Bergström et al. | Dysphagia management: Does structured training improve the validity and reliability of cervical auscultation? | |
Pantazopoulos et al. | Sports & nutrition data science using gradient boosting machines | |
Grooby et al. | Prediction of neonatal respiratory distress in term babies at birth from digital stethoscope recorded chest sounds | |
Bartoshuk et al. | Genetic differences in human oral perception advanced methods reveal basic problems in intensity scaling | |
Garand et al. | Quantifying pharyngeal residue across the adult life span: Normative values by age, gender, and swallow task | |
CN111973155B (zh) | 一种基于人体口味异常变化的疾病认知自学习*** | |
CN105930646B (zh) | 一种评估心脏衰老程度的数据处理***及方法 | |
CN112086200B (zh) | 一种基于口苦预测疾病的***、设备、存储介质 | |
Vermaire et al. | Factors associated with swallowing dysfunction in patients with head and neck cancer | |
WO2022221760A1 (en) | Magnetic resonance spectroscopy frequency and phase correction | |
Smaoui et al. | The influence of sex, age, and repeated measurement on pixel-based measures of pharyngeal area at rest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |