CN112269880B

CN112269880B - 一种基于线性函数的口甜文本分类匹配***

Info

Publication number: CN112269880B
Application number: CN202011217922.XA
Authority: CN
Inventors: 杜登斌; 杜小军; 杜乐
Original assignee: Wuzheng Intelligent Technology Beijing Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2024-02-09
Anticipated expiration: 2040-11-04
Also published as: CN112269880A

Abstract

本发明提出了一种基于线性函数的口甜文本分类匹配***。包括：获取模块，获取口甜特征信息，根据该口甜特征信息建立口甜特征向量集；分类模块，建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，并合并为口甜特征向量匹配模型；计算模块，建立TF‑IDF算法，获取待匹配口甜文本信息，选取口甜特征词，并建立待匹配口甜特征向量集；匹配模块，通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。本发明通过线性函数分类法、TF‑IDF算法以及杰卡德相似系数能够精确对文本信息进行匹配，提高整个匹配过程的精确度。

Description

一种基于线性函数的口甜文本分类匹配***

技术领域

本发明涉及人工智能领域，尤其涉及一种基于线性函数的口甜文本分类匹配***。

背景技术

俗话说，“鼻闻香臭，舌尝五味”。酸、甜、苦、辣、咸五味的信息，是靠舌面上密布的细小***，称为舌蕾的味觉细胞来传递的，再经大脑皮质味觉中枢产生兴奋，由反馈环路神经体液***完成整个味的分析活动但是有的人在进食时，口中会有异味感，或者不进食口腔内也觉得有异常味道，这常常提示可能得了某种疾病。

现在医学实现口甜文本信息与对应疾病信息之间的匹配手段往往是通过临床医生完成对口甜文本的收集，然后通过医生在电脑上进行操作选择，但是现有的技术手段在进行信息匹配时，往往是对一大堆信息进行遍历匹配，这样不仅需要消耗的资源大，耗费的时间也长，所以亟需对现有方案进行改进。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

有鉴于此，本发明提出了一种基于线性函数的口甜文本分类匹配***，旨在解决现有技术无法实现通过线性函数对口甜文本信息进行分类以此降低数据处理消耗的资源的技术问题。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于线性函数的口甜文本分类匹配***，所述基于线性函数的口甜文本分类匹配***包括：

获取模块，用于获取口甜特征信息，根据该口甜特征信息建立口甜特征向量集；

分类模块，用于建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型；

计算模块，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词，并建立待匹配口甜特征向量集；

匹配模块，用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。

在以上技术方案的基础上，优选的，获取模块包括处理模块，用于获取口甜特征信息，所述口甜特征信息为口甜伴随症状特征信息，建立特征信息完整性验证规则，根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证，当验证通过时，根据口甜伴随症状特征信息建立口甜特征向量集。

在以上技术方案的基础上，优选的，获取模块包括添加模块，用于获取历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较，筛选出没有重复的历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息添加进口甜特征向量集。

在以上技术方案的基础上，优选的，分类模块包括分类计算模块，用于建立线性分类函数，设定两种分类类别：中医口甜以及西医口甜，将口甜特征向量集作为函数向量，将分类类别作为分类标记，利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集，并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。

在以上技术方案的基础上，优选的，计算模块包括算法模块，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频，将计算出词频的词语作为待筛选词。

在以上技术方案的基础上，优选的，计算模块包括特征词处理模块，设定常用词库以及词频阈值，根据该常用词库对待筛选词进行筛选，筛选出常用词后，将剩下的待筛选词的词频与词频阈值进行比较，选出满足词频阈值的待筛选词作为口甜特征词，并建立待匹配口甜特征向量集。

在以上技术方案的基础上，优选的，匹配模块包括匹配报告生成模块，用于建立杰卡德相似系数，通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成对应的匹配报告。

更进一步优选的，所述基于线性函数的口甜文本分类匹配设备包括：

获取单元，用于获取口甜特征信息以及疾病特征信息，根据该口甜特征信息以及疾病特征信息分别建立口甜特征向量集以及疾病特征向量集；

分类单元，用于建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型；

计算单元，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词，并建立待匹配口甜特征向量集；

匹配单元，用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。

本发明的一种基于线性函数的口甜文本分类匹配***相对于现有技术具有以下有益效果：

(1)通过利用线性函数分类法以及TF-IDF算法提取特征词，能够提高提取的特征词的精确度，有利于后续信息进行匹配，同时通过线性函数分类法对特征向量集进行分类，极大程度降低了信息匹配时的资源消耗，提高了资源匹配速度；

(2)通过利用杰卡德相似系数对信息文本的相似度进行计算，能够提高信息匹配的精确度，同时提高信息匹配的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于线性函数的口甜文本分类匹配***第一实施例的结构框图；

图2为本发明基于线性函数的口甜文本分类匹配***的第二实施例结构框图；

图3为本发明基于线性函数的口甜文本分类匹配***的第三实施例结构框图；

图4为本发明基于线性函数的口甜文本分类匹配***的第四实施例结构框图；

图5为本发明基于线性函数的口甜文本分类匹配***的第五实施例结构框图；

图6为本发明基于线性函数的口甜文本分类匹配设备结构框图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，图1为本发明基于线性函数的口甜文本分类匹配***第一实施例的结构框图。其中，所述基于线性函数的口甜文本分类匹配***包括：获取模块10、分类模块20、计算模块30和匹配模块40。

获取模块10，用于获取口甜特征信息，根据该口甜特征信息建立口甜特征向量集；

分类模块20，用于建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型；

计算模块30，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词，并建立待匹配口甜特征向量集；

匹配模块40，用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。

进一步地，如图2所示，基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第二实施例结构框图，在本实施例中，获取模块10还包括：

处理模块101，用于获取口甜特征信息，所述口甜特征信息为口甜伴随症状特征信息，建立特征信息完整性验证规则，根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证，当验证通过时，根据口甜伴随症状特征信息建立口甜特征向量集。

添加模块102，用于获取历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较，筛选出没有重复的历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息添加进口甜特征向量集。

应当理解的是，本实施例中***会获取口甜特征信息，所述口甜特征信息为口甜伴随症状特征信息，建立特征信息完整性验证规则，根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证，当验证通过时，根据口甜伴随症状特征信息建立口甜特征向量集，这一步是为了提前对特征词进行检测，以确保信息匹配时能够直接匹配，而不会因为特征信息不完整而导致匹配失败。

应当理解的是，口甜一般伴随症状表现为口甜口干而饮水不多、气短体倦、不思饮食、皖腹作胀、大便时干时软。由于味蕾细胞都是由周围上皮细胞更新，所以味觉的恢复至少在10天以上。不过一定要及早发现治疗，味觉障碍产生后一个月内发现进行治疗的。

应当理解的是，本实施例中还会取历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较，筛选出没有重复的历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息添加进口甜特征向量集，这一步是为了进一步对口甜特征向量集进行添加，以此增加信息匹配的可靠性。

应当理解的是，本实施例中还会获取口甜伴随症状特征信息对应的所有疾病与疾病症状特征信息，建立口甜以及伴随症状特征信息对应的疾病与疾病症状特征信息向量集。比如，中医认为，口甜多为胃功能失常所致。临床上分为脾胃热蒸口甜和脾胃气阴口甜。前者多因过度食辛辣厚味之品，滋生内热或外感邪热蕴积于脾胃所致，多属脾胃湿热。可见于平素嗜食甘肥厚味的消渴病人。表现为口甜而渴，喜饮水，多食易饥，或唇舌生疮，大便干结，舌红苔燥，脉数有力等；后者多由年老或久病伤及脾胃，导致气阴两伤，虚热内生，脾津受灼所致，多见脾胃气阴两虑而口甜，表现为口甜口干而饮水不多，气短体倦，不思饮食，脘腹作胀，大便时干时软等症状。

进一步地，如图3所示，基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第三实施例结构框图，在本实施例中，分类模块20还包括：

分类计算模块201，用于建立线性分类函数，设定两种分类类别：中医口甜以及西医口甜，将口甜特征向量集作为函数向量，将分类类别作为分类标记，利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集，并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。

应当理解的是，本实例中会建立线性分类函数，根据口甜发病的原因，将口甜分为二个类别，并根据症状的特征信息进行疾病分类。这二个类别为：中医口甜和西医口甜(比如糖尿病等)。每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。然后将分类类别作为分类标记，利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集，并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型

进一步地，如图4所示，基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第四实施例结构框图，在本实施例中，计算模块30包括：

算法模块301，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频，将计算出词频的词语作为待筛选词。

特征词处理模块302，设定常用词库以及词频阈值，根据该常用词库对待筛选词进行筛选，筛选出常用词后，将剩下的待筛选词的词频与词频阈值进行比较，选出满足词频阈值的待筛选词作为口甜特征词，并建立待匹配口甜特征向量集。

应当理解的是，本实施例中还会建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频，将计算出词频的词语作为待筛选词。

应当理解的是，TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。词频(TF)表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。

应当理解的是，为了选出特征词，***还会设定常用词库以及词频阈值，根据该常用词库对待筛选词进行筛选。此处常用词库包括一些连词、语气词以及标点符号之类的词语，筛选出常用词后，将剩下的待筛选词的词频与词频阈值进行比较，选出满足词频阈值的待筛选词作为口甜特征词，并建立待匹配口甜特征向量集。

进一步地，如图5所示，基于上述各实施例提出本发明基于线性函数的口甜文本分类匹配***的第五实施例结构框图，在本实施例中，匹配模块40包括：

匹配报告生成模块401，用于建立杰卡德相似系数，通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成对应的匹配报告。

应当理解的是，最后***会建立杰卡德相似系数，通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，同时设定对应的相似度范围，然后根据计算得到的相似度与相似度范围进行比较，最后生成对应匹配报告，比如，如果口腔是甜的，通常是由糖尿病引起的，或者可能是由脾胃功能障碍引起的。特别是在早上，感觉更明显。即使喝开水也会感觉很甜。

需要说明的是，以上仅为举例说明，并不对本申请的技术方案构成任何限定。

通过上述描述不难发现，本实施例提出了一种基于线性函数的口甜文本分类匹配***，包括：获取模块，用于获取口甜特征信息，根据该口甜特征信息建立口甜特征向量集；分类模块，用于建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型；计算模块，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词，并建立待匹配口甜特征向量集；匹配模块，用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。本实施例通过线性函数分类法、TF-IDF算法以及杰卡德相似系数能够精确对文本信息进行匹配，提高整个匹配过程的精确度。

此外，本发明实施例还提出一种基于线性函数的口甜文本分类匹配设备。如图6所示，该基于线性函数的口甜文本分类匹配设备包括：获取单元10、分类单元20、计算单元30以及匹配单元40。

获取单元10，用于获取口甜特征信息以及疾病特征信息，根据该口甜特征信息以及疾病特征信息分别建立口甜特征向量集以及疾病特征向量集；

分类单元20，用于建立线性函数分类法，根据该线性函数分类法对口甜特征向量集进行分类，建立中医口甜特征向量集以及西医口甜特征向量集，将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型；

计算单元30，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法从待匹配口甜文本信息选取口甜特征词，并建立待匹配口甜特征向量集；

匹配单元40，用于通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成匹配报告。

此外，需要说明的是，以上所描述的装置实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于线性函数的口甜文本分类匹配***，此处不再赘述。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于线性函数的口甜文本分类匹配***，其特征在于，所述基于线性函数的口甜文本分类匹配***包括：

获取模块，用于获取口甜特征信息，根据该口甜特征信息建立口甜特征向量集；获取模块包括处理模块，用于获取口甜特征信息，所述口甜特征信息为口甜伴随症状特征信息，建立特征信息完整性验证规则，根据该特征信息完整性验证规则对口甜伴随症状特征信息进行验证，当验证通过时，根据口甜伴随症状特征信息建立口甜特征向量集；获取模块包括添加模块，用于获取历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息与口甜伴随症状特征信息进行比较，筛选出没有重复的历史口甜伴随症状特征信息，将该历史口甜伴随症状特征信息添加进口甜特征向量集；

2.如权利要求1所述的基于线性函数的口甜文本分类匹配***，其特征在于：分类模块包括分类计算模块，用于建立线性分类函数，设定两种分类类别：中医口甜以及西医口甜，将口甜特征向量集作为函数向量，将分类类别作为分类标记，利用线性分类函数建立中医口甜特征向量集以及西医口甜特征向量集，并将中医口甜特征向量集以及西医口甜特征向量集合并为口甜特征向量匹配模型。

3.如权利要求2所述的基于线性函数的口甜文本分类匹配***，其特征在于：计算模块包括算法模块，用于建立TF-IDF算法，获取待匹配口甜文本信息，通过TF-IDF算法计算出待匹配口甜文本信息中每个词的词频，将计算出词频的词语作为待筛选词。

4.如权利要求3所述的基于线性函数的口甜文本分类匹配***，其特征在于：计算模块包括特征词处理模块，设定常用词库以及词频阈值，根据该常用词库对待筛选词进行筛选，筛选出常用词后，将剩下的待筛选词的词频与词频阈值进行比较，选出满足词频阈值的待筛选词作为口甜特征词，并建立待匹配口甜特征向量集。

5.如权利要求4所述的基于线性函数的口甜文本分类匹配***，其特征在于：匹配模块包括匹配报告生成模块，用于建立杰卡德相似系数，通过杰卡德相似系数计算口甜特征向量匹配模型与待匹配口甜特征向量集之间的相似度，根据该相似度生成对应的匹配报告。