WO2019196314A1

WO2019196314A1 - 文本信息相似度匹配方法、装置、计算机设备及存储介质

Info

Publication number: WO2019196314A1
Application number: PCT/CN2018/102855
Authority: WO
Inventors: 周涛涛; 周宝; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-04-10
Filing date: 2018-08-29
Publication date: 2019-10-17
Also published as: CN108628825A

Abstract

本申请提供一种基于TF-IDF的文本信息相似度的匹配方法和装置，通过获取文本信息；对所述文本信息进行分词得到各个分词w₁、w₂、……w_n-1、w_n；使用CBOW模型计算各个分词的词向量V(w₁)、V(w₂)、……、V(w_n-1)、V(w_n)；使用TF-IDF算法计算各个分词的TF-IDF值k₁、k₂、……k_n-1、k_n；根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。通过上述过程，可以找到与文本信息最相似的预存语句，在机器人对话、信息分类等方面可以提高问题识别的精准度，从而提高对话效率或分类效率。还提供了一种计算机设备和存储介质。

Description

文本信息相似度匹配方法、装置、计算机设备及存储介质

本申请要求于2018年4月10日提交中国专利局、申请号为201810314094.8，发明名称为“文本信息相似度匹配方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文本信息识别技术领域，具体而言，本申请涉及一种基于TF-IDF的文本信息相似度的匹配方法和装置，以及一种计算机设备和存储有计算机可读指令的存储介质。

背景技术

随着智能化的发展，客服机器人和聊天机器人逐渐流行，用户可以通过输入文本信息来向客服机器人进行咨询，或者和聊天机器人进行聊天。

发明人意识到机器人在识别用户发出的文本信息时，需要根据文本信息进行反馈。通常而言，根据文本信息可以根据检索方式或生成方式确定反馈信息。生成方式是根据模型自动生成答案，这种方式需要大量的标注问答对进行训练，目前效果不理想，处于研究阶段。而检索方式被业界大量采用，先预存编辑好的问答对，再根据问题用匹配方法找到最匹配的预置问题，从而检索出预置答案。目前该检索方式的文本匹配方法在精准度上还有待提高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是精准度不高的技术缺陷。

本申请提供一种基于TF-IDF的文本信息相似度的匹配方法，包括如下步骤：获取文本信息；对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)；使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。

本申请还提供一种基于TF-IDF的文本信息相似度的匹配装置，包括：获取模块，用于获取文本信息；分词模块，用于对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；词向量计算模块，用于使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)；

TF-IDF值计算模块，用于使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；句向量计算模块，用于根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；匹配模块，用于计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种基于TF-IDF的文本信息相似度的匹配方法，所述基于TF-IDF的文本信息相似度的匹配方法包括以下步骤：获取文本信息；对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……V(w _n-1)、V(w _n)；使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。

本申请还提供一种存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种基于TF-IDF的文本信息相似度的匹配方法，所述基于TF-IDF的文本信息相似度的匹配方法包括以下步骤：获取文本信息；对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……V(w _n-1)、V(w _n)；使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。

上述的基于TF-IDF的文本信息相似度的匹配方法、装置、计算机设备和存储介质，通过上述过程，可以找到与文本信息最相似的预存语句，在机器人对话、信息分类等方面可以提高问题识别的精准度，从而提高对话效率或分类效率。

附图说明

图1为一个实施例中计算机设备的内部结构示意图；

图2为一个实施例的基于TF-IDF的文本信息相似度的匹配方法流程示意图；

图3为一个实施例的基于TF-IDF的文本信息相似度的匹配装置模块示意图。

具体实施方式

图1为一个实施例中计算机设备的内部结构示意图。如图1所示，该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于TF-IDF的文本信息相似度的匹配方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于TF-IDF的文本信息相似度的匹配方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以下描述的基于TF-IDF的文本信息相似度的匹配方法，可以应用于机器人对话中的语句识别，例如客服机器人(包括在线虚拟客服机器人)识别客户的咨询，聊天机器人(包括在线虚拟聊天机器人)识别客户的语音或输入的文字消息。还可以应用于信息分类方法中，在此不赘述。

要进行文本信息识别，需要生成CBOW词向量模型。具体过程如下：

1、通过网络爬虫爬取语料库。可以使用Python爬虫从例如***、谷歌百科、百度百科、搜狗百科等等网络百科网站爬取语料库。

2、对语料库中的语料进行预处理。预处理包括去除特殊字符、去除网址、编码转换等等。

3、对语料库中的语料进行分词。可以采用结巴(jieba)分词对语料库进行中文分词。

4、对分词完毕的语料进行训练，生成CBOW词向量模型。可以通过Gensim工具包中的word2vec CBOW模型对分词完毕的语料进行训练，生成并保存CBOW词向量模型。

生成CBOW词向量模型后，即可以使用该模型在后续方法中进行词向量生成。

图2为一个实施例的基于TF-IDF的文本信息相似度的匹配方法流程示意图。本申请提供一种基于TF-IDF的文本信息相似度的匹配方法，包括如下步骤：

步骤S100：获取文本信息。此处的文本信息既可以是用户自行输入的，也可以是根据用户输出的语音数据而识别出的文本信息。

例如，用户通过向在线客服机器人发送文本消息进行在线咨询，在线客服机器人所接收到的文本消息即获取文本信息。又例如，用户通过向在线聊天机器人发送文本消息进行在线聊天，在线客服机器人所接收到的文本消息即获取文本信息。文本信息可能是一句话，也可能是一段话，在此不对文本信息的长度、所用语言类型进行限定。

当然，如果用户发送的是语音消息，那么需要对语音消息进行语音识别，具体为：获取用户发送的语音消息；对语音消息进行语音识别，生成文本信息。语音识别技术应用较为广泛，在此不赘述。

当然，上述举例是以在线机器人为例，但是并不排除是实体机器人，例如扫地机器人、儿童教育机器人、客服机器人、聊天机器人等等具有实体肢体的智能机器人。

步骤S200：对文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n。

以中文分词为例。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。w ₁、w ₂、……w _n-1、w _n就是从文本信息中切分出来的一个一个单独的词。

在一些实施例中，分词算法可分为三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法：这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。应用较广的匹配方法有以下几种：

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的词数最小)

4)双向最大匹配法(进行由左到右、由右到左两次扫描)

基于理解的分词方法：这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子***、句法语义子***、总控部分。在总控部分的协调下，分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

基于统计的分词方法：给出大量已经分词的文本，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。主要统计模型：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等。

在一些实施例中，可以采用基于统计的分词方法对文本信息进行分词，例如采用结巴(jieba)分词组件对文本信息进行分词。结巴分词是中国程序员用Python开发的一个中文分词组件。

在其中一个实施例中，在对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n的过程中，还对文本信息的停用词进行去除处理。

步骤S300：使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)。各个分词w ₁、w ₂、……w _n-1、w _n分别对应词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)。

可以通过Gensim工具包中的word2vec CBOW模型计算各个分词的词向量。

word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vec出现之前，自然语言处理经常把字词转为离散的单独的符号，也就是One-Hot Encoder。

杭州[0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]

上海[0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]

宁波[0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]

北京[0,0,0,0,0,0,0,0,0,……，1,0,0,0,0,0,0]

比如上面的这个例子，在语料库中，杭州、上海、宁波、北京各对应一个向量，向量中只有一个值为1，其余都为0。使用One-Hot Encoder有以下问题。一方面，城市编码是随机的，向量之间相互独立，看不出城市之间可能存在的关联关系。其次，向量维度的大小取决于语料库中字词的多少。如果将世界所有城市名称对应的向量合为一个矩阵的话，那这个矩阵过于稀疏，并且会造成维度灾难。

使用Vector Representations可以有效解决这个问题。Word2Vec可以将One-Hot Encoder转化为低维度的连续值，也就是稠密向量，并且其中意思相近的词将被映射到向量空间中相近的位置。

word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词，而Skip-Gram正好相反，是从目标字词推测出原始语句。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

步骤S400：使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。

在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否)。对于在某一特定文件里的词语t _i来说，它的词频tf _i,j可表示为：

以上式子中n _i,j是该词t _i在文件d _j中的出现次数，而分母则是在文件d _j中所有字词的出现次数之和。

逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

其中，对数的分子|D|为语料库中的文件总数，分母|{j：t _i∈d _i}|为包含词语t _i的文件数目(不等于0)。如果该词语不在语料库中，就会导致被除数为零，因此可以使用1+|{j：t _i∈d _i}|确保分母不为0。

然后该词t _i的TF-IDF＝tf _i,j×idf _i。

在本实施例中，各个分词w ₁、w ₂、……w _n-1、w _n分别对应的TF-IDF值为k ₁、k ₂、……k _n-1、k _n。其中，k _n＝tf _n×idf _n，其中tf _n为分词w _n在该文本信息中出现的频率(词频)，idf _n为分词w _n的逆向文件频率。

步骤S500：根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V。某个词对文本信息的重要性越高，它的TF-IDF值就越大，则TF-IDF值可以代表各个词重要程度，可以理解为权值。

假设1≤m≤n，分词w _m的词向量V(w _m)与分词w _m的TF-IDF值k _m相乘，得到相乘值H _m＝V(w _m)×k _m。根据各个分词w ₁、w ₂、……w _n-1、w _n的词向量与对应TF-IDF值的乘积H ₁、H ₂、……H _n-1、H _n得到句子向量V。

在其中一个实施例中，可以使用以下公式得到句子向量V：

V＝H ₁+H ₂+……H _n-1+H _n

具体的，可以使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)

步骤S600：计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句(特征预存语句)。

在数据库中，预存着大量的问题(即预存语句)和相应的回答，其中每个问题都会对应存储着其句子向量。在确定了文本信息的句子向量V后，在数据库中查找句子向量之间的余弦相似度最大的那个特征预存语句，从而确定与该特征预存语句对应的回答为反馈给用户的信息。

余弦相似度，也称为余弦距离，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。假如语句X和语句Y对应向量分别是：(x ₁,x ₂,...,x ₆₄₀₀)和(y ₁,y ₂,...,y ₆₄₀₀)，则它们之间的余弦距离可以用它们之间夹角的余弦值来表示：

当两条语句向量夹角余弦等于1时，这两条句子完全相同；当夹角的余弦值接近于1时，两条语句相似；夹角的余弦越小，两条语句越不相关。

通过比较句子向量V与预存语句的句子向量之间的余弦相似度，可以找到余弦相似度最大的预存语句(特征预存语句)。

例如用户通过向在线客服机器人发送问题进行在线咨询，在线客服机器人接收该问题后，通过计算该问题的句子向量V，然后在数据库中查找与该问题句子向量V的余弦相似度最大的预存问题，并选择与该预存问题对应的预存问答反馈给用户。例如，用户发出问题“请问是不是包邮”，在线客服机器人在数据库中查找与该问题句子向量的余弦相似度最大的预存问题为“请问是否包邮”，数据库中对应“请问是否包邮”这一预存问题映射存储有回答“是的”，则向客户反馈“是的”。

通过上述方法，可以找到与文本信息最相似的预存语句(特征预存语句)，在机器人对话、信息分类等方面可以提高问题识别的精准度，从而提高对话效率或分类效率。

图3为一个实施例的基于TF-IDF的文本信息相似度的匹配装置模块示意图。对应上述的基于TF-IDF的文本信息相似度的匹配方法，本申请还提供一种基于TF-IDF的文本信息相似度的匹配装置，包括：获取模块100、分词模块200、词向量计算模块300、TF-IDF值计算模块400、句向量计算模块500、匹配模块600。

获取模块100用于获取文本信息；分词模块200用于对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；词向量计算模块300用于使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)；TF-IDF值计算模块400用于使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；句向量计算模块500用于根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；匹配模块600用于计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。

获取模块100获取文本信息。此处的文本信息既可以是用户自行输入的，也可以是根据用户输出的语音数据而识别出的文本信息。

当然，如果用户发送的是语音消息，那么获取模块100需要对语音消息进行语音识别，具体为：获取模块100获取用户发送的语音消息；对语音消息进行语音识别，生成文本信息。语音识别技术应用较为广泛，在此不赘述。

分词模块200对文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n。

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的词数最小)

4)双向最大匹配法(进行由左到右、由右到左两次扫描)

在一些实施例中，分词模块200可以采用基于统计的分词方法对文本信息进行分词，例如采用结巴(jieba)分词组件对文本信息进行分词。结巴分词是中国程序员用Python开发的一个中文分词组件。

在其中一个实施例中，分词模块200在对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n的过程中，还对文本信息的停用词进行去除处理。

词向量计算模块300使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)。各个分词w ₁、w ₂、……w _n-1、w _n分别对应词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)。

词向量计算模块300可以通过Gensim工具包中的word2vec CBOW模型计算各个分词的词向量。

杭州[0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]

上海[0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]

宁波[0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]

北京[0,0,0,0,0,0,0,0,0,……，1,0,0,0,0,0,0]

TF-IDF值计算模块400使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n。

然后该词t _i的TF-IDF＝tf _i,j×idf _i。

句向量计算模块500根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V。某个词对文本信息的重要性越高，它的TF-IDF值就越大，则TF-IDF值可以代表各个词重要程度，可以理解为权值。

在其中一个实施例中，句向量计算模块500可以使用以下公式得到句子向量V：

V＝H ₁+H ₂+……H _n-1+H _n

具体的，句向量计算模块500可以使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)

匹配模块600计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句(特征预存语句)。

匹配模块600通过比较句子向量V与预存语句的句子向量之间的余弦相似度，可以找到余弦相似度最大的预存语句(特征预存语句)。

通过上述装置，可以找到与文本信息最相似的预存语句(特征预存语句)，在机器人对话、信息分类等方面可以提高问题识别的精准度，从而提高对话效率或分类效率。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述任一实施例所述基于TF-IDF的文本信息相似度的匹配方法的步骤。

本申请还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述基于TF-IDF的文本信息相似度的匹配方法的步骤。

上述的基于TF-IDF的文本信息相似度的匹配方法、装置、计算机设备和存储介质，通过获取文本信息；对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)；使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。通过上述过程，可以找到与文本信息最相似的预存语句，在机器人对话、信息分类等方面可以提高问题识别的精准度，从而提高对话效率或分类效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

Claims

一种基于TF-IDF的文本信息相似度的匹配方法，包括如下步骤：

获取文本信息；

对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；

使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……V(w _n-1)、V(w _n)；

使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；

根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；

计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。
根据权利要求1所述的基于TF-IDF的文本信息相似度的匹配方法，在对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n的过程中，还对文本信息的停用词进行去除处理。
根据权利要求1所述的基于TF-IDF的文本信息相似度的匹配方法，采用结巴分词组件对对所述文本信息进行分词。
根据权利要求1所述的基于TF-IDF的文本信息相似度的匹配方法，使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)。
一种基于TF-IDF的文本信息相似度的匹配装置，包括：

获取模块，用于获取文本信息；

分词模块，用于对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；

词向量计算模块，用于使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……、V(w _n-1)、V(w _n)；

TF-IDF值计算模块，用于使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；

句向量计算模块，用于根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；

匹配模块，用于计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。
根据权利要求5所述的基于TF-IDF的文本信息相似度的匹配装置，所述分词模块还对文本信息的停用词进行去除处理。
根据权利要求5所述的基于TF-IDF的文本信息相似度的匹配装置，所述分词模块采用结巴分词组件对对所述文本信息进行分词。
根据权利要求5所述的基于TF-IDF的文本信息相似度的匹配装置，所述句向量计算模块使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种基于TF-IDF的文本信息相似度的匹配方法，所述基于TF-IDF的文本信息相似度的匹配方法包括以下步骤：

获取文本信息；

对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；

使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……V(w _n-1)、V(w _n)；

使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；

根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；

计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。
根据权利要求9所述的计算机设备，在对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n的过程中，还对文本信息的停用词进行去除处理。
根据权利要求9所述的计算机设备，采用结巴分词组件对对所述文本信息进行分词。
根据权利要求9所述的计算机设备，使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)。
一种存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种基于TF-IDF的文本信息相似度的匹配方法，所述基于TF-IDF的文本信息相似度的匹配方法包括以下步骤：

获取文本信息；

对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n；

使用CBOW模型计算各个分词的词向量V(w ₁)、V(w ₂)、……V(w _n-1)、V(w _n)；

使用TF-IDF算法计算各个分词的TF-IDF值k ₁、k ₂、……k _n-1、k _n；

根据各个分词的词向量与对应TF-IDF值的乘积得到句子向量V；

计算所述句子向量V与预存语句的句子向量之间的余弦相似度，确定余弦相似度最大的预存语句。
根据权利要求13所述的非易失性存储介质，在对所述文本信息进行分词得到各个分词w ₁、w ₂、……w _n-1、w _n的过程中，还对文本信息的停用词进行去除处理。
根据权利要求13所述的非易失性存储介质，采用结巴分词组件对对所述文本信息进行分词。
根据权利要求13所述的非易失性存储介质，使用以下公式得到句子向量V：

V＝k ₁×V(w ₁)+k ₂×V(w ₂)+……+k _n-1×V(w _n-1)+k _n×V(w _n)。