CN111639485A

CN111639485A - 基于文本相似性的课程推荐方法及相关设备

Info

Publication number: CN111639485A
Application number: CN202010355262.5A
Authority: CN
Inventors: 黎洋; 黎宇坤
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-08

Abstract

本发明提供一种基于文本相似性的课程推荐方法，获取预设数据库中课程的内容特征并构建课程内容语料库；分别调用TF‑IDF模型、主题模型及Word2vec模型对课程内容语料库进行训练，得到课程内容的第一向量、第二向量及第三向量；确定对应的第一、第二及第三最优权值，根据最优权值、构建课程的最终向量；根据课程的最终向量计算任意两个课程的相似度，得到课程的相似度矩阵；获取历史观看课程并调用相似度矩阵，得到待推荐课程列表。本发明还提供一种基于文本相似性的课程推荐装置、计算机装置及存储介质。通过本发明，能够提高课程推荐效率。另外，本发明还涉及区块链技术及人工智能技术，同时，本方案可应用于智慧教育领域中，从而推动智慧城市的建设。

Description

基于文本相似性的课程推荐方法及相关设备

技术领域

本发明涉及数据处理领域，尤其涉及一种基于文本相似性的课程推荐方法、装置、计算机装置及存储介质。

背景技术

在互联网广泛普及的时代，人们越来越倾向于在互联网上获取知识，互联网在线课程因其观看便捷、形式多样、可重复学习等特性受到用户的喜爱。在线课程视频种类繁多，不同的教育领域下，还有很多细分的子领域，如何找到用户喜欢的课程，是在线教育行业亟待解决的问题。

传统的解决方法需要基于大量的用户行为记录进行课程推荐，例如，一种是简单的依据课程点击量、观看时长等进行统计排序，评价课程的热度然后将排在最前面的N个课程组成热度排行榜，然而这种方法只关注用户有行为的课程，用户的操作行为越多，得到推荐的机会越大，那些没有用户行为的课程将不会被推荐；另一种方法是协同过滤，其基本思路是推荐与用户相似的群体看过的课程或者是推荐与用户看过的课程相似的课程，这种方法同样需要利用用户的行为信息或者是用户对课程的操作信息。

因而，有必要提供一种课程推荐方法，能够降低对用户行为记录的依赖，提高课程推荐的效率与准确率。

发明内容

鉴于此，有必要提供一种基于文本相似性的课程推荐方法、基于文本相似性的课程推荐装置、计算机装置及存储介质，能够解决目前课程推荐方法对用户行为记录过分依赖，从而导致课程推荐效率与准确率不高的技术问题。

本发明实施例第一方面提供一种基于文本相似性的课程推荐方法，所述基于文本相似性的课程推荐方法包括：

获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介；

根据所述内容特征构建课程内容语料库；

调用TF-IDF模型识别所述课程内容语料库得到第一向量，调用主题模型识别所述课程语料库得到第二向量，调用Word2vec模型识别所述课程内容语料库得到第三向量；

确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量；

根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵；

获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。

进一步地，在本发明实施例提供的上述基于文本相似性的课程推荐方法中，所述确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值的步骤包括：

获取带有标签的文本相似数据集；

调用TF-IDF模型识别所述文本相似数据集得到第四向量，调用主题模型识别所述文本相似数据集得到第五向量，调用Word2vec模型识别所述文本相似数据集得到第六向量；

将所述第四向量、所述第五向量及所述第六向量进行横向拼接，得到横向拼接向量；

调用集成树模型训练所述横向拼接向量，得到第一Shaply值；

按照竖向维度对所述第一Shaply值取绝对平均并缩放到[0,1]空间，得到所述第四向量、所述第五向量及所述第六向量对应的第二Shaply值；

将所述第二Shaply值求和取平均分别得到所述第一最优权值、所述第二最优权值与所述第三最优权值。

进一步地，在本发明实施例提供的上述基于文本相似性的课程推荐方法中，所述方法还包括：

按照预设时间间隔检测所述预设数据库中是否存在新增课程；

当检测结果为所述预设数据库中存在新增课程时，获取所述新增课程的数量；

判断所述数量是否超过预设新增数量阈值；

当判断结果为所述数量超过预设新增数量阈值时，调用第一更新规则更新所述相似度矩阵；

当判断结果为所述数量未超过预设新增数量阈值时，调用第二更新规则更新所述相似度矩阵。

进一步地，在本发明实施例提供的上述基于文本相似性的课程推荐方法中，所述调用第一更新规则更新所述相似度矩阵的步骤包括：

获取所述新增课程的新增内容特征，其中，所述新增内容特征包括新增课程的标题、新增课程的主题及新增课程的简介；

根据所述新增内容特征更新所述课程内容语料库；

调用TF-IDF模型识别更新后的课程内容语料库得到更新后第一向量，调用主题模型识别更新后的课程内容语料库得到更新后的第二向量，调用Word2vec模型识别更新后的课程内容语料库得到更新后的第三向量；

确定更新后的第一向量对应的第一最优权值，确定更新后的第二向量对应的第二最优权值，确定更新后的第三向量对应的第三最优权值，并根据重新获取的所述第一最优权值、所述第二最优权值及所述第三最优权值更新所有课程的最终向量；

根据所有课程更新后的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到更新后的相似度矩阵。

进一步地，在本发明实施例提供的上述基于文本相似性的课程推荐方法中，所述调用第二更新规则更新所述相似度矩阵的步骤包括：

根据所述新增内容特征更新所述课程内容语料库；

调用TF-IDF模型识别更新后的课程内容语料库得到新增课程对应的第一向量，调用主题模型识别更新后的课程内容语料库得到新增课程对应的第二向量，调用Word2vec模型识别更新后的课程内容语料库得到新增课程对应的第三向量；

根据所述第一向量、第二向量、第三向量及所述第一最优权值、第二最优权值与第三最优权值获取新增课程的最终向量，并根据新增课程的最终向量分别计算与其他课程的相似度值，并根据计算的相似度值更新相似度矩阵。

当所述历史观看课程的数量为多个时，确定所述历史观看课程中的每一门课程作为目标课程；

根据所述相似度矩阵选取与所述目标课程的相似度排名前第一预设向量的课程，形成初始待推荐课程列表；

按照相似度从大到小的顺序排列所述初始待推荐课程列表中的课程，并选取相似度排名前第二预设向量的课程作为待推荐课程列表。

进一步地，在本发明实施例提供的上述基于文本相似性的课程推荐方法中，所述根据所述内容特征构建课程内容语料库的步骤包括：

对所述内容特征进行数据清洗，其中，所述数据清洗包括以下中的一种或多种：去除链接、去除无效字符及去除无效语句；

对数据清洗后的所述内容特征进行中文分词处理，并将中文分词处理后的结果存储到课程内容语料库中，其中，所述课程内容语料库为区块链数据库。

本发明实施例第二方面还提供一种基于文本相似性的课程推荐装置，所述基于文本相似性的课程推荐装置包括：

内容特征获取模块，用于获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介；

语料库构建模块，用于根据所述内容特征构建课程内容语料库；

向量获取模块，用于调用TF-IDF模型识别所述课程内容语料库得到第一向量，调用主题模型识别所述课程语料库得到第二向量，调用Word2vec模型识别所述课程内容语料库得到第三向量；

最优值确定模块，用于确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量；

矩阵计算模块，用于根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵；

推荐课程生成模块，用于获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。

本发明实施例第三方面还提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述基于文本相似性的课程推荐方法。

本发明实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述基于文本相似性的课程推荐方法。

本发明实施例提供一种基于文本相似性的课程推荐方法、基于文本相似性的课程推荐装置、计算机装置及存储介质，能够基于课程的文本内容特征推荐相似的课程给用户，并不依赖于用户对课程的行为记录；本发明中的相似度矩阵是课程到课程的关系，是稠密的矩阵，在利用课程相似度矩阵进行相关处理时，能够充分利用计算机资源；且在本发明中，当预设数据库中新增课程时，只需将新增课程内容向量化后计算与数据库中原有课程的相似度即可，能够降低计算复杂度；且本发明采用有监督的学习方法确定所述第一向量、第二向量与第三向量对应的最优权值，能够避免人工设置权值的主观性与试验最优权值的繁琐性，提高了最优权值的计算效率，进而提高了基于文本相似性的课程推荐效率。

附图说明

图1是本发明第一实施方式提供的基于文本相似性的课程推荐方法的流程图。

图2是本发明一实施方式的计算机装置的结构示意图。

图3是图2所示的计算机装置的示例性的功能模块图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

图1是本发明第一实施方式的基于文本相似性的课程推荐方法的流程图。所述基于文本相似性的课程推荐方法可以应用于计算机装置，所述计算机装置可以是例如智能手机、笔记本电脑、台式/平板电脑、智能手表等智能设备。如图1所示，所述基于文本相似性的课程推荐方法可以包括如下步骤：

S11、获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介。

在本发明的至少一实施例中，获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介。所述课程的标题是指标明课程内容的简短语句；所述课程的主题是指标明课程所要表现的中心思想的语句；所述课程的简介是对课程内容简明扼要的介绍。所述课程的文件格式包括视频、音频等。所述预设数据库为包含不同种类课程的网站、APP等。在一实施例中，所述预设数据库为包含公司内部教育培训课程的APP。

S12、根据所述内容特征构建课程内容语料库。

在本发明的至少一实施例中，根据所述内容特征构建课程内容语料库，其中，所述课程内容语料库可以按照XML文件的形式，存储所有课程的内容特征进行分词后的结果。

具体地，所述根据所述内容特征构建课程内容语料库的步骤包括：对所述内容特征进行数据清洗，其中，所述数据清洗包括以下中的一种或多种：去除链接、去除无效字符及去除无效语句；对数据清洗后的所述内容特征进行中文分词处理，并将中文分词处理后的结果存储到课程内容语料库中。其中，所述中文分词处理是指将一个语句中的汉字序列拆分为多个单独的词语的过程。具体地，在实际应用中，可以利用现有的中文分词代码对课程的内容特征进行中文分词处理，并在分词结果中移除标点符号。进一步地，本发明中的课程内容语料库可以为存储在区块链节点上的区块链数据库，本方案中得到的信息、视频数据等等都存储于一区块链的节点中，从而可以利用区块链存储自身的优点：区块链***在存储上跟传统信息项目的存储方式不同，区块链项目的存储是参与记账的节点维护同样的账本内容，每个记账节点都能查看到链上数据。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S13、调用TF-IDF模型识别所述课程内容语料库得到第一向量，调用主题模型识别所述课程语料库得到第二向量，调用Word2vec模型识别所述课程内容语料库得到第三向量。

在本发明的至少一实施例中，本方案基于人工智能技术，主要是分别调用人工智能领域中的TF-IDF模型、主题模型及Word2vec模型对所述课程内容语料库进行训练，得到课程内容的第一向量V_T、第二向量V_M及第三向量V_W。其中，所述第一向量V_T为调用TF-IDF模型将所述课程内容语料库映射到向量空间的结果，所述第二向量V_M为调用主题模型将所述课程内容语料库映射到向量空间的结果，所述第三向量V_W为调用Word2vec模型将所述课程内容语料库映射到向量空间的结果。

其中，所述TF-IDF模型是一种统计方法，用以评估一词或短语对于语料库中某个课程的重要程度。TF意思是指词频(Term Frequency)。所述词频指的是某一个给定的词语在该课程中出现的频率。这个数字是对词数(Term Count)的归一化，以防止它偏向长的文本(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否)。IDF意思是指逆文档频率(Inverse document frequency)。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到。

所述TF-IDF模型的主要思想包括：当某个词或短语在一个课程中出现的频率高，并且在其他课程中出现的频率低，则认为此词或短语具有很好的类别区分能力。所述TF-IDF模型使用词频和逆文档频率的乘积表示课程中的词。

具体地，所述调用TF-IDF模型识别所述课程内容语料库得到第一向量V_T的步骤包括：调用TF-IDF模型提取所述课程内容语料库中任意一个课程对应的分词；统计所述分词在课程中所占的词频；获取所述分词的逆文档频率；计算所述词频与所述逆文档频率的乘积，得到课程内容的第一向量V_T。其中，词数不同的可以用0填充以保证所有课程的第一向量长度一致。

其中，所述主题模型是以文本中所有字符为支撑集的概率分布，用于表示该字符在该主题中出现的频率程度。所述主题模型包括潜在语义索引(LSI)模型。所述潜在语义索引模型是基于奇异值分解(SVD)的方法得到文本的主题。所述潜在语义索引模型通过将高维向量映射到潜在语义空间，提取与文档和词项有关的词义，从而分析文档和词项之间的关系。

具体地，所述调用主题模型识别所述课程内容语料库得到第二向量V_M的步骤包括：调用主题模型将所述课程内容语料库中的所有课程映射为矩阵；通过奇异值分解方法分解矩阵，得到课程的潜在主题特征向量，也即所述第二向量V_M。

其中，所述Word2vec模型是一种将词进行分布式表示的方法，通过前向反馈神经网络来拟合一个词序列的条件概率，训练完成后提取中间层作为词的向量表示，将课程内容中词的向量表示加和求平均即可得到课程内容的向量。

具体地，所述调用Word2vec模型识别所述课程内容语料库得到第三向量V_W的步骤包括：调用Word2vec模型计算所述课程内容语料库中任意一个课程对应分词的词向量；将任意课程对应分词的词向量加和求平均得到课程内容的第三向量V_W。

S14、确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量。

在本发明的至少一实施例中，确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量。所述第一向量、第二向量及第三向量为分别调用TF-IDF模型、主题模型及Word2vec模型将所述课程内容语料库映射到向量空间的结果。由于所述TF-IDF模型主要基于词频进行统计，对长文本比较敏感；所述主题模型是基于词频的基础上统计概率模型表示文本主题，对长文本比较敏感；所述Word2vec模型基于上下文训练浅层神经网络得到词语的向量表示，对文本的长短不敏感。因而，需要分别对所述第一向量、第二向量及第三向量设置对应的权值以综合不同模型的优缺点。

目前较多的方法是通过人工设置的方式确定三个向量对应的权值，然而该方法对人工经验的依赖性大，容易受到人的主观因素的影响；该方法需要繁琐的人工调试，人力消耗较大；且该方法通过人工加权得到的向量进行相似度计算得到的结果属于无监督方法，结果的准确性评估较难。因而，在本发明的至少一实施例中，采用有监督的学习方法确定所述第一向量对应的第一最优权值、所述第二向量对应的第二最优权值与所述第三向量对应的第三最优权值，能够避免人工设置权值的主观性与试验最优权值的繁琐性，提高了最优权值处理效率，进而提高了基于文本相似性的课程推荐效率。

在实际处理过程中，本发明并不知道所述预设数据库中每个课程的相似课程，且本发明的目的是找出每个课程的相似课程。因而，需要通过已知的文本相似数据集获取最优权值。可以理解的是，由于所述文本相似数据集与所述课程语料库中均包含文本的内容特征，且均调用TF-IDF模型、主题模型及Word2vec模型对文本的内容特征进行训练，因而调用集成树模型对所述文本相似数据集进行训练得到的三个最优权值也即为所述课程语料库中所述第一向量对应的第一最优权值、第二向量对应的第二最优权值及第三向量的对应的第三最优权值。

具体地，所述确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值的步骤包括：获取带有标签的文本相似数据集；调用TF-IDF模型识别所述文本相似数据集得到第四向量，调用主题模型识别所述文本相似数据集得到第五向量，调用Word2vec模型识别所述文本相似数据集得到第六向量；将所述第四向量、第五向量及第六向量进行横向拼接，得到横向拼接向量；调用集成树模型训练所述横向拼接向量，得到第一shaply值；按照竖向维度对所述第一shaply值取绝对平均并缩放到[0,1]区间，得到所述第四向量、第五向量及第六向量对应的第二shaply值；将所述第二Shaply值求和取平均分别得到所述第一最优权值、所述第二最优权值与所述第三最优权值。其中，所述第四向量为调用TF-IDF模型将所述文本相似数据集映射到向量空间的结果，所述第五向量为调用主题模型将所述文本相似数据集映射到向量空间的结果，所述第六向量为调用Word2vec模型将所述文本相似数据集映射到向量空间的结果。

在一实施例中，所述文本相似数据集中包含大量相似的或不相似的文本，设置所述标签分别为“0”与“1”，其中，“0”表示文本不相似，“1”表示文本相似。分别调用TF-IDF模型、主题模型及Word2vec模型对所述文本相似数据集进行训练，得到文本相似数据集的第四向量、第五向量及第六向量，其中，所述第四向量为调用TF-IDF模型将所述文本相似数据集映射到向量空间的结果，所述第五向量为调用主题模型将所述文本相似数据集映射到向量空间的结果，所述第六向量为调用Word2vec模型将所述文本相似数据集映射到向量空间的结果。具体的训练方法不再赘述。

在一实施例中，所述集成树模型包含多个子树，所述集成树模型包含子树的数量与所述文本相似数据集中文本的数量一致。每颗子树的训练数据可以由一篇文本的相似top5文本与不相似top5文本构成。可以采用线性变化的方式进行区间[0,1]的缩放，所述第四向量、第五向量及第六向量对应的第二shaply值的数量为n个，分别为shap₁,shap₂…shap_n-1,shap_n。

在本发明的至少一实施例中，所述根据所述最优权值构建课程的最终向量的步骤包括：将所述第一向量V_T、第二向量V_M、第三向量V_W与最优权值t、m、w代入下列公式(1)得到课程的最终向量V

V＝tV_T+mV_M+wV_W 公式(1)

S15、根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵。

在本发明的至少一实施例中，根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵。对于任意两个课程V_a(a₁,a₂,..a_n)、V_b(b₁,b₂,..b_n)，可以用余弦相似度来衡量课程的相似性：

最终得到所述预设数据库中所有课程的相似度矩阵：

优选地，所述预设数据库中的课程会进行更新，同一时间段内，更新的课程数量可以为几个，几十个，几百个甚至几千个。更新的课程数量不同，对应计算新增的课程与所有课程的相似度的的步骤不同。

也即所述方法还包括：按照预设时间间隔检测所述预设数据库中是否存在新增课程；当检测结果为所述预设数据库中存在新增课程时，获取所述新增课程的数量；判断所述数量是否超过预设新增数量阈值；当判断结果为所述数量超过预设新增数量阈值时，调用第一更新规则更新所述相似度矩阵；当判断结果为所述数量未超过预设新增数量阈值时，调用第二更新规则更新所述相似度矩阵。

其中，所述预设时间间隔为计算机装置预先设置的，例如，所述预设时间间隔为7天。所述预设新增阈值为计算机装置预先设置的，例如，所述预设新增阈值为100个。所述第一更新规则与所述第二更新规则为计算机装置预先设置的，通过对所述课程新增数量与预设新增阈值进行判断，并根据判断选择选择相应的更新规则更新所述相似度矩阵，能够根据新增课程的实际情况选择合适的更新规则，从而提高相似度矩阵的更新效率，进一步提高课程推荐效率。

具体地，当判断结果为所述课程新增数量超过预设新增阈值时，所述调用第一更新规则更新所述相似度矩阵的步骤包括：获取所述新增课程的新增内容特征，其中，所述新增内容特征包括新增课程的标题、新增课程的主题及新增课程的简介；根据所述新增内容特征更新所述课程内容语料库；调用TF-IDF模型识别更新后的课程内容语料库得到更新后的第一向量，调用主题模型识别更新后的课程内容语料库得到更新后的第二向量，调用Word2vec模型识别更新后的课程内容语料库得到更新后的第三向量；确定更新后的第一向量对应的第一最优权值，确定更新后的第二向量对应的第二最优权值，确定更新后的第三向量对应的第三最优权值，并根据重新获取的所述第一最优权值、所述第二最优权值及所述第三最优权值更新所有课程的最终向量；根据所有课程更新后的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到更新后的相似度矩阵。

当判断结果为所述课程新增数量未超过预设新增阈值时，所述调用第二更新规则更新所述相似度矩阵的步骤包括：获取所述新增课程的新增内容特征，其中，所述新增内容特征包括新增课程的标题、新增课程的主题及新增课程的简介；根据所述新增内容特征更新所述课程内容语料库；调用TF-IDF模型识别更新后的课程内容语料库得到新增课程对应的第一向量，调用主题模型识别更新后的课程内容语料库得到新增课程对应的第二向量，调用Word2vec模型识别更新后的课程内容语料库得到新增课程对应的第三向量；根据所述第一向量、第二向量、第三向量及所述第一最优权值、第二最优权值与第三最优权值获取新增课程的最终向量，并根据新增课程的最终向量分别计算与其他课程的相似度值，并根据计算的相似度值更新相似度矩阵。

其中，根据计算的相似度更新相似度矩阵也即将新增课程与原有课程的相似度添加到相似度矩阵的最后一行(或几行)和最后一列(或几列)即可完成相似度矩阵的更新。

可以理解的是，假设根据所述预设数据库中所有课程的内容特征构建的相似度矩阵中有n个课程，那么计算一遍新增的课程与所有课程的相似度这一步骤的复杂度为O(n)；当采用协同过滤方法进行课程相似度处理时，如果是基于物品的协同过滤，先要计算物品之间的相似度，然后根据用户的历史行为计算用户对物品的感兴趣程度。假设有m个用户，则这个计算的复杂度是O(m*n)。因而采用本提案提供的基于文本相似度的课程推荐方法能够降低计算的复杂度。

S16、获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。

在本发明的至少一实施例中，获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。所述用户的身份信息包括用户登录所述预设数据库时采用的账号信息。根据用户的身份信息可以获取对应的历史观看课程，所述历史观看课程的数量可以为一个，也可以为多个。

具体地，当所述历史观看课程的数量为多个时，所述方法还包括：当所述历史观看课程的数量为多个时，确定所述历史观看课程中的每一门课程作为目标课程；根据所述相似度矩阵选取与所述目标课程的相似度排名前第一预设向量的课程，形成初始待推荐课程列表；按照相似度从大到小的顺序排列所述初始待推荐课程列表中的课程，并选取相似度排名前第二预设向量的课程作为待推荐课程列表。其中，第一预设向量与第二预设向量为计算机装置预先设置的，例如，第一预设向量与第二预设向量均为5。

本发明实施例提供一种基于文本相似性的课程推荐方法，能够基于课程的文本内容特征推荐相似的课程给用户，并不依赖于用户对课程的行为记录；本发明中的相似度矩阵是课程到课程的关系，是稠密的矩阵，在利用课程相似度矩阵进行相关处理时，能够充分利用计算机资源；且在本发明中，当预设数据库中新增课程时，只需将新增课程内容向量化后计算与数据库中原有课程的相似度即可，能够降低计算复杂度；且本发明采用有监督的学习方法确定所述第一向量、第二向量与第三向量对应的最优权值，能够避免人工设置权值的主观性与试验最优权值的繁琐性，提高了最优权值的计算效率，进而提高了基于文本相似性的课程推荐效率。

同时，本方案可应用于智慧教育领域中，从而推动智慧城市的建设。

以上是对本发明实施例所提供的方法进行的详细描述。根据不同的需求，所示流程图中方块的执行顺序可以改变，某些方块可以省略。下面对本发明实施例所提供的计算机装置1进行描述。

本发明实施例还提供一种计算机装置1，包括存储器10、处理器30及存储在存储器10上并可在处理器30上运行的计算机程序，所述处理器30执行所述程序时实现上述任一实施方式中所述的基于文本相似性的课程推荐方法的步骤。

图2是本发明一实施方式的计算机装置的结构示意图，如图2所示，计算机装置1包括存储器10，存储器10中存储有所述基于文本相似性的课程推荐装置100。所述基于文本相似性的课程推荐装置100可以获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介；根据所述内容特征构建课程内容语料库；调用TF-IDF模型识别所述课程内容语料库得到第一向量，调用主题模型识别所述课程语料库得到第二向量，调用Word2vec模型识别所述课程内容语料库，得到第三向量；确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量；根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵；获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。通过本发明实施例，能够基于课程的文本内容特征推荐相似的课程给用户，并不依赖于用户对课程的行为记录；本发明中的相似度矩阵是课程到课程的关系，是稠密的矩阵，在利用课程相似度矩阵进行相关处理时，能够充分利用计算机资源；且在本发明中，当预设数据库中新增课程时，只需将新增课程内容向量化后计算与数据库中原有课程的相似度即可，能够降低计算复杂度；且本发明采用有监督的学习方法确定所述第一向量、第二向量与第三向量对应的最优权值，能够避免人工设置权值的主观性与试验最优权值的繁琐性，提高了最优权值的计算效率，进而提高了基于文本相似性的课程推荐效率。

本实施方式中，计算机装置1还可以包括显示屏20及处理器30。存储器10、显示屏20可以分别与处理器30电连接。

所述的存储器10可以是不同类型存储设备，用于存储各类数据。例如，可以是计算机装置1的存储器、内存，还可以是可外接于该计算机装置1的存储卡，如闪存、SM卡(SmartMedia Card，智能媒体卡)、SD卡(Secure Digital Card，安全数字卡)等。此外，存储器10可以包括包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。存储器10用于存储各类数据，例如，所述计算机装置1中安装的各类应用程序(Applications)、应用上述基于文本相似性的课程推荐方法而设置、获取的数据等信息。

显示屏20安装于计算机装置1，用于显示信息。

处理器30用于执行所述基于文本相似性的课程推荐方法以及所述计算机装置1内安装的各类软件，例如操作***及应用显示软件等。处理器30包含但不限于处理器(Central Processing Unit，CPU)、微控制单元(Micro Controller Unit，MCU)等用于解释计算机指令以及处理计算机软件中的数据的装置。

所述的基于文本相似性的课程推荐装置100可以包括一个或多个的模块，所述一个或多个模块被存储在计算机装置1的存储器10中并被配置成由一个或多个处理器(本实施方式为一个处理器30)执行，以完成本发明实施例。例如，参阅图3所示，所述基于文本相似性的课程推荐装置100可以包括内容特征获取模块101、语料库构建模块102、向量获取模块103、最优值确定模块104、矩阵计算模块105及推荐课程生成模块106。本发明实施例所称的模块可以是完成一特定功能的程序段，比程序更适合于描述软件在处理器30中的执行过程。

可以理解的是，对应上述基于文本相似性的课程推荐方法中的各实施方式，计算机装置1可以包括图3中所示的各功能模块中的一部分或全部，各模块的功能将在以下具体介绍。需要说明的是，以上基于文本相似性的课程推荐方法的各实施方式中相同的名词、相关名词及其具体的解释说明也可以适用于以下对各模块的功能介绍。为节省篇幅及避免重复起见，在此就不再赘述。

内容特征获取模块101可以用于获取预设数据库中课程的内容特征，其中，所述内容特征包括课程的标题、课程的主题及课程的简介。

语料库构建模块102可以用于根据所述内容特征构建课程内容语料库。

向量获取模块103可以用于调用TF-IDF模型识别所述课程内容语料库得到第一向量，调用主题模型识别所述课程语料库得到第二向量，调用Word2vec模型识别所述课程内容语料库得到第三向量。

最优值确定模块104可以用于确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值，并根据所述第一最优权值、所述第二最优权值及所述第三最优权值构建课程的最终向量。

矩阵计算模块105可以用于根据所述课程的最终向量计算任意两个课程的相似度，并根据所述任意两个课程的相似度得到所述预设数据库中所有课程的相似度矩阵。

推荐课程生成模块106可以用于获取所述预设数据库中与用户身份信息对应的历史观看课程，并根据所述历史观看课程调用所述相似度矩阵，向所述用户推荐课程列表。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器30执行时实现上述任一实施方式中的基于文本相似性的课程推荐方法的步骤。

所述基于文本相似性的课程推荐装置100/计算机装置1/计算机装置集成的模块/单元，如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器30执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器30是所述基于文本相似性的课程推荐装置100/计算机装置1的控制中心，利用各种接口和线路连接整个基于文本相似性的课程推荐装置100/计算机装置1的各个部分。

所述存储器10用于存储所述计算机程序和/或模块，所述处理器30通过运行或执行存储在所述存储器10内的计算机程序和/或模块，以及调用存储在存储器10内的数据，实现所述基于文本相似性的课程推荐装置100/计算机装置1的各种功能。所述存储器10可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据等。

在本发明所提供的几个具体实施方式中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的***实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。***、装置或计算机装置权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。

以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于文本相似性的课程推荐方法，其特征在于，所述基于文本相似性的课程推荐方法包括：

根据所述内容特征构建课程内容语料库；

2.根据权利要求1所述的基于文本相似性的课程推荐方法，其特征在于，所述确定所述第一向量对应的第一最优权值，确定所述第二向量对应的第二最优权值，确定所述第三向量对应的第三最优权值的步骤包括：

获取带有标签的文本相似数据集，所述标签用于标识所述文本相似数据集中的文本是否相似；

调用集成树模型训练所述横向拼接向量，得到第一Shaply值；

3.根据权利要求1所述的基于文本相似性的课程推荐方法，其特征在于，所述方法还包括：

判断所述数量是否超过预设新增数量阈值；

4.根据权利要求3所述的基于文本相似性的课程推荐方法，其特征在于，所述调用第一更新规则更新所述相似度矩阵的步骤包括：

根据所述新增内容特征更新所述课程内容语料库；

调用TF-IDF模型识别更新后的课程内容语料库得到更新后的第一向量，调用主题模型识别更新后的课程内容语料库得到更新后的第二向量，调用Word2vec模型识别更新后的课程内容语料库得到更新后的第三向量；

5.根据权利要求3所述的基于文本相似性的课程推荐方法，其特征在于，所述调用第二更新规则更新所述相似度矩阵的步骤包括：

根据所述新增内容特征更新所述课程内容语料库；

6.根据权利要求1所述的基于文本相似性的课程推荐方法，其特征在于，所述方法还包括：

根据所述相似度矩阵选取与所述目标课程的相似度排名前第一预设数量的课程，形成初始待推荐课程列表；

按照相似度从大到小的顺序排列所述初始待推荐课程列表中的课程，并选取相似度排名前第二预设数量的课程作为待推荐课程列表。

7.根据权利要求1所述的基于文本相似性的课程推荐方法，其特征在于，所述根据所述内容特征构建课程内容语料库的步骤包括：

8.一种基于文本相似性的课程推荐装置，其特征在于，所述基于文本相似性的课程推荐装置包括：

9.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于文本相似性的课程推荐方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于文本相似性的课程推荐方法。