CN110297880A

CN110297880A - 语料产品的推荐方法、装置、设备及存储介质

Info

Publication number: CN110297880A
Application number: CN201910433178.8A
Authority: CN
Inventors: 韩亚洲
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-10-01
Anticipated expiration: 2039-05-21
Also published as: CN110297880B

Abstract

本发明属于大数据分析技术领域，公开了一种语料产品的推荐方法、装置、设备及存储介质。该方法包括：接收用户触发的语料产品查询请求，根据语料产品查询请求获取用户提供的语料产品查询需求；对语料产品查询需求进行关键词提取处理，得到N个关键词，N为大于等于1的整数；根据N个关键词，确定用户需要的语料产品对应的特征信息；根据特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息；根据特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备特征信息中全部特征的语料产品，将语料产品推送给用户。通过上述方式，使得为用户推荐的语料产品为符合用户实际需求的，从而大大提升了语料产品的推荐准确率。

Description

语料产品的推荐方法、装置、设备及存储介质

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种语料产品的推荐方法、装置、设备及存储介质。

背景技术

传统的语料库，是指经科学取样和加工的大规模电子文本库。随着时代的发展，目前的语料库已经不在局限于仅存储文本类型的语料信息，还可以存储图片、音频、视频等各种类型的语料信息。

虽然，现有的语料库中存储的语料信息种类繁多，数量庞大。但是，现有的语料查询方式，无法全面识别用户的查询需求，使得筛选出来的语料信息并不满足用户实际需求，语料产品的推荐准确率低。。

所以，亟需提供一种根据用户实际需求，为用户推荐语料产品的方法，以提升语料产品的推荐准确率。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语料产品的推荐方法、装置、设备及存储介质，旨在根据用户实际需求，为用户推荐语料产品，以提升语料产品的推荐准确率。

为实现上述目的，本发明提供了一种语料产品的推荐方法，所述方法包括以下步骤:

接收用户触发的语料产品查询请求，根据所述语料产品查询请求获取所述用户提供的语料产品查询需求；

对所述语料产品查询需求进行关键词提取处理，得到N个关键词，N为大于等于1的整数；

根据所述N个关键词，确定所述用户需要的语料产品对应的特征信息；

根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息；

根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品，将所述语料产品推送给所述用户。

优选地，所述对所述语料产品查询需求进行关键词提取处理，得到N个关键词的步骤，包括：

对所述语料产品查询需求进行分词和词性标注处理，得到M个词，M为小于等于N的整数；

根据预设的词性权重分配标准，计算所述M个词中每一个词的权重值；

对所述N个词进行遍历，将遍历到的当前词的权重值与预设的权重阈值进行比较，过滤出权重值大于所述权重阈值的词，得到所述N个关键词。

优选地，所述语料产品查询需求进行分词和词性标注处理，得到M个词的步骤之前，所述方法还包括：

确定所述语料产品查询需求的格式；

若所述语料产品查询需求为语音格式，则利用语音识别技术，将语音格式的语料产品查询需求转换为文本格式的语料产品查询需求；

若所述语料产品查询需求为图片格式，则利用光学字符识别技术，将图片格式的语料产品查询需求转换为文本格式的语料产品查询需求；

其中，所述对所述语料产品查询需求进行分词和词性标注处理，得到M个词的步骤，包括：

根据所述文本格式的语料产品查询需求中的标点符号，对所述文本格式的语料产品查询需求进行分句，得到待分词语句；

对所述待分词语句进行最大逆向匹配切分，根据自定义词典确定所述M个词；

根据预设的词性标准信息，对所述M个词进行词性标注。

优选地，所述根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息的步骤之前，所述方法还包括：

检测所述特征信息中是否包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征；

若所述特征信息中包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征，则执行步骤：根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息的操作；

否则，则执行步骤：

获取预设周期内所述用户的历史查询记录；

利用大数据分析技术，对所述历史查询记录进行分析，确定所述用户的当前时刻的查询需求；

将所述当前时刻的查询需求作为第一要素，将所述N个关键词作为第二要素；

根据所述第一要素和所述第二要素，确定标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征。

优选地，所述根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品的步骤，包括：

根据各语料信息对应的特征，筛选出具备特征最多的语料信息，将该语料信息作为初始语料产品；

根据所述特征信息和所述初始语料产品对应的特征，确定待集成特征；

从除所述初始语料产品之外的语料信息中提取所述待集成特征对应的语料信息；

将提取到的语料信息与所述初始语料产品进行组合，得到具备所述特征信息中全部特征的语料产品。

优选地，所述将所述语料产品推送给所述用户的步骤之前，所述方法还包括：

判断所述语料产品是否需要收费；

若所述语料产品不需要收费，则执行步骤：将所述语料产品推送给所述用户的操作；

若所述语料产品需要收费，则向所述用户下发收费通知，并在接收到所述用户做出的同意扣费的指令后，从所述用户预设的付费账号中扣除所述语料产品需要的费用，将所述语料产品推送给所述用户。

优选地，所述将所述语料产品推送给所述用户的步骤之后，所述方法还包括：

接收所述用户提交的反馈信息，根据所述反馈信息对所述语料库中的语料信息进行维护。

此外，为实现上述目的，本发明还提出一种语料产品的推荐装置，所述装置包括：

获取模块，用于接收用户触发的语料产品查询请求，根据所述语料产品查询请求获取所述用户提供的语料产品查询需求；

提取模块，用于对所述语料产品查询需求进行关键词提取处理，得到N个关键词，N为大于等于1的整数；

确定模块，用于根据所述N个关键词，确定所述用户需要的语料产品对应的特征信息；

查找模块，用于根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息；

生成模块，用于根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品，将所述语料产品推送给所述用户。

此外，为实现上述目的，本发明还提出一种语料产品的推荐设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语料产品的推荐程序，所述语料产品的推荐程序配置为实现如上文所述的语料产品的推荐方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语料产品的推荐程序，所述语料产品的推荐程序被处理器执行时实现如上文所述的语料产品的推荐方法的步骤。

本发明提供的语料产品的推荐方案，通过从用户触发的语料产品查询请求中提取用户提供的语料产品查询需求，进而根据从语料产品查询需求中提取到的N个关键词来确定用户需要的语料产品对应的特征信息，然后根据确定的特征信息，从语料库中查找出符合确定的特征信息中任一特征的语料信息，最终根据确定特征信息和查询出的各语料信息对应的特征，对查询出的语料进行处理，便可得到具备上述特征信息的语料产品，从而使得最终筛选出的语料信息为满足用户实际需求的语料信息，进而大大提高了语料产品的推荐准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的语料产品的推荐设备的结构示意图；

图2为本发明语料产品的推荐方法第一实施例的流程示意图；

图3为本发明语料产品的推荐方法中步骤S20的具体实现流程示意图；

图4为本发明语料产品的推荐方法第二实施例的流程示意图；

图5为本发明语料产品的推荐装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的语料产品的推荐设备结构示意图。

如图1所示，该语料产品的推荐设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对语料产品的推荐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语料产品的推荐程序。

在图1所示的语料产品的推荐设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明语料产品的推荐设备中的处理器1001、存储器1005可以设置在语料产品的推荐设备中，所述语料产品的推荐设备通过处理器1001调用存储器1005中存储的语料产品的推荐程序，并执行本发明实施例提供的语料产品的推荐方法。

本发明实施例提供了一种语料产品的推荐方法，参照图2，图2为本发明一种语料产品的推荐方法第一实施例的流程示意图。

本实施例中，所述语料产品的推荐方法包括以下步骤：

步骤S10，接收用户触发的语料产品查询请求，根据所述语料产品查询请求获取所述用户提供的语料产品查询需求。

具体的说，本实施例的执行主体可以是进行语料产品查询操作的用户使用的任意终端设备，比如智能手机、平板电脑、个人计算机等，此处不再一一列举，对此也不做限制。

相应地，触发所述语料产品查询请求的方式，具体可以是用户打开了终端设备上安装的语料交易平台提供的语料查询应用程序(Application，App)，然后通过点击语料查询App上的某一功能按键，比如语料查询App上设置的文本输入框，或者语音输入按键，还或者图片输入按键等操作按键后生成的。

相应地，获取到的语料产品查询请求，则可以是所述用户在操作上述功能按键时输入的信息。

步骤S20，对所述语料产品查询需求进行关键词提取处理，得到N个关键词。

应当理解的是，在实际应用中，用户提供的语料产品查询需求至少会包括一个词、几个词、一句话，或者更多的信息。因而，在对所述语料产品查询需求进行关键词提取处理后，得到的N个关键词至少为一个，即N的取值应当是大于或等于1的整数。

此外，为了便于理解对所述语料产品查询需求进行关键词提取处理，得到N个关键词的操作，在本实施例给出一种具体的提取方式，大致实现步骤如图3所示，以下结合图3进行具体说明。

子步骤S201，对所述语料产品查询需求进行分词和词性标注处理，得到M个词。

应当理解的是，由于最终确定的所述N个关键词是从得到的M个词中选取的，因而在实际应用中M的取值必然不能大于N的取值，即M应当是小于或等于N的整数。

此外，在本实施例中，子步骤S201中所说的对所述语料产品查询需求进行的分词和词性标注处理，具体为：

首先，根据所述语料产品查询需求中的标点符号，如逗号、句号等，对所述语料产品查询需求进行分句，得到待分词语句。

比如说，用户提供的语料产品查询需求中的内容为“你好，我想听英文的小王子。”，***通过对上述句子中的内容进行遍历，当遍历到的当前字符是“，”时，则进行分句，将遍历到的“，”前的内容作为一个待分词语句(称为第一待分词语句)，然后接着遍历后续内容，当遍历到“。”时，再次进行分句，将上一个标点符号“，”与当前标点符号“。”之间的内容作为另一个待分词语句(称为第二待分词语句)。

然后，对所述待分词语句进行最大逆向匹配切分，根据自定义词典确定所述M个词。

具体的说，所谓“最大逆向匹配切分”，是指在对待分词语句进行切分时，按照从右往左开始切分。

而上述所说的自定义词典是指预先从各大数据平台、词典收集录入的现有词组，该自定义词典基本包含了现有可能出现的各种形式的词。

为了便于理解，此处采用最大逆向匹配切分方式，对上述举例中得到的第二待分词语句进行切分。

假设，自定义的词典D中记录的词有：D＝{“我”，“看”，“读”，“听”，“中文的”，“英文的”，“一万个为什么”，“小王子”...}。

在对所述第二待分词语句(S＝{“我想听英文的小王子”})进行最大逆向匹配切分操作时，先定义一个最大分割长度，比如6，然后从右往左开始分割：

(1)从S中取出来的候选词W1是“我想听英文的”；

(2)查找自定义词典D中记录的词，发现候选词W1不在自定义词典D中，将候选词W1最左边的第一个字去掉，得到候选词W2“想听英文的”；

(3)查找自定义词典D中记录的词，发现候选词W2不在自定义词典D中，将候选词W2最左边的第一个字去掉，得到候选词W3“听英文的”；

(4)查找自定义词典D中记录的词，发现候选词W3不在自定义词典D中，将候选词W3最左边的第一个字去掉，得到候选词W4“英文的”；

(5)查找自定义词典D中记录的词，发现候选词W4在自定义词典D中，此时就需要将候选词W4从S中拆分出来，S变为“我想听小王子”；

(6)根据分割长度6，再次截取S中的内容，得到候选词W5“我想听小王子”；

(7)重复执行步骤(1)至步骤(6)中的操作，直到对S中的内容完成全部的切分。

根据上述切分操作，从第二待分词语句“我想听英文的小王子”中切分出的词为：我、听、英文的、小王子。

应当理解的是，以上给出的仅为一种具体的分词方式，对本发明的技术方案并不构成任何限定，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，值得一提的是，在实际应用中，语料库的管理人员还可以根据用户的历史查询记录对所述自定义词典进行更新。

最后，根据预设的词性标准信息，对所述M个词进行词性标注。

需要说明的是，本实施例中所说的词性标准信息具体是指汉语词性标准信息，在该词性标准信息中具体规定了哪类词是名词，哪类词是名代词，哪类词是动词，哪类词是形容词，哪类词是时间词等等，此处不再一一列举。

仍以上述拆分得到的4个词为例，则根据所述词性标准信息对所述4个词进行词性标注后的结果可以如下：“我”<代词>，“听”<动词>，“英文的”<形容词>，“小王子”<名词>。

应当理解的是，以上给出的仅为一种的标注形式，对本发明的技术方案并不构成任何限定，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，值得一提的是，由于在实际应用中，所述用户提供的语料产品查询需求会因其触发的语料产品查询请求对应的操作按键不同，格式而有所不同。

比如说，在所述用户操作的按键为文本输入框时，获取到的语料产品查询需求具体为文本格式。

还比如说，在所述用户操作的按键为语音输入按键时，获取到的语料产品查询需求具体为语音格式。

还比如说，在所述用户操作的按键为图片输入按时，获取到的语料产品查询需求具体为图片格式。

而上述给出的针对所述语料产品查询需要的分词和词性标准处理是在文本格式的基础上进行的，因而为了保证能够顺利执行对所述语料产品查询需求进行分词和词性标注处理，得到M个词的操作，在执行子步骤S201之前，可以先确定所述语料产品查询需求的格式，然后根据所述语料产品查询需求的格式进行适应性调整。

比如说，若确定所述语料产品查询需求为语音格式，则先利用语音识别技术，将语音格式的语料产品查询需求转换为文本格式的语料产品查询需求，然后再执行子步骤S201；若确定所述语料产品查询需求为图片格式，则先利用光学字符识别(OpticalCharacter Recognition，OCR技术，将图片格式的语料产品查询需求转换为文本格式的语料产品查询需求，然后再执行子步骤S201；若所述语料产品查询需求为文本格式，则直接执行子步骤S201。

也就是说，所述子步骤S201中的操作，实质上是：

根据自定义词典，对所述待分词语句进行最大逆向匹配切分，得到所述M个词；

根据预设的词性标准信息，对所述M个词进行词性标注。

进一步地，为了保证后续确定的特征信息具有较高的参考价值，在进行关键词提取操作之前，可以先对文本格式的语料产品查询需求进行文本预处理操作。

比如说，去停用词，即去掉反馈信息中含有的如：呢、吗、啊等没有实际意义的词。

还比如说，去掉无效特殊字符，如表情符号、各种标点符号等。

相应地，在将语音格式的语料产品查询需求转换为文本格式的语料产品查询需求之前，同样可以先对语音格式的语料产品查询需求进行一系列预处理操作，比如滤波、去除干扰声音等操作，以保证转换出的文本信息更加准确。

同理，在将图片格式的语料产品查询需求转换为文本格式的语料产品查询需求之前，同样可以先对图片格式的语料产品查询需求进行一系列预处理操作，比如灰度处理去噪等操作，以保证转换出的文本信息更加准确。

子步骤S202，根据预设的词性权重分配标准，计算所述M个词中每一个词的权重值。

应当理解的是，在实际查询过程中，通常代词、叹词、连词、拟声词等是对查询没有多大帮助的，因而为这类词分配的权重应当交低，而能够体现用户需要的语料产品的多媒体格式的动词(比如“听”可以认为语料产品的多媒体格式是音频，“看”则为视频，“读”则为文本)，能够体现语料产品语言格式的形容词(比如“英文的”、“中文的”)，能够体现语料产品所属类别的名称，则为其分配较高的权重。

子步骤S203，对所述N个词进行遍历，将遍历到的当前词的权重值与预设的权重阈值进行比较，过滤出权重值大于所述权重阈值的词，得到所述N个关键词。

应当理解的是，以上给出的仅为一种从所述语料产品查询需求中提取关键词的具体实现方式，对本发明的技术方案并不构成任何限定，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

步骤S30，根据所述N个关键词，确定所述用户需要的语料产品对应的特征信息。

具体的说，上述所说的语料产品对应的特征信息，即为能够标识所述语料产品的关键特征。

比如，通过对上述提取出操作，得到的关键词为“听”、“英文的”、“小王子”，则根据关键词“听”可以确定用户需要的语料产品应该是音频资料，根据关键词“英文的”可以确定所述语料产品需要是英文版本，根据关键词“小王子”可以确定所述语料产品所属类型是童话故事类。

应当理解的是，在实际应用中，为了便于根据关键词确定语料产品对应的特征信息，可以预先构建不同关键词与不同语料产品的特征之间的对应关系，然后根据预先构建的映射关系来确定。

应当理解的是，以上给出的仅为举例说明，对本发明的技术方案并不构成任何限定，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

步骤S40，根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息。

具体的说，本实施例中所说的语料库为预先构建的，能够存储文本、图片、音频、视频等多种类型的语料信息的语料库。

此外，为了保证能够根据确定的特征信息，在所述语料库中进行多维度的查询，即多个特征的查询。本实施例中构建的语料库是以ElasticSearch(一个基于全文搜索引擎的搜索服务器，简称ES)为核心，辅以MongDB(一个基于分布式文件存储的数据库)和MySql(一个关系型数据库管理***)组成的。

具体的说，在ES中，以从各大数据平台收集到的语料信息的识别号(以下称为：ID)的后三位作为index(索引)，语料信息的ID作为type(类型)，并在数据表中创建语料名称、语料描述、语料标签、语言方向、价格、销量等多个索引名称。

接着，将具体的语料信息采用MongoDB存储，并建立ES的索引和MongoDB中每一个语料信息的对应关系。

同时，将语料信息的原数据信息(即没有经过上述分类、添加标签等任何处理操作)存储到MySql中，并与ES中的索引信息一一对应。

从而在根据确定的特征信息，从语料库中查询语料信息时，直接将上述特征信息中的特征带入，利用ES的DSL(一种通用的大数据查询语言DSL(domain-specificlanguages)，用于实现海量机器数据的检索分析)语言编写的查询语句中。

比如，模糊检索matchQuery(…)，前缀检索prefixQuery(…)，filter像termFilter，wizardFilter等。

比如以，以确定的需要查询的语料产品的主题名称“小王子”为查询信息时，从语料库中查询出的语料信息可以是任意语言版本、任意多媒体格式的与“小王子”有关的语料信息。

步骤S50，根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品，将所述语料产品推送给所述用户。

具体的说，在实际应用中，获得具备所述特征信息中全部特征的语料产品的操作，大致可以通过以下几个子步骤实现：

首先，根据各语料信息对应的特征，筛选出具备特征最多的语料信息，将该语料信息作为初始语料产品；

然后，根据所述特征信息和所述初始语料产品对应的特征，确定待集成特征；

接着，从除所述初始语料产品之外的语料信息中提取所述待集成特征对应的语料信息；

最后，将提取到的语料信息与所述初始语料产品进行组合，得到具备所述特征信息中全部特征的语料产品。

为了便于理解，上述几个步骤，以下进行举例说明：

比如说，在从语料库中直接查询到的语料信息没有具备上述全部特征信息的，查询出的具备特征最多的语料信息为仅有音频信息的英文小王子语音，还有中文版本的小王子文字小说。

则进行的处理具体可以是，对中文版本的小王子文字小说进行语言转换，到的对应的英文版本；

接着，将英文小王子的音频信息与英文版本的文字小说结合，并进行校准，使得播放的音频内容与英文版本的文字小说可以同步播放，并且为了方便用户查看，在进行语音播放的过程中，可以将对应的文字进行高亮标注。

需要说明的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定。

此外，值得一提的是，在将多种格式的语料信息进行组合出了，得到所述用户需要的语料产品时，可以选用Tika(Apache推出的一款用于提取文档内容的公具)，利用现有的解析类库，从不同格式的文档中(例如HTML、PDF、Doc)，侦测和提取出元数据和结构化内容。

通过上述描述不难发现，本实施例提供的语料产品的推荐方法，通过从用户触发的语料产品查询请求中提取用户提供的语料产品查询需求，进而根据从语料产品查询需求中提取到的N个关键词来确定用户需要的语料产品对应的特征信息，然后根据确定的特征信息，从语料库中查找出符合确定的特征信息中任一特征的语料信息，最终根据确定特征信息和查询出的各语料信息对应的特征，对查询出的语料进行处理，便可得到具备上述特征信息的语料产品，从而使得最终筛选出的语料信息为满足用户实际需求的语料信息，进而大大提高了语料产品的推荐准确率。

此外，值得一提的是，在实际应用中，根据用户提供的语料产品查询需求生成的语料产品可能需要收费，因而在为用户推荐得到的语料产品时，可以先判断一下所述语料产品是否需要收费。

相应地，若确定所述语料产品不需要收费，则直接将所述语料产品推送给所述用户；若确定所语料产品需要收费，则可以先向所述用户下发收费通知，然后监控用户做出的反馈，若接收到所述用户做出的同意扣费的指令，则先从所述用户预设的付费账号中扣除所述语料产品需要的费用，然后将所述语料产品推送给所述用户。

通过上述操作方式，使得用户可以根据实际情况，确定是否需要付费获取所述语料产品，在保证语料产品推荐准确率的同时，也大大提升了用户体验。

进一步地，为了更好的提升用户体验，在用户反馈的指令为不同意扣费时，为了尽可能的保住使用语料库的用户量，避免用户流失，可以向用户推荐免费获取所述语料产品的方式，比如将语料库的相关信息分享到预设个数的聊天群组或者邀请预设个数的新用户等，从而即避免了用户的流失，又可以达到对语料库的推广。

此外，为了更好的维护和管理语料库中的语料信息，进而使得根据语料库中的语料信息合成的语料成品能够更好的贴合用户需求，在将所述语料产品推送给所述用户之后，还可以进一步接收所述用户提交的反馈信息，进而根据所述反馈信息对所述语料库中的语料信息进行维护和管理。

参考图4，图4为本发明一种语料产品的推荐方法第二实施例的流程示意图。

基于上述第一实施例，本实施例语料产品的推荐方法在步骤S40之前，还包括：

步骤S00，检测所述特征信息中是否包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征。若通过检测，确定所述特征信息中包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征，则执行步骤S40；否则，执行步骤S01。

步骤S01，获取预设周期内所述用户的历史查询记录，根据所述历史查询记录和所述N个关键词确定所述特征信息。

关于步骤S01中所说的操作，在实际应用中，具体可以通过以下几个子步骤实现：

(1)获取预设周期内所述用户的历史查询记录。

具体的说，上述所说的历史查询记录，主要记录了所述用户之前(比如近一月)查询的语料产品的类型、特征信息等，因而根据历史查询记录，便可以确定用户的喜好。

此外，本实施例中通过限定获取的历史查询记录为预设周期内容，比如最近一周，从而可以使得获取到的历史查询记录中的信息更具参考价值。

(2)利用大数据分析技术，对所述历史查询记录进行分析，确定所述用户的当前时刻的查询需求。

具体的说，此处使用大数据分技术对所述历史查询记录的分析，具体是通过统计所述历史查询记录中，哪些关键词的使用频率较高，用户近期经常搜索的语料产品所属的类别、语料产品的语言格式以及多媒体格式。

(3)将所述当前时刻的查询需求作为第一要素，将所述N个关键词作为第二要素。

(4)根据所述第一要素和所述第二要素，确定标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征。

进一步地，在实际应用中，为了使得最终确定的语料产品的特征信息更加准确，即根据确定的特征信息推荐给用户的语料产品更加符合用户需求，在获取历史查询记录的时候，还可以获取所述用户的生物特征信息，优选为人脸特征信息和声纹特征信息，这样通过所述生物特征信息的分析，便可以确定所述用户的性别，以及大致年龄，这样就可以筛选出这一年龄区间该性别的用户关注的内容，使得最终推荐给用户的语料产品更加符合用户需求。

需要说明的是，由于在实际应用中，大部分用户在使用语料库时，并不会填写完善的个人信息，因而往往不能从个人信息中获取到用户的实际年龄、性别等，而本实施例直接根据用户的生物特征信息来确定上述信息，不仅可以得到相对精准的上述信息，也可以大大方便用户使用。

进一步地，在实际应用中，为了方便且快速准确的，根据获取到的生物特征信息确定所述用户的年龄和性别，在可以预先利用大数据分析技术，辅以机器学习算法，构建一个大数据分析模型。然后，在获取到所述生物特征信息后，直接将获取到的所述生物特征信息输入到所述分析模型中，便可以获得所述用户的年龄和性别。

关于所述大数据分析模型的构建，大致可以如下：

首先，从各大数据平台获取已知性别和年龄的用户的生物特征信息；

然后，将所述已知性别和年龄的生物特征信息作为样本数据，输入到大数据分析训练模型中进行训练，直到在输入训练好的样本数据后，可以精确的输出所述样本数据对应的用户的年龄和性别为止，便可完成训练。

相应地，此刻的大数据分析训练模型便是需要的大数据分析模型了。

此外，在实际应用中，选取的机器学习算法，优选卷积神经网络算法。

由于卷积神经网络算法以及较为成熟，在具体实现中，本领域的技术人员可以自行查看卷积神经网络算法的相关资料，此处不再赘述。

比如说，在所述用户提供的语料产品查询需求仅仅为“小说”两个字时，若利用大数据分析技术对所述用户的生物特征信息进行分析后，确定所述用户是一名年龄在30岁左右的女性。

此外，根据获取到的所述用户的历史查询记录，发现所述用户经常查询玄幻类型的动漫小说。

因而，根据上述信息可以确定，所述用户需要查询的语料产品是一款适合30岁左右的女性阅读的玄幻类型的动漫小说。

相应地，确定的特征信息可以是：30岁、女性、玄幻、动漫、小说。

需要说明的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体实现中，本领域的技术人员可以根据需要进行设置，此处不再赘述。

通过上述描述不难发现，本实施例提供的语料产品的推荐方法，在根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息之前，通过检测所述特征信息是否包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征，进而确定是根据最开始确定的特征信息进行语料信息的查找操作，还是重新获取参数信息确定上述特征，然后在进行语料信息的查找操作，从而有效保障了用于进行语料信息查找的特征信息的精确性，使得后续得到的语料产品能够更加符合用户实际需求。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语料产品的推荐程序，所述语料产品的推荐程序被处理器执行时实现如上文所述的语料产品的推荐方法的步骤。

参照图5，图5为本发明语料产品的推荐装置第一实施例的结构框图。

如图5所示，本发明实施例提出的语料产品的推荐装置包括：获取模块5001、提取模块5002、确定模块5003、查找模块5004和生成模块5005。

其中，所述获取模块5001，用于接收用户触发的语料产品查询请求，根据所述语料产品查询请求获取所述用户提供的语料产品查询需求；提取模块5002，用于对所述语料产品查询需求进行关键词提取处理，得到N个关键词，N为大于等于1的整数；所述确定模块5003，用于根据所述N个关键词，确定所述用户需要的语料产品对应的特征信息；所述查找模块5004，用于根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息；所述生成模块5005，用于根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品，将所述语料产品推送给所述用户。

为了便于理解所述提取模块5002在从所述语料产品查询请求中提取关键词的的操作，以下给出一种具体的实现方式，大致如下：

首先，对所述语料产品查询需求进行分词和词性标注处理，得到M个词；

然后，根据预设的词性权重分配标准，计算所述M个词中每一个词的权重值；

最后，对所述N个词进行遍历，将遍历到的当前词的权重值与预设的权重阈值进行比较，过滤出权重值大于所述权重阈值的词，得到所述N个关键词。

应当理解的是，在实际应用中M应该为小于等于N的整数。

此外，值得一提的是，由于在实际应用中，所述用户提供的语料产品查询需求会因其触发的语料产品查询请求对应的操作按键不同，格式而有所不同，因此为了保证所述提取模块5002能够顺利的对所述语料产品查询需求进行分词和词性标注出来，得到M个词，所述提取模块5002在执行上述操作之前，还用于：确定所述语料产品查询需求的格式。

相应地，若确定所述语料产品查询需求为语音格式，则利用语音识别技术，将语音格式的语料产品查询需求转换为文本格式的语料产品查询需求；若确定所述语料产品查询需求为图片格式，则利用光学字符识别技术，将图片格式的语料产品查询需求转换为文本格式的语料产品查询需求。

相应地，为了便于理解上述对所述语料产品查询需求进行分词和词性标注处理，得到M个词的操作，本实施例给出一种具体的实现方式，大致如下：

根据预设的词性标准信息，对所述M个词进行词性标注。

应当理解的是，以上给出的仅为一种具体的实现方式，对本发明的技术方案并不构成任何限定，在实际应用中，本领域的技术人员可以根据需要进行设置，此处不做限制。

此外，为了便于理解所述生成模块5005生成用户需要的语料产品的操作，以下给出一种具体的实现方式，大致如下：

应当理解的是，以上给出的仅为一种具体的实现方式，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

通过上述描述不难发现，本实施例提供的语料产品的推荐装置，通过从用户触发的语料产品查询请求中提取用户提供的语料产品查询需求，进而根据从语料产品查询需求中提取到的N个关键词来确定用户需要的语料产品对应的特征信息，然后根据确定的特征信息，从语料库中查找出符合确定的特征信息中任一特征的语料信息，最终根据确定特征信息和查询出的各语料信息对应的特征，对查询出的语料进行处理，便可得到具备上述特征信息的语料产品，从而使得最终筛选出的语料信息为满足用户实际需求的语料信息，进而大大提高了语料产品的推荐准确率。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的语料产品的推荐方法，此处不再赘述。

基于上述语料产品的推荐装置的第一实施例，提出本发明语料产品的推荐装置第二实施例。

在本实施例中，所述语料产品的推荐装置还包括：检测模块。

其中，所述检测模块，用于检测所述特征信息中是否包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征。

相应地，若通过检测，确定所述特征信息中包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征，则触发所述查找模块执行根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息的操作。

否则(不包含上述任一特征或任意几个特征)，则触发所述查找模块执行如下步骤：

首先，获取预设周期内所述用户的历史查询记录；

然后，利用大数据分析技术，对所述历史查询记录进行分析，确定所述用户的当前时刻的查询需求；

接着，将所述当前时刻的查询需求作为第一要素，将所述N个关键词作为第二要素；

最后，根据所述第一要素和所述第二要素，确定标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

通过上述描述不难发现，本实施例提供的语料产品的推荐装置，在根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息之前，通过检测所述特征信息是否包含有标识所述语料产品所属类别、标识所述语料产品语言格式、标识所述语料产品多媒体风格的特征，进而确定是根据最开始确定的特征信息进行语料信息的查找操作，还是重新获取参数信息确定上述特征，然后在进行语料信息的查找操作，从而有效保障了用于进行语料信息查找的特征信息的精确性，使得后续得到的语料产品能够更加符合用户实际需求。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语料产品的推荐方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对所述语料产品查询需求进行关键词提取处理，得到N个关键词的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述语料产品查询需求进行分词和词性标注处理，得到M个词的步骤之前，所述方法还包括：

确定所述语料产品查询需求的格式；

根据预设的词性标准信息，对所述M个词进行词性标注。

4.如权利要求2所述的方法，其特征在于，所述根据所述特征信息，从语料库中查找符合所述特征信息中任一特征的语料信息的步骤之前，所述方法还包括：

否则，则执行步骤：

获取预设周期内所述用户的历史查询记录；

5.如权利要求1至4任一项所述的方法，其特征在于，所述根据所述特征信息和各语料信息对应的特征，对各语料信息进行处理，得到具备所述特征信息中全部特征的语料产品的步骤，包括：

6.如权利要求1至4任一项所述的方法，其特征在于，所述将所述语料产品推送给所述用户的步骤之前，所述方法还包括：

判断所述语料产品是否需要收费；

7.如权利要求1至4任一项所述的方法，其特征在于，所述将所述语料产品推送给所述用户的步骤之后，所述方法还包括：

8.一种语料产品的推荐装置，其特征在于，所述装置包括：

9.一种语料产品的推荐设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语料产品的推荐程序，所述语料产品的推荐程序配置为实现如权利要求1至7中任一项所述的语料产品的推荐方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语料产品的推荐程序，所述语料产品的推荐程序被处理器执行时实现如权利要求1至7任一项所述的语料产品的推荐方法的步骤。