发明内容
为了解决上述方案存在的问题,本发明提供了一种基于大数据的信息检索分析***。本发明能够根据检索优先值依次对对应存储端中存储的学习资源进行检索,能够避免信息在大存储量的原始资源数据库中进行同步交互,降低原始资源数据库的数据检索压力,提升检索效率,避免检索资源浪费。
本发明的目的可以通过以下技术方案实现:
一种基于大数据的信息检索分析***,包括数据采集模块、信息输入模块、分析模块、信息接收模块、浏览模块以及评价模块;
所述数据采集模块用于采集教育平台的学习资源信息,以形成原始资源数据库,所述原始资源数据库包括若干个存储端;
所述信息输入模块用于用户登录,输入检索信息并将输入的检索信息发送至信息检索模块;当用户通过信息输入模块输入检索信息时,所述分析模块用于对用户的登录账号进行跟踪,对其历史检索记录进行统计分析,得到此次检索的存储端序列表,并将其反馈至信息检索模块;
所述信息检索模块接收到存储端序列表后,结合当前用户输入的检索信息依次对对应存储端中存储的学习资源进行检索;
所述信息接收模块用于接收信息检索模块的检索结果并进行审核过滤后,将对应的检索结果推送至用户终端;所述浏览模块用于用户终端选中检索结果进行查阅,直至找到目标数据,并将目标数据反馈至信息检索模块;在用户退出登录时,所述评价模块用于用户对学习资源的检索服务进行评价。
进一步地,所述分析模块的具体分析步骤为:
当用户输入检索信息时,对用户的登录账号进行跟踪,采集其最近三个月的检索记录;所述检索记录携带有对应的目标数据;
获取每个目标数据所在的存储端,统计同一存储端的出现次数以及同一存储端中的目标数据的浏览总时间;计算得到该存储端的检索吸引值Gi;
获取与当前检索信息相匹配的历史检索信息所反馈的所有检索结果;统计对应检索结果在各个存储端的分布比例并标记为存储端占比Zi;
利用公式
计算得到该存储端在此次检索中的检索优先值JSi,按照检索优先值JSi大小对存储端进行排序,得到此次检索的存储端序列表。
进一步地,所述信息接收模块的具体审核过滤步骤为:
S1:获取该检索信息的若干个检索结果;提取各个检索结果对应的学习资源的原始关键词,对所述原始关键词进行数据清洗得到学习关键词;
S2:然后将所述学习关键词保存成特定的数据格式作为关键信息进行存储,建立学习资源的关键信息编码表;
S3:对任意两个检索结果对应的关键信息编码表进行覆盖率分析,过滤得到代表检索结果;
S4:对代表检索结果作访问值分析,选取访问值排名前W1的代表检索结果反馈至用户终端,其中W1为预设值。
进一步地,其中,所述原始关键词为学习资源对应文本中出现频次超过设定阈值的关键词;对所述原始关键词进行数据清洗的具体过程为:将含义相同或者相似关键词进行统一,并将无实际分析意义的关键词剔除。
进一步地,其中,覆盖率表示为:两个关键信息编码表中相同编码的数量占比;数量占比=相同编码数量/编码数量计算值,编码数量计算值取两个编码表编码总数中的最小值。
进一步地,步骤S3中过滤得到代表检索结果,具体包括:
若覆盖率超过γ%,则将编码数量多的检索结果作为代表检索结果,并剔除另一个检索结果;若覆盖率不超过γ%,则将这两个检索结果均作为代表检索结果;再将代表检索结果与其它检索结果进行覆盖率分析,以此类推,其中γ为预设值。
进一步地,所述评价模块的具体工作步骤如下:
将用户的服务评分标记为Qs,获取用户找到目标数据之前查阅的代表检索结果数量并标记为Cs;将用户输入检索信息的时刻与反馈目标数据的时刻进行时间差计算得到检索时长GT;
利用公式QR=(Qs×r1)/(Cs×r2+GT×r3)计算得到用户的检索满意值QR,其中r1、r2、r3为系数因子;所述评价模块用于检索满意值QR打上时间戳存储到存储模块,并将检索满意值QR传输到显示模块进行实时显示。
进一步地,所述原始资源数据库用于提取所存储的每个学习资源信息的发布时间信息,并将存储的学习资源信息按照多个时间段进行归类处理;各存储端与各类学习资源信息一一对应,用于存储对应类的学习资源信息。
与现有技术相比,本发明的有益效果是:
1、本发明中当用户通过信息输入模块输入检索信息时,所述分析模块用于对用户的登录账号进行跟踪,对其历史检索记录进行统计分析,生成对应的存储端序列表,本发明能够根据检索优先值依次对对应存储端中存储的学习资源进行检索,能够避免信息在大存储量的原始资源数据库中进行同步交互,降低原始资源数据库的数据检索压力,提升检索效率,避免检索资源浪费;
2、信息接收模块用于接收信息检索模块的检索结果并进行审核过滤,首先对任意两个检索结果对应的关键信息编码表进行覆盖率分析,针对同源的检索结果进行删选,选取编码数量多的检索结果作为代表检索结果,既能减少选择项,又使得用户能够得到内容更丰富、全面的学习资源,避免用户在相似的学习资源上花费时间精力,提高检索效率;
3、在用户退出登录时,所述评价模块用于用户对学习资源的检索服务进行评价,结合用户的服务评分、用户找到目标数据之前查阅的代表检索结果数量以及检索时长,计算得到用户的检索满意值并将检索满意值传输到显示模块进行实时显示,便于管理员直观了解。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于大数据的信息检索分析***,包括数据采集模块、原始资源数据库、信息输入模块、信息检索模块、分析模块、信息接收模块、浏览模块、评价模块、存储模块以及显示模块;
数据采集模块用于采集教育平台的学习资源信息,以形成原始资源数据库,原始资源数据库用于提取所存储的每个学习资源信息的发布时间信息,并将存储的学习资源信息按照多个时间段进行归类处理;
原始资源数据库包括若干个存储端,各存储端与各类学习资源信息一一对应,各存储端用于存储对应类的学习资源信息;
信息输入模块用于用户登录,输入检索信息并将输入的检索信息发送至信息检索模块;信息检索模块用于根据检索信息对学习资源进行检索;其中检索信息包括检索关键词或关键字;
信息输入模块与分析模块相连接,当用户通过信息输入模块输入检索信息时,分析模块用于对用户的登录账号进行跟踪,对其历史检索记录进行统计分析,得到此次检索的存储端序列表,具体分析步骤为:
第一步:当用户输入检索信息时,对用户的登录账号进行跟踪,采集其最近三个月的检索记录;检索记录包括输入的检索信息和对应的目标数据;其中一个检索信息对应一个或多个检索结果,用户从中选择需要的检索项,即目标数据;
第二步:获取每个目标数据所在的存储端,按照存储端统计同一存储端的出现次数并标记为存储端频次Pi;其中i表示第i个存储端;
将同一存储端中的每个目标数据的浏览时间累加形成存储端总时长Ti;将存储端频次、存储端总时长进行归一化处理并取其数值;
利用公式Gi=Pi×a1+Ti×a2计算得到该存储端的检索吸引值Gi,其中a1、a2为系数因子;
第三步:对检索信息进行划分,将此次输入的检索信息与历史输入的检索信息进行匹配,若关键词或关键字的重合度超过μ%,则匹配成功;其中μ为预设值,取值95;
获取与当前检索信息相匹配的历史检索信息反馈的所有检索结果;根据检索结果所属的存储端统计对应检索结果在各个存储端的分布比例并标记为存储端占比Zi;其中Zi与Gi一一对应;
第四步:将检索吸引值、存储端占比进行归一化处理并取其数值;
利用公式
计算得到该存储端在此次检索中的检索优先值JSi,其中f1和f1为预设系数因子,η为固定值;
按照检索优先值JSi大小对存储端进行排序,得到此次检索的存储端序列表;
分析模块用于将此次检索的存储端序列表反馈至信息检索模块,信息检索模块接收到存储端序列表后,结合当前用户输入的检索信息依次对对应存储端中存储的学习资源进行检索;
本发明能够根据检索优先值JSi依次对对应存储端中存储的学习资源进行检索,能够避免信息在大存储量的原始资源数据库中进行同步交互,降低原始资源数据库的数据检索压力,提升检索效率,避免检索资源浪费;
信息接收模块用于接收信息检索模块的检索结果并进行审核过滤后,将对应的检索结果推送至用户终端;具体审核过滤步骤为:
S1:获取该检索信息的若干个检索结果;提取各个检索结果对应的学习资源的原始关键词,对原始关键词进行数据清洗得到学习关键词;
其中,原始关键词为学习资源对应文本中出现频次超过设定阈值的关键词;对原始关键词进行数据清洗的具体过程为:将含义相同或者相似关键词进行统一,并将无实际分析意义的关键词剔除;
S2:然后将学习关键词保存成特定的数据格式作为关键信息进行存储,建立学习资源的关键信息编码表,关键信息中的每个学习关键词分别对应一个二进制编码;
S3:对任意两个检索结果对应的关键信息编码表进行覆盖率分析,若覆盖率超过γ%,则认为这两个检索结果为同源的检索结果,其中γ为预设值,取值97;
对于同源的检索结果,统计每个检索结果对应的关键信息编码表中的编码数量,选取编码数量多的检索结果作为代表检索结果,并剔除另一个检索结果;若覆盖率不超过γ%,则将这两个检索结果均作为代表检索结果;再将代表检索结果与其它检索结果进行覆盖率分析,以此类推;
其中覆盖率表示为:两个关键信息编码表中相同编码的数量占比;其中数量占比=相同编码数量/编码数量计算值,编码数量计算值取两个编码表中编码总数较低值;
本发明通过信息接收模块针对同源的检索结果进行审核过滤,使得用户能够得到内容更丰富、全面的学习资源,又能减少选择项,避免用户在相似的学习资源上花费时间精力,提高检索效率;
S4:获取经过步骤S3处理后的代表检索结果,对代表检索结果作访问值分析;按照访问值大小对代表检索结果进行排序,选取排名前W1的代表检索结果反馈至用户终端,使推送结果更准确,提高检索效率;其中W1为预设值;
其中,访问值的获取方法为:
S31:采集***当前时间前十天内代表检索结果的访问信息;访问信息包括访问对象和访问时间;
S32:根据访问对象统计同一代表检索结果的访问人数并标记为R1;
将代表检索结果的访问时间按照时间先后进行排序,将相邻的访问时间进行时间差计算得到单次访问间隔;
将所有的单次访问间隔进行求和并取均值得到访问间隔均值Gz;
将最近一次的访问时间与***当前时间进行时间差计算得到缓冲时长HT;将访问人数、访问间隔均值、缓冲时长进行归一化处理并取其数值;
利用公式FW=(R1×b1)/(Gz×b2+HT×b3)计算得到代表检索结果的访问值FW,其中b1、b2、b3均为系数因子;
浏览模块用于用户终端选中检索结果进行查阅,直至找到目标数据;并将目标数据反馈至信息检索模块;
在用户退出登录时,评价模块用于用户对学习资源的检索服务进行评价,评价规则为:给检索服务评分,满分为100分;评价模块的具体工作步骤如下:
将用户的服务评分标记为Qs,获取用户找到目标数据之前查阅的代表检索结果数量并标记为Cs;
将用户输入检索信息的时刻与反馈目标数据的时刻进行时间差计算得到检索时长GT;
将服务评分、代表检索结果数量、检索时长进行归一化处理并取其数值;利用公式QR=(Qs×r1)/(Cs×r2+GT×r3)计算得到用户的检索满意值QR,其中r1、r2、r3为系数因子;其中Cs越小、GT越小,则表示用户越快找到目标数据,检索效率越高,则用户的检索满意值越高;
评价模块用于检索满意值QR打上时间戳存储到存储模块,并将检索满意值QR传输到显示模块进行实时显示,本发明对检索分析***形成一个有效评价,便于管理员直观了解。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
本发明的工作原理:
一种基于大数据的信息检索分析***,在工作时,当用户通过信息输入模块输入检索信息时,分析模块用于对用户的登录账号进行跟踪,对其历史检索记录进行统计分析,根据目标数据的存储端分布,得到存储端的检索吸引值,再对检索信息进行划分,获取对应检索信息的历史检索结果,得到对应检索结果在各个存储端的分布比例,结合检索吸引值和存储端占比得到存储端在此次检索中的检索优先值,生成对应的存储端序列表,信息检索模块接收到存储端序列表后,结合当前用户输入的检索信息依次对对应存储端中存储的学习资源进行检索;
信息接收模块用于接收信息检索模块的检索结果并进行审核过滤后,将对应的检索结果推送至用户终端,首先提取各个检索结果对应的学习资源的原始关键词,对原始关键词进行数据清洗得到学习关键词;然后将学习关键词保存成特定的数据格式作为关键信息进行存储,建立学习资源的关键信息编码表;对任意两个检索结果对应的关键信息编码表进行覆盖率分析,得到代表检索结果;然后对代表检索结果作访问值分析;按照访问值大小对代表检索结果进行排序,选取排名前W1的代表检索结果反馈至用户终端;
浏览模块用于用户终端选中检索结果进行查阅,直至找到目标数据;并将目标数据反馈至信息检索模块;在用户退出登录时,评价模块用于用户对学习资源的检索服务进行评价,结合用户的服务评分、用户找到目标数据之前查阅的代表检索结果数量以及检索时长,计算得到用户的检索满意值并将检索满意值传输到显示模块进行实时显示,便于管理员直观了解。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。