CN107577690A - 海量信息数据的推荐方法及推荐装置 - Google Patents

海量信息数据的推荐方法及推荐装置 Download PDF

Info

Publication number
CN107577690A
CN107577690A CN201710346631.2A CN201710346631A CN107577690A CN 107577690 A CN107577690 A CN 107577690A CN 201710346631 A CN201710346631 A CN 201710346631A CN 107577690 A CN107577690 A CN 107577690A
Authority
CN
China
Prior art keywords
user
cluster
metadata
template
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710346631.2A
Other languages
English (en)
Other versions
CN107577690B (zh
Inventor
白鹤
侯斌
刘东海
杨帆
颜斯泰
罗亚林
王云福
涂红兵
戴伟琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen China Guangdong Nuclear Engineering Design Co Ltd
Original Assignee
China General Nuclear Power Corp
China Nuclear Power Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Nuclear Power Engineering Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201710346631.2A priority Critical patent/CN107577690B/zh
Publication of CN107577690A publication Critical patent/CN107577690A/zh
Application granted granted Critical
Publication of CN107577690B publication Critical patent/CN107577690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息处理技术领域,提供了一种海量信息数据的推荐方法及推荐装置。该推荐方法包括:从企业内容管理***ECM中获取元数据信息;根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;根据用户的相关信息,获取所述用户的静态属性空间;根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;根据海量数据非结构化文档的文本分析,形成文本索引;根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。通过本发明有效解决了用户无法及时有效的获得所需信息的问题。

Description

海量信息数据的推荐方法及推荐装置
技术领域
本发明属于信息处理技术领域,尤其涉及一种海量信息数据的推荐方法及 推荐装置。
背景技术
核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤 其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如AP1000、 EPR三代核电技术)转让资料。由于技术资料大部分是以半结构化存储在企业 内容管理平台(EnterpriseContent Management,ECM)中,信息量庞大,技 术人员无法及时获得相关知识更新。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
鉴于此,本发明实施例提供一种海量信息数据的推荐方法及推荐装置,旨 在解决用户无法及时有效的获得所需信息的问题。
本发明实施例的第一方面,提供一种海量信息数据的推荐方法,所述推荐 方法包括:
从企业内容管理***ECM中获取元数据信息;
根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;
根据用户的相关信息,获取所述用户的静态属性空间;
根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海 量数据模板;
监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在 预设时间内的关注词;
根据海量数据非结构化文档的文本分析,形成文本索引;
根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数 据模板,查找所要推荐的内容。
本发明实施例的第一方面,提供一种海量信息数据的推荐装置,所述推荐 装置包括:
元数据信息获取模块,用于从企业内容管理***ECM中获取元数据信息;
元数据聚集模板生成模块,用于根据所述元数据信息的元数据集样本空间, 生成元数据聚类模板;
静态属性空间获取模块,用于根据用户的相关信息,获取所述用户的静态 属性空间;
静态海量数据模板获取模块,用于根据所述用户的静态属性空间和所述元 数据聚类模板,获取相应的静态海量数据模板;
关注词获取模块,用于监控所述用户的行为日志,并根据所述用户的行为 日志,获取所述用户在预设时间内的关注词;
文本索引形成模块,用于根据海量数据非结构化文档的文本分析,形成文 本索引;
推荐内容查找模块,用于根据所述文本索引、所述用户在预设时间内的关 注词以及所述静态海量数据模板,查找所要推荐的内容。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例根据用户 的静态属性空间和元数据聚类模板,获取相应的静态海量数据模板,监控用户 的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注 词,根据海量数据非结构化文档的文本分析,形成文本索引,从而可以根据所 述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,快 速地查找所要推荐的内容。通过本发明实施例可以将静态信息与动态数据相结 合,快速地完成核电专业技术人员的数据知识推送,从而保证专业技术人员及 时有效的获得精准匹配的有效信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的海量信息数据的推送方法的实现流程图;
图2是本发明实施例二提供的海量信息数据的推送方法的实现流程图;
图3是本发明实施例三提供的海量信息数据的推送装置的组成示意图;
图4是本发明实施例四提供的海量信息数据的推送装置的组成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
本发明实现了半结构化海量核电信息推荐***,一方面利用知识本体的概念 对技术信息结构化元数据进行专业聚类分析,并结合核电专业人员技术背景及 归纳偏好,通过海量数据学习分析算法获得假设空间内的静态海量数据模板。 另一方面根据海量数据非结构化文档的文本分析,形成文本索引,并与核电专 业人员动态需求结合,在静态海量数据模板内进行数据的索引检索,最终实现 静态信息与动态数据的利用与结合,完成核电专业人员的数据知识推荐。
本发明实现了海量的半结构化核电技术文档的静态数据(包括元数据与文 本)与核电专业人员需求(包括静态知识背景与动态需求)的海量数据匹配处 理方法。包括可配置的核电技术文档基础信息约束及核电专业技术人员背景分 析与识别技术;结构化元数据聚类模板及静态海量数据模板建立方法;并结合 动态日志抓取分析技术与文本分析技术;利用倒排索引技术对文本匹配进行加 权排序算法;集成静态信息与动态需求的核电专业知识信息推荐功能方案。通 过以上技术方法满足企业知识管理的信息传播与再造要求,保证专业技术人员 及时有效的获得精准匹配的有效信息。
实施例一:
图1示出了本发明实施例一提供的海量信息数据的推荐方法的实现流程, 所述实现流程详述如下:
步骤S101,从企业内容管理***ECM中获取元数据信息。
在本发明实施例中,所述企业内容管理***ECM可以为核电企业内容管理 ***,所述ECM中包含有大量的企业内容,包括但不限于元数据信息、非结构 化文件文本内容、***访问及检索相关日志以及人员信息。
步骤S102,根据所述元数据信息的元数据集样本空间,生成元数据聚类模 板。
具体的,将复杂的元数据结构进行简化,生成元数据聚类模板,即通过聚 类方法,将结构化元数据所代表的内容进行分类,提取核心元数据结构。
步骤S103,根据用户的相关信息,获取所述用户的静态属性空间。
具体地,根据技术人员背景,如专业、部门、参与项目、阶段、职位等相 关信息得出专业人员静态属性空间,并将每位技术人员的静态属性空间记录下 来。
步骤S104,根据所述用户的静态属性空间和所述元数据聚类模板,获取相 应的静态海量数据模板。
具体的,根据步骤S102中元数据聚类模板所得的核电技术知识聚类与步骤 S103所得的专业人员背景分析数据,将二者结合,获得静态海量数据模板。
步骤S105,监控所述用户的行为日志,并根据所述用户的行为日志,获取 所述用户在预设时间内的关注词。
具体的,需要对用户的关注点进行分析,分析的方法为基于时序的用户行为 日志监控与记录,进而对日志数据进行用户行为及期望的挖掘。
首先收集***记录的用户检索、阅览及关注的内容。其次根据每次检索内 容分解为若干的关键词,将用户检索内容按时间因子(时序)对关注内容单元 的频率及次数进行记录,最终形成用户近期热门关注词。
步骤S106,根据海量数据非结构化文档的文本分析,形成文本索引。
具体的,首先从文本集中获取信息,根据核电词典对文本进行分析与预处 理,将其中的词汇进行筛选与识别,根据停用词表去掉无用词。特征抽取根据 词在文本集中的词频,词在文本集各文本出现的次数占文本数的比例对文本集 中的词加权排序,即在词典中的词汇具有较高权值。按特征词顺序选出由多少 词组成特征向量,并通过MapReduce算法对海量文本进行索引,并给出文档的 特征结果与摘要。
步骤S107,根据所述文本索引、所述用户在预设时间内的关注词以及所述 静态海量数据模板,查找所要推荐的内容。
具体的,动态索引检索建立在静态数据空间模型算法下的样本空间与非结 构化文本的索引基础之上,通过索引排序,选择最终推荐的知识信息。
通过本发明实施例可以将静态信息与动态数据相结合,快速地完成核电专 业技术人员的数据知识推送,从而保证专业技术人员及时有效的获得精准匹配 的有效信息。
实施例二:
图2示出了本发明实施例二提供的海量信息数据的推荐方法的实现流程, 所述实现流程详述如下:
步骤S201,从企业内容管理***ECM中获取元数据信息。
该步骤与步骤S101相同,具体可参见步骤S101的相关描述,在此不再赘 述。
步骤S202,根据所述元数据信息的元数据集样本空间,生成元数据聚类模 板。
该步骤与步骤S102相同,具体可参见步骤S102的相关描述,在此不再赘 述。
可选的,所述根据所述元数据信息的元数据集样本空间,生成元数据聚类 模板包括:
步骤一,从所述元数据集样本空间中任意选择K个对象作为初始的簇中心, 其中,K为大于零的整数,其中一个簇对象对应一类技术文档;
步骤二,计算所述元数据集样本空间中所有对象与K个簇中心的相似度, 并将所述所有对象中每个对象归类于与该对象相似度最高的簇;
步骤三,根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算 K个簇中心;
步骤四,若重新计算的K个簇中心中任一簇中心发生改变,则重新计算所 述所有对象与所述重新计算的K个簇中心的相似度,并将所述所有对象中每个 对象归类于与该对应相似度最高的簇,形成新的簇对象;
步骤五,重复步骤三和四,直到K个簇中心不再发生改变,该K个簇中心 形成所述元数据聚类模板。
元数据属性集空间由可以由多个维度独立属性集汇集而成。在元数据集样 本空间内任意选择K个对象作为初始的簇的中心(可取大于等于专业技术分工 总数),计算各对象与K个簇中心的相似度,将各对象归于最相似的簇,对簇 内对象计算出新的平均值(中心);再计算各对象与新的K个簇中心的相似度, 再根据各对象与新的簇平均值相似度,将每个对象重新赋给最类似的簇,形成 新的簇对象;再更新簇的平均值,即计算每个对象的平均值,直到不再发生变, 最终形成元数据聚类模板。
需要说明的是,所述静态海量数据模板包含多个簇对象,每个簇对象中包 含着具有相同技术特点的知识内容,即一个簇对象为一类技术文档。
步骤S203,根据用户的相关信息,获取所述用户的静态属性空间。
该步骤与步骤S103相同,具体可参见步骤S103的相关描述,在此不再赘 述。
步骤S204,根据所述用户的静态属性空间和所述元数据聚类模板,获取相 应的静态海量数据模板。
所述用户的静态属性空间与所述元数据聚类模板所描述的技术特点参数应 对应,取二者属性参数的交集,最后根据实际业务,调整各属性权值,形成静 态数据模型模板。
可选的,每个用户属于一类技术关注群体;所述根据所述用户的静态属性 空间和所述元数据聚类模板,获取相应的静态海量数据模板包括:
根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属 性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中, atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性 参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti在所述元数据聚类模板中的属性信息,Specialty(atti)为atti在所述用户的静态属 性空间中的属性信息,为atti的权值。
对于任意一个文档δ属于用户μ的静态样本空间D,则静态支持力度 V(μ,δ),与属性参数atti在元数据聚类模板中的属性信息和在所述用户的静态属 性空间中的属性信息的方差成反比相关,当然这个值应该乘以属性参数atti的重 要性标示即权值,最终将所有属性的信息汇总后,形成静态支持力度。
支持力度越大,说明群体关注度越高,因此可按此排序形成每个专业关注 矩阵,以便后续模块使用。
该步骤与步骤S104相同,具体可参见步骤S104的相关描述,在此不再赘 述。
步骤S205,监控所述用户的行为日志,并根据所述用户的行为日志,获取 所述用户在预设时间内的关注词。
该步骤与步骤S105相同,具体可参见步骤S105的相关描述,在此不再赘 述。
步骤S206,根据海量数据非结构化文档的文本分析,形成文本索引。
该步骤与步骤S106相同,具体可参见步骤S106的相关描述,在此不再赘 述。
步骤S207,根据所述文本索引、所述用户在预设时间内的关注词以及所述 静态海量数据模板,查找所要推荐的内容。
动态索引检索建立在静态数据空间模型算法下的样本空间与非结构化文本 的索引基础之上,通过索引排序,选择最终推荐的知识信息。
其中动态索引检索分析分为两个方面,内容支持力度与时间支持力度。
内容支持力度包括静态海量数据模板中的样本空间,该样本空间的每一条数 据,均有对应的支持力度,这些支持力度是通过核电文档元数据中计算得出的; 除此之外,还包含根据海量数据非结构化文档的文本分析,形成文本索引,这 部分称之为全文本支持力度,是通过文档全文索引得出的结果。
时间支持力度可理解为新鲜度,从文档角度,文档产生的时间因素称为文档 新鲜度,此外根据步骤S205监控得出的用户阅览、检索、下载及关注的知识内 容也与时间相关,这部分成为关注新鲜度,从时间维度将二者进行运算后得出 关注点内容信息及每个关注点的新鲜度。
最终根据用户最新的关注点与样本空间的索引顺序,计算获得最终的推荐 内容结果。
可选的,所述根据所述文本索引、所述用户在预设时间内的关注词以及所 述静态海量数据模板,查找所要推荐的内容包括:
获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;
根据和V(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间 内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为 文档δ的更新时间参数;
根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技 术文档以列表的形式生成推荐内容。
其中,所述预设时间可以是用户设置的周期时间,例如一周,在此不作限 定。所述预设条件可以是指大于预设阈值的推荐力度,可以根据推荐力度的大 小,将推荐力度从大到小的顺序,排列各个推荐力度对应的技术文档。
步骤S208,记录查找到的所要推荐的内容和所述静态海量数据模板。
记录操作过程,一方面记录静态支持向量结果,另一方面记录动态需求更 新过程与动态索引信息。
实施例三:
图3示出了本发明实施例三提供的海量信息数据的推荐装置的组成示意 图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
元数据信息获取模块31,用于从企业内容管理***ECM中获取元数据信息;
元数据聚集模板生成模块32,用于根据所述元数据信息的元数据集样本空 间,生成元数据聚类模板;
静态属性空间获取模块33,用于根据用户的相关信息,获取所述用户的静 态属性空间;
静态海量数据模板获取模块34,用于根据所述用户的静态属性空间和所述 元数据聚类模板,获取相应的静态海量数据模板;
关注词获取模块35,用于监控所述用户的行为日志,并根据所述用户的行 为日志,获取所述用户在预设时间内的关注词;
文本索引形成模块36,用于根据海量数据非结构化文档的文本分析,形成 文本索引;
推荐内容查找模块37,用于根据所述文本索引、所述用户在预设时间内的 关注词以及所述静态海量数据模板,查找所要推荐的内容。
元数据信息获取模块31是海量信息数据的推荐装置与企业内容管理平台的 接口模块,负责与核电企业内容管理***ECM进行数据交互,其中主要包含的 企业内容有:元数据信息、非结构化文件文本内容、***访问及检索相关日志 以及人员信息。这些信息将被集中存储在元数据信息获取模块31中,供各模块 调用,主要使用者为元数据聚集模板生成模块32。
另外,***集成数据的更新也由该元数据信息获取模块31负责。
本发明实施例提供的海量信息数据的推荐装置可以使用在前述对应的推荐 方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
实施例四:
图4示出了本发明实施例四提供的海量信息数据的推荐装置的组成示意 图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
元数据信息获取模块41,用于从企业内容管理***ECM中获取元数据信息;
元数据聚集模板生成模块42,用于根据所述元数据信息的元数据集样本空 间,生成元数据聚类模板;
静态属性空间获取模块43,用于根据用户的相关信息,获取所述用户的静 态属性空间;
静态海量数据模板获取模块44,用于根据所述用户的静态属性空间和所述 元数据聚类模板,获取相应的静态海量数据模板;
关注词获取模块45,用于监控所述用户的行为日志,并根据所述用户的行 为日志,获取所述用户在预设时间内的关注词;
文本索引形成模块46,用于根据海量数据非结构化文档的文本分析,形成 文本索引;
推荐内容查找模块47,用于根据所述文本索引、所述用户在预设时间内的 关注词以及所述静态海量数据模板,查找所要推荐的内容;
日志记录模块48,用于记录查找到的所要推荐的内容和所述静态海量数据 模板。
所述元数据聚类模板生成模块42包括:
选择单元421,用于从所述元数据集样本空间中任意选择K个对象作为初 始的簇中心,其中,K为大于零的整数,其中一个簇对象对应一类技术文档;
第一计算单元422,用于计算所述元数据集样本空间中所有对象与K个簇 中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;
第二计算单元423,用于根据每个簇中的对象重新计算所述每个簇的簇中 心,以重新计算K个簇中心;
第三计算单元424,用于若重新计算的K个簇中心中任一簇中心发生改变, 则重新计算所述所有对象与所述重新计算的K个簇中心的相似度,并将所述所 有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;
形成单元425,用于重复执行第二计算单元和第三计算单元,直到K个簇 中心不再发生改变,该K个簇中心形成所述元数据聚类模板。
所述每个用户属于一类技术关注群体;所述静态海量数据模板获取模块44 具体用于:
根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属 性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中, atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性 参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti所述用户的静态属性空间中的值,Specialty(atti)为atti在所述元数据聚类模板中 的值,εatti为atti的权值。
所述推荐内容查找模块47包括:
频率获取单元471,用于获取所述用户在预设时间内的关注词在文本索引 中出现的频率其中,为所述用户在预设时间内的第j个关注词;
推荐力度计算单元472,用于根据和V(μ,δ),计算每一类技术文 档的推荐力度其中,m为所述用 户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率 权值,τ(δ)为文档δ的更新时间参数;
推荐内容生成单元473,用于根据每一类技术文档的推荐力度,将满足预 设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。
本发明实施例提供的海量信息数据的推荐装置可以使用在前述对应的推荐 方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述 各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分 配由不同的功能模块完成,即所述装置的内部结构划分成不同的功能模块,上 述功能模块既可以采用硬件的形式实现,也可以采用软件的形式实现。另外, 各功能模块的具体名称也只是为了便于相互区别,并不用于限制本申请的保护 范围。
综上所述,本发明实施例填补了核电结构化海量信息的推荐问题,可根据 核电技术文件的特点及专业人员的专业属性与关注信息进行有效结合,可以适 应多种核电技术路线。本***可动态记录用户关注信息,并将相关操作以日志 形式记录。本发明构建了一种智能化的核电技术资料的知识抽取与匹配处理方 法,有效的提高了核电技术信息知识的传播效率及准确性,并有效的提高工作 效率,降低了生产成本,且稳定可靠。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算 机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (10)

1.一种海量信息数据的推荐方法,其特征在于,所述推荐方法包括:
从企业内容管理***ECM中获取元数据信息;
根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;
根据用户的相关信息,获取所述用户的静态属性空间;
根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;
监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;
根据海量数据非结构化文档的文本分析,形成文本索引;
根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。
2.根据权利要求1所述的推荐方法,其特征在于,所述推荐方法还包括:
记录查找到的所要推荐的内容和所述静态海量数据模板。
3.根据权利要求1所述的推荐方法,其特征在于,所述根据所述元数据信息的元数据集样本空间,生成元数据聚类模板包括:
步骤一,从所述元数据集样本空间中任意选择K个对象作为初始的簇中心,其中,K为大于零的整数,其中一个簇对象对应一类技术文档;
步骤二,计算所述元数据集样本空间中所有对象与K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;
步骤三,根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算K个簇中心;
步骤四,若重新计算的K个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;
步骤五,重复步骤三和四,直到K个簇中心不再发生改变,该K个簇中心形成所述元数据聚类模板。
4.根据权利要求3所述的推荐方法,其特征在于,每个用户属于一类技术关注群体;所述根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板包括:
根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti所述用户的静态属性空间中的值,Specialty(atti)为atti在所述元数据聚类模板中的值,为atti的权值。
5.根据权利要求4所述的推荐方法,其特征在于,所述根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容包括:
获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;
根据和V(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;
根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。
6.一种海量信息数据的推荐装置,其特征在于,所述推荐装置包括:
元数据信息获取模块,用于从企业内容管理***ECM中获取元数据信息;
元数据聚集模板生成模块,用于根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;
静态属性空间获取模块,用于根据用户的相关信息,获取所述用户的静态属性空间;
静态海量数据模板获取模块,用于根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;
关注词获取模块,用于监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;
文本索引形成模块,用于根据海量数据非结构化文档的文本分析,形成文本索引;
推荐内容查找模块,用于根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。
7.根据权利要求6所述的推荐装置,其特征在于,所述推荐装置还包括:
日志记录模块,用于查找到的所要推荐的内容和所述静态海量数据模板。
8.根据权利要求6所述的推荐装置,其特征在于,所述元数据聚类模板生成模块包括:
选择单元,用于从所述元数据集样本空间中任意选择K个对象作为初始的簇中心,其中,K为大于零的整数,其中一个簇对象对应一类技术文档;
第一计算单元,用于计算所述元数据集样本空间中所有对象与K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;
第二计算单元,用于根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算K个簇中心;
第三计算单元,用于若重新计算的K个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的K个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;
形成单元,用于重复执行第二计算单元和第三计算单元,直到K个簇中心不再发生改变,该K个簇中心形成所述元数据聚类模板。
9.根据权利要求8所述的推荐装置,其特征在于,所述每个用户属于一类技术关注群体;所述静态海量数据模板获取模块具体用于:
根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,Meta(atti)为atti所述用户的静态属性空间中的值,Specialty(atti)为atti在所述元数据聚类模板中的值,为atti的权值。
10.根据权利要求9所述的推荐装置,其特征在于,所述推荐内容查找模块包括:
频率获取单元,用于获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;
推荐力度计算单元,用于根据和V(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;
推荐内容生成单元,用于根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。
CN201710346631.2A 2017-05-17 2017-05-17 海量信息数据的推荐方法及推荐装置 Active CN107577690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710346631.2A CN107577690B (zh) 2017-05-17 2017-05-17 海量信息数据的推荐方法及推荐装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710346631.2A CN107577690B (zh) 2017-05-17 2017-05-17 海量信息数据的推荐方法及推荐装置

Publications (2)

Publication Number Publication Date
CN107577690A true CN107577690A (zh) 2018-01-12
CN107577690B CN107577690B (zh) 2021-01-05

Family

ID=61049374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710346631.2A Active CN107577690B (zh) 2017-05-17 2017-05-17 海量信息数据的推荐方法及推荐装置

Country Status (1)

Country Link
CN (1) CN107577690B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理***及其方法
CN115187187A (zh) * 2022-05-25 2022-10-14 中核武汉核电运行技术股份有限公司 一种核电数据标注工具

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191311A1 (en) * 2010-02-03 2011-08-04 Gartner, Inc. Bi-model recommendation engine for recommending items and peers
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及***
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191311A1 (en) * 2010-02-03 2011-08-04 Gartner, Inc. Bi-model recommendation engine for recommending items and peers
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及***
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理***及其方法
CN108446333B (zh) * 2018-02-22 2022-01-18 寇毅 一种大数据文本挖掘处理***及其方法
CN115187187A (zh) * 2022-05-25 2022-10-14 中核武汉核电运行技术股份有限公司 一种核电数据标注工具

Also Published As

Publication number Publication date
CN107577690B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
Hashimi et al. Selection criteria for text mining approaches
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
US8171029B2 (en) Automatic generation of ontologies using word affinities
CN104239513B (zh) 一种面向领域数据的语义检索方法
Fang et al. Detecting hot topics from Twitter: A multiview approach
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
Grolinger et al. Knowledge as a service framework for disaster data management
CN105279264B (zh) 一种文档的语义相关度计算方法
CN106874292A (zh) 话题处理方法及装置
Martin et al. A framework for business intelligence application using ontological classification
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
Tabak et al. Comparison of emotion lexicons
Panggabean et al. Analysis of Twitter Sentiment Towards Madrasahs Using Classification Methods
CN107577690A (zh) 海量信息数据的推荐方法及推荐装置
CN103034657B (zh) 文档摘要生成方法和装置
You et al. Evolution monitoring for innovation sources using patent cluster analysis
CN118133039A (zh) 加速大规模相似性计算
CN114003706A (zh) 关键词组合生成模型训练方法及装置
Vollset et al. Making use of external company data to improve the classification of bank transactions
Thijs Paragraph-based intra and inter-document similarity using neural vector paragraph embedding
Murarka et al. Query-based single document summarization using hybrid semantic and graph-based approach
Ma et al. Forecasting initial popularity of just-uploaded user-generated videos
Yang et al. Exploration and implementation of ontology-based cultural relic knowledge map integration platform
Yang et al. SocialRank: social network influence ranking method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181225

Address after: 518124 Office Building of Daya Bay Nuclear Power Base Engineering Company, Pengfei Road, Dapeng New District, Shenzhen City, Guangdong Province

Applicant after: China Nuclear Power Engineering Co., Ltd.

Applicant after: Shenzhen China Nuclear Power Design Co., Ltd.

Applicant after: China General Nuclear Power Corporation

Address before: 518124 Office Building of Daya Bay Nuclear Power Base Engineering Company, Pengfei Road, Dapeng New District, Shenzhen City, Guangdong Province

Applicant before: China Nuclear Power Engineering Co., Ltd.

Applicant before: China General Nuclear Power Corporation

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant