CN110888990B - 文本推荐方法、装置、设备及介质 - Google Patents
文本推荐方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110888990B CN110888990B CN201911179808.XA CN201911179808A CN110888990B CN 110888990 B CN110888990 B CN 110888990B CN 201911179808 A CN201911179808 A CN 201911179808A CN 110888990 B CN110888990 B CN 110888990B
- Authority
- CN
- China
- Prior art keywords
- text
- preset
- node
- candidate
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012216 screening Methods 0.000 claims abstract description 62
- 230000006399 behavior Effects 0.000 claims abstract description 56
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 149
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 11
- 239000013585 weight reducing agent Substances 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000012677 causal agent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本推荐方法、装置、设备及介质,涉及金融科技技术领域,该方法包括:监控目标用户的操作行为,以确定与目标用户关联的关键词;从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;调取预设的事理图谱,根据该图谱从预设的文本数据库集合中选取与第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;根据所述操作行为,从第一候选文本与所述第二候选文本中筛选出被选文本并推荐给所述目标用户。本发明解决现有推荐过程中存在推荐过于单一化以及推荐准确率低的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种文本推荐方法、装置、设备及介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Finteh)转变,内容推荐技术也不例外,但由于金融行业的安全性、实时性以及精准性要求,也对内容推荐技术提出的更高的要求,目前,内容推荐技术完全依赖用户配置的关键词进行推荐,完全依赖用户配置的关键词进行推荐会把用户偏好狭义化,进而存在推送给用户的新闻数据等内容存在过于单一化以及存在准确率低等技术问题。
发明内容
本发明的主要目的在于提供一种文本推荐方法、装置、设备及介质,旨在解决现有根据关键词进行内容推荐过程中存在推荐过于单一化以及推荐准确率低的技术问题。
为实现上述目的,本发明实施例提供一种文本推荐方法,所述文本推荐方法包括:
监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本步骤之前包括:
每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;
通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;
根据所述预处理文本生成所述预设的事理图谱。
可选地,所述根据所述预处理文本生成所述预设的事理图谱步骤包括:
对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;
通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;
根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;
将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;
基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成所述预设的事理图谱。
可选地,所述调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本步骤包括:
调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;
若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;
计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;
从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;
将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
可选地,所述根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;
根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述获取每篇文本与所述目标用户的相关度步骤包括:
获取所述关键词在所述第一候选文本的每篇文本中出现的次数,将所述次数设为词次数;
获取所述关键词在所述第一候选文本的每篇文本中出现的位置,将所述位置设为词位置,并获取所述词位置对应预设的位置权重,其中,词位置不同,位置权重不同,所述词位置包括文本首段首句位置,文本尾段首句位置,文本首段非首句位置、文本尾段非首句位置、非首段首句位置以及非尾段首句位置;
获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间间隔的句子数量与全文总句数的比值,将所述比值设为词跨度;
获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间的目标正文,获取所述目标正文中平均每预设句数中包含所述关键词的数量,将平均每预设句数中包含所述关键词的数量设为词密度;
根据所述词次数、所述词位置对应预设的位置权重、所述词跨度与所述词密度获取所述第一候选文本中每篇文本的第一相关度;
获取所述第二候选文本中每篇文本的筛选逻辑深度,根据所述筛选逻辑深度确定所述第二候选文本中每篇文本的第二相关度。
可选地,所述根据所述操作行为获取所述目标用户的偏好度度步骤包括:
从所述操作行为中获取所述目标用户的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述获取所述历史浏览文本中每篇文本的第一文档向量步骤包括:
根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下的第一概率矩阵;
根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下的第二概率矩阵;
根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量;
根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。
可选地,所述获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度步骤包括:
获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;
根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;
根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。
本发明还提供一种文本推荐装置,所述文本推荐装置包括:
监控模块,用于监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
检索模块,用于从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
选取模块,用于调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
筛选模块,用于根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述文本推荐装置还包括:
采集模块,用于每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;
预处理模块,用于通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;
生成模块,用于根据所述预处理文本生成所述预设的事理图谱。
可选地,所述生成模块包括:
识别单元,用于对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;
第一获取单元,用于通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;
第一计算单元,用于根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;
嫁接处理单元,用于将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;
生成单元,用于基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成所述预设的事理图谱。
可选地,所述选取模块包括:
调取单元,用于调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;
第一设置单元,用于若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;
第二计算单元,用于计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;
选取单元,用于从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;
第二设置单元,用于将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
可选地,所述筛选模块包括:
第二获取单元,用于获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;
推荐单元,用于根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述第二获取单元包括:
第一获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中出现的次数,将所述次数设为词次数;
第二获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中出现的位置,将所述位置设为词位置,并获取所述词位置对应预设的位置权重,其中,词位置不同,位置权重不同,所述词位置包括文本首段首句位置,文本尾段首句位置,文本首段非首句位置、文本尾段非首句位置、非首段首句位置以及非尾段首句位置;
第三获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间间隔的句子数量与全文总句数的比值,将所述比值设为词跨度;
第四获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间的目标正文,获取所述目标正文中平均每预设句数中包含所述关键词的数量,将平均每预设句数中包含所述关键词的数量设为词密度;
第五获取子单元,用于根据所述词次数、所述词位置对应预设的位置权重、所述词跨度与所述词密度获取所述第一候选文本中每篇文本的第一相关度;
第六获取子单元,用于获取所述第二候选文本中每篇文本的筛选逻辑深度,根据所述筛选逻辑深度确定所述第二候选文本中每篇文本的第二相关度。
可选地,所述第二获取单元包括:
第七获取子单元,用于从所述操作行为中获取所述目标用户的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量;
第八获取子单元,用于获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述第七获取子单元用于实现:
根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下的第一概率矩阵;
根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下的第二概率矩阵;
根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量;
根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。
可选地,所述第八获取子单元用于实现:
获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;
根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述筛选模块包括:
第三计算单元,用于根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;
筛选单元,用于根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。
本发明还提供一种介质,所述介质上存储有文本推荐程序,所述文本推荐程序被处理器执行时实现如上述的文本推荐方法的步骤。
本发明监控目标用户的操作行为,并根据所述操作行为确定与目标用户关联的关键词;在获取关键词后,从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;在获取第一候选文本后,调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,第二候选文本的获取扩大了推荐过程中备选文本的选取范畴,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。即在本申请中,不是单一只从根据关键词搜索出来的第一候选文本中选出被选文本,而是从根据所述预设的事理图谱等得到的第二候选文本与第一候选文本集合中选出被选文本,因而避免了内容推荐的单一化,且由于本申请中综合参考文本与文本之间的关联关系进行内容的推荐而不是只是单一根据关键词进行推荐,因而本申请可以提升推荐准确率。
附图说明
图1为本发明文本推荐方法第一实施例的流程示意图;
图2为本发明文本推荐方法第二实施例中基于调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本步骤之前的细化流程示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图;
图4是本发明文本推荐方法涉及的第一场景示意图;
图5是本发明文本推荐方法涉及的第二场景示意图;
图6是本发明文本推荐方法涉及的第三场景示意图;
图7是本发明文本推荐方法涉及的第四场景示意图;
图8是本发明文本推荐方法涉及的第五场景示意图;
图9是本发明文本推荐方法涉及的第六场景示意图;
图10是本发明文本推荐方法涉及的第七场景示意图;
图11是本发明文本推荐方法涉及的第八场景示意图;
图12是本发明文本推荐方法涉及的第九场景示意图;
图13是本发明文本推荐方法涉及的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本推荐方法,在文本推荐方法一实施例中,参照图1,所述文本推荐方法包括:
步骤S10,监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
步骤S20,从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
步骤S30,调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
步骤S40,根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
具体步骤如下:
步骤S10,监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
目前,市面上出现了越来越多的舆情***,以满足企业对网络舆情的监测和个体对热点事件的专题追踪等需求,具体地,舆情***可以帮助企业实现倾听目标受众想法、分析行业趋势、管理品牌声誉与进行危机预警等功能,当前舆情***一般通过如下过程实现上述功能:1、数据采集:采集全网所有信息源,全网所有信息源包括新闻网媒,论坛,博客,微博以及各类资讯客户端等;2、数据筛选:根据在舆情***上配置的监控任务关键词来筛选新闻数据,例如,若某篇新闻的正文中包含有用户配置的关键词,则保留该篇新闻用于后续的处理;3、数据处理:对所有包含关键词的新闻,依次计算文本的情感倾向,新闻的传播量,新闻正文与关键词的相关程度等;4、数据推送:综合考虑新闻的情感,传播量,相关程度,以及舆情***上用户对历史推送新闻数据的点击偏好,将1-3步处理后的新闻数据进行排序,挑选用户最可能感兴趣的多篇新闻进行推送,也即,在现有技术中,完全依赖用户配置的关键词以及用户对历史推送新闻数据的点击偏好,进行目标内容的推荐,而目标内容推送过程中,在分析用户偏好时都是基于word2vec(一种词向量模型,可以根据词向量之间的距离来描述中文词汇的语义相似性)类词向量来处理的,在分析用户偏好时都是基于word2vec类词向量来处理的,这样会把用户的偏好狭义化,导致推送的内容单一化。具体地,比如用户在某个时间段多次点击了“企业A与银行B达成合作”这样的一篇新闻,通过word2vec类词向量处理后,舆情***学习到用户更加偏好企业A和银行B之间的新闻。假若出现了另一篇新闻“企业A与银行C在某大学投资数亿共同建立实验室”,舆情***大概率不会认为这是用户偏好或者喜欢的新闻,而用户实际的偏好是企业A在金融领域的布局情况,而只推送企业A和银行B之间的新闻很显然导致推送的内容单一化。另外,目标内容推送过程中,完全依赖用户配置的关键词以及用户对历史推送新闻数据的点击偏好,进行目标内容的推荐,会导致推荐给用户的新闻数据等内容存在推荐过于单一化以及推荐准确率低的技术问题。因此完全依赖关键词的数据筛选,推荐准确率低在诸多场景下都偏低。
为解决上述技术问题,本实施例中监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词,该操作行为包括滑动行为或者输入关键词等触发的搜索行为,如果操作行为是滑动行为,根据所述操作行为确定与目标用户关联的关键词可以为:提取预存的与目标用户关联的关键词,该预存的与目标用户关联的关键词基于目标用户的历史浏览文本获取得到,如果操作行为是输入关键词的搜索行为,与目标用户关联的关键词可以为该输入关键词,或者可以为该输入关键词与预存的与目标用户关联的关键词的结合。
步骤S20,从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
预设的文本数据库集合中包括新闻网媒,论坛,博客,微博以及其他各类资讯客户端等构成的数据库集合。
从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本,从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本可以为:实时从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本(便于实时推荐),或者每间隔一定时间段实时从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本(便于定时推荐),还或者只是此次从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本(便于目标用户搜索时进行推荐)等。
步骤S30,调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
其中,预设的事理图谱是已经生成且实时或者定时更新的,总关联度等可以与词语之间的逻辑深度或者是词语之间的距离等关联,而文本与文本之间的关联关系可以为因果,顺承等关联关系,因果,顺承等关联关系的关联度不同。调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,第二候选文本的提高了内容推荐过程中的推荐范围。
其中,如图2所示,所述调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本步骤之前包括:
步骤A1,每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;
步骤A2,通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;
步骤A3,根据所述预处理文本生成所述预设的事理图谱。
本实施例中,每间隔预设时间段(可以包括实时)从所述预设的文本数据库集合中采集待处理文本,其中,由于每天采集的待处理文本量在千万量级,因此可以采用预设采集模型如预设spark streaming模型来完成采集。在得到待处理文本后,通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本,可选地,每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本,在得到待处理文本后,通过预设正则表达式对所述待处理文本中的每篇文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本,具体地,通过以下4条正则表达式过滤掉待处理文本的每篇文本正文中的html标签,第一条:'//<!\[CDATA\[[^>]*//\]\]>',第二条:'<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',第三条:'<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',第四条:'<!--[^>]*-->',通过上述4条正则表达式过滤掉正文中的html标签后,通过以下4条正则表达式过滤掉待处理文本的每篇文本中的表情符号,第一条:"\U0001F600-\U0001F64F",第二条:"\U0001F300-\U0001F5FF",第三条:"\U0001F680-\U0001F6FF",第四条:"\U0001F1E0-\U0001F1FF",在过滤后,对待处理文本如每篇文本中正文进行分句:按照标点符号“。”,“?”,“?”,“!”,“!”等将正文切分成句子列表,本实施例中,虽然对每篇每篇文本分开进行分句处理,但是句子列表中各篇文本的分句可以是混合的而不是根据每篇文本进行区分的。
所述根据所述预处理文本生成所述预设的事理图谱步骤包括:
步骤A31,对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;
对所述分句列表中的每条分句进行多个预设文本关联关系的识别,该预设文本关联关系包括但不限于顺承、因果、条件以及并列关系等类型,对所述分句列表中的每条分句进行多个预设文本关联关系的识别后,得到待处理节点文本。
具体地,可以根据预设事件分词工具从预处理文本的每篇文本的每条文本语句中识别出表顺承/因果/条件/并列关系的两个事件(两个事件短语),两个事件短语即可以设为事理图谱中待处理节点文本,且事理图谱用一条有向边(有指向的线条)将这两个待处理节点文本连接起来,比如从“央行降息将使得贷款成本变低”的文本语句中可以得到如图4的待处理节点文本,本实施例中,还可以基于预设文本关联关系抽取模型,从预处理文本的每篇文本的每条文本语句中识别出表顺承/因果/条件/并列关系的待处理节点文本,其中,预设文本关联关系中预设的表顺承的词语组合有:(首先,其次),(首先,然后),(一方面,一方面),(先是,进而),(先是,然后),(先是,再)等,如果一条句子中同时包含上述表顺承的词语组合某个词组中的两个词语,且两个词语在句子中的出现顺序与词组中定义的顺序一致,通过预设文本关联关系抽取模型中预设的引导分句模型把这两个词语引导的两个分句抽取出来,去掉分句中的所有标点符号(预设的),语气词(预设的),助词(预设的)和停用词(预设的)等,作为事理图谱中的两个待处理节点文本,同时用一条表顺承的有向边(逻辑关系的边)将这两个待处理节点文本连接起来。例如句子“首先A,其次B”,处理后如图5所示。
同样地,预设的表因果的词语组合有:(因为,所以),(因为,导致),(因为,使得),(因为,故而),(正因为,所以),(正因为,导致),(正因为,使得),(正因为,故而),(既然,那么),(既然,就),(一旦,就),(由于,因此),(由于,所以),(由于,导致),(由于,因而),(由于,使得),(由于,故而),(_,因此),(_,所以),(_,导致),(_,因而),(_,使得),(_,故而)等。词组中的下划线“_”表示空词,在后续的匹配过程中可以忽略对空词的匹配。如果一条句子中同时包含上述表因果的词语组合某个词组中的两个词语,且两个词语在句子中的出现顺序与词组中定义的顺序一致,通过预设的引导分句模型把这两个词语引导的两个分句抽取出来,去掉分句中的所有标点符号(预设的),语气词(预设的),助词(预设的)和停用词(预设的)等,作为图谱中的两个待处理节点文本,同时用一条表因果的有向边(逻辑关系的边)将这两个待处理节点文本连接起来。例如句子“因为A,所以B”,处理后得到图6。
同样地,预设的表条件的词语组合有:(如果,那么),(如果,就),(假如,那么),(假如,就),(假使,那么),(假使,就),(假若,那么),(假若,就),(一旦,就),(只要,就),(要是,就),(只有,才)等。如果一条句子中同时包含上述表条件的词语组合某个词组中的两个词语,且两个词语在句子中的出现顺序与词组中定义的顺序一致,通过预设的引导分句模型把这两个词语引导的两个分句抽取出来,去掉分句中的所有标点符号(预设的),语气词(预设的),助词(预设的)和停用词(预设的)等,作为图谱中的两个待处理节点文本,同时用一条表条件的有向边(逻辑关系的边)将这两个待处理节点文本连接起来,例如句子“如果A,那么B”,处理后得到图7。
同样地,预设的表并列的词语组合有:(不但,而且),(不但,并且),(不但,还),(不但,也),(不只,而且),(不只,并且),(不只,还),(不只,也),(不仅,而且),(不仅,并且),(不仅,还),(不仅,也),(不单,而且),(不单,并且),(不单,还),(不单,也),(要么,要么),(要么,或者),(或者,或者)等。如果一条句子中同时包含上述表并列的词语组合某个词组中的两个词语,且两个词语在句子中的出现顺序与词组中定义的顺序一致,通过预设的引导分句模型把这两个词语引导的两个分句抽取出来,去掉分句中的所有标点符号(预设的),语气词(预设的),助词(预设的)和停用词(预设的)等,作为图谱中的两个待处理节点文本,同时用一条表并列的有向边(逻辑关系的边)将这两个待处理节点文本连接起来。例如句子“不但A,而且B”,处理后得到图8。
需要说明的是,若预处理文本中包括有大于预设数目如十万条的文本数据,可以通过预设双向抽取网络模型来抽取预处理文本中每条文本语句中的多个预设文本关联关系的事件短句。
步骤A32,通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;
通过预设分词工具如预设结巴分词工具(一种开源的中文分词工具,可以对输入的中文文本进行切词以及词性标注)对所述待处理节点文本进行分词处理,分词处理后通过预设word2vec(一种词向量模型,将每一个中文词汇映射为一个高维向量(可以取200维向量),假设得到高维向量5个,abcde,将这5个的词向量按对应维度以及维度权重相加,就可以得到分词的词向量)得到每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量。
步骤A33,根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;
对于任意两个中文词汇,语义上越相近,映射后得到的向量距离也越近,因此可以根据词向量之间的距离来描述中文词汇的语义相似性。
在本实施例中,根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离,具体地,获取预设节点文本皮尔逊相关系数的计算公式,根据所述每个待处理节点文本的节点向量与所述预设节点文本皮尔逊相关系数的计算公式计算两个待处理节点文本向量之间的节点文本皮尔逊相关系数,用表示两个待处理节点文本向量之间的节点文本皮尔逊相关系数,那么两个待处理节点文本之间的第一节点距离可以表示为/>,对每个待处理节点文本,依次计算该待处理节点文本,与其余所有待处理节点文本之间的距离。
步骤A34,将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;
步骤A35,基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成所述预设的事理图谱。
将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本,具体地,例如,若发现待处理节点文本A与某个节点B之间的距离小于第一预设距离如小于0.3,则将待处理节点文本A的所有关系嫁接到待处理节点文本B上,同时删除待处理节点文本A,如图9所示,如果待处理节点文本A和待处理节点文本C之间的距离小于第一预设距离如小于0.3,则得到如图10 所示的待处理节点文本之间的关系,将节点距离小于第一预设距离的两个待处理节点文本进行嫁接处理,直至所述待处理文本的每个待处理节点文本处于收敛状态,即是迭代执行将节点距离小于第一预设距离的两个待处理节点文本进行嫁接处理的这一计算过程,直至所述待处理文本的每个待处理节点文本处于收敛状态,因而各个待处理节点文本构成事理图谱的关系边(关系边界)不再发生变化,因而生成了有向边的事理图谱,即认为该图谱已经达到收敛状态,需要说明的是,在融合过程中,还需要处理事理图谱中表“并列”的关系边,例如,假设存在如下图11,将表“并列”的有向边的尾节点D,嫁接在该有向边的首节点B的父待处理节点文本A上,新建一条与A和B之间相同的有向边,来连接A和D,得到图12。
步骤S40,根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
在得到第二候选文本以及第一候选文本后,从所述第一候选文本与所述第二候选文本中综合筛选出被选文本,将所述被选文本推荐给所述目标用户,而不只是从第一候选文筛选出被选文本,将所述被选文本推荐给所述目标用户。
本发明监控目标用户的操作行为,并根据所述操作行为确定与目标用户关联的关键词;在获取关键词后,从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;在获取第一候选文本后,调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,第二候选文本的获取扩大了推荐过程中备选文本的选取范畴,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。即在本申请中,不是单一只从根据关键词搜索出来的第一候选文本中选出被选文本,而是从根据所述预设的事理图谱等得到的第二候选文本与第一候选文本集合中选出被选文本,因而避免了内容推荐的单一化,且由于本申请中综合参考文本与文本之间的关联关系进行内容的推荐而不是只是单一根据关键词进行推荐,因而本申请可以提升推荐准确率。
进一步地,在第一实施例的基础上,在本发明提供文本推荐方法另一实施例,所述调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本步骤包括:
步骤S31,调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;
步骤S32,若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;
调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本,其中,对应分句中可以包含所述关键词,也可以不包含所述关键词,若所述事理图谱中不存在对应分句中包含所述关键词的收敛节点文本,则不进行后续处理,可以直接从第一候选文本中选取被选文本进行推荐,若所述事理图谱中存在对应分句中包含所述关键词的收敛节点文本,则将该待处理节点文本标注为“用户关注节点文本”,从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量,具体地,对第三候选文本中每篇文本的标题进行预设结巴分词,借助预设word2vec工具得到第三候选文本中每篇文本的标题向量,得到标题向量的目的在于计算第二节点距离。
步骤S33,计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;
步骤S34,从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;
计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离,若距离小于第二预设距离如小于0.4,且该待处理节点文本为“用户关注节点文本”,则确定标题向量对应该篇文本为第一目标文本,若距离小于第二预设距离如小于0.4,且在该待处理节点文本节点预设预设筛选逻辑深度范围内如逻辑深度为2范围内存在标注为“用户关注节点文本”的其他节点,则将该标题向量对应的文本保留下来作为第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定,即筛选逻辑深度可以定义如下:表“并列”逻辑关系的边的逻辑深度记为0.5,表“顺承”逻辑关系的边的逻辑深度记为0.7,表“因果”逻辑关系和表“条件”逻辑关系的边的逻辑深度记为1,两个待处理节点文本之间的逻辑深度为节点之间所有边的逻辑深度之和,例如,该B待处理节点文本到用户关注节点文本C之间最快可以通过两条边实现关联,且该两条边分别表因果”逻辑关系和顺承”逻辑关系,则B待处理节点文本的筛选逻辑深度或者对应标题向量的该篇文本的逻辑深度为1.7,该1.7在逻辑深度为2范围内。
步骤S35,将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
在得到第一目标文本以及第二目标文本后,将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
在本实施例中,通过调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;将所述第一目标文本与所述第二目标文本设为所述第二候选文本。本实施例实现准确获取第二候选文本,为实现准确的文本推荐奠定基础。
进一步地,在上述实施例的基础上,在本发明提供文本推荐方法另一实施例,在该实施例中,所述根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
步骤S41,获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;
在预设搜索引擎中对所述第一候选文本与所述第二候选文本中每篇文本的标题进行检索,以得到每篇文本的传播量,其中,每篇文本的传播量反映这篇文本的热度,本实施例中认为:拥有相同标题的两篇新闻属于同一篇新闻的两次转发,传播量的计算步骤可以如下:首先删掉第一候选文本与所述第二候选文本的标题中的所有标点符号(由于文本采集过程中,可能会将某些标点符号从半角修改为全角,此外,某些媒体在转发文本的时候,也会将部分标点符号从半角修改为全角,或从全角修改为半角,因此这里计算传播量的时候,不考虑标题中标点符号的差异),然后用删除所有标点符号后的该标题从预设搜索引擎中检索预设数目的文本如1000篇文本(通常情况下,一篇文本的最大转发量在百篇量级,不会超过1000篇),将检索出的1000篇文本的标题依次删掉标点符号,统计与当前第一候选文本与所述第二候选文本标题完全一致的标题数量,作为当前新闻的传播量。
其中,所述获取每篇文本与所述目标用户的相关度步骤包括:
步骤S41,获取所述关键词在所述第一候选文本的每篇文本中出现的次数,将所述次数设为词次数;
步骤S42,获取所述关键词在所述第一候选文本的每篇文本中出现的位置,将所述位置设为词位置,并获取所述词位置对应预设的位置权重,其中,词位置不同,位置权重不同,所述词位置包括文本首段首句位置,文本尾段首句位置,文本首段非首句位置、文本尾段非首句位置、非首段首句位置以及非尾段首句位置;
步骤S43,获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间间隔的句子数量与全文总句数的比值,将所述比值设为词跨度;
步骤S44,获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间的目标正文,获取所述目标正文中平均每预设句数中包含所述关键词的数量,将平均每预设句数中包含所述关键词的数量设为词密度;
步骤S45,根据所述词次数、所述词位置对应预设的位置权重、所述词跨度与所述词密度获取所述第一候选文本中每篇文本的第一相关度;
第一候选文本和第二候选文本的相关度计算不同,如图13所示。
第一候选文本的第一相关度计算如下:获取所述关键词在第一候选文本的每篇文本中出现的词次数、词位置、词跨度,词密度等,根据所述词次数、词位置、词跨度,词密度获取所述第一候选文本每篇文本的第一相关度,具体地,其中,词次数a:关键词在文本正文中出现的总数量;词位置b:初始时b的值为0,若关键词出现在了文本正文的首段首句或尾段首句,将b加2;若关键词出现在了文本正文的首段非首句或尾段非首句,将b加1;若关键词出现在了除首段和尾段外的其余段落的首句,将b加0.5;词跨度c:关键词在文本正文中第一次和最后一次出现的位置之间间隔的句子数量,与全文总句数的比值;词密度d:截取关键词在正文中第一次和最后一次出现的位置之间的正文,在这部分正文中,平均每预设量级句如每10句话中包含的关键词的数量定义为词密度d,那么相关度计算公式为:。
步骤S46,获取所述第二候选文本中每篇文本的筛选逻辑深度,根据所述筛选逻辑深度确定所述第二候选文本中每篇文本的第二相关度。
第二候选文本中不包含关键词,因而,根据筛选逻辑深度确定所述第二候选文本每篇文本的第二相关度,具体地,第二相关度定义为,其中/>表示筛选逻辑深度,具体地,筛选逻辑深度指的是筛选第二候选文本过程中从事理图谱的最初的节点文本到对应用户关注节点文本之间存在的逻辑深度或者其包含的最少逻辑边的深度等。
所述根据所述操作行为获取所述目标用户的偏好度度步骤包括:
步骤S47,从所述操作行为中获取所述目标用户的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量;
步骤S48,获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度。
本实施例中,获取所述目标用户文本的历史浏览文本,历史浏览文本可以为过去一个月内的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量,获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度,根据所述历史浏览文本与所述第一候选文本与所述第二候选文本获取用户偏好度。
步骤S42,根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
本实施例中,综合所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
在本实施例中,通过获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户,本实施例中考量三种因素进行被选文本的筛选,因而实现提升推荐的准确率。
进一步地,在上述实施例的基础上,在本发明提供文本推荐方法另一实施例,在该实施例中,所述获取所述历史浏览文本中每篇文本的第一文档向量步骤包括:
步骤B1,根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下的第一概率矩阵;
步骤B2,根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下的第二概率矩阵;
步骤B3,根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量;
步骤B4,根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。
根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下(包括200个文本子类别数量)的第一概率矩阵,具体地,可以用LDA(Latent DirichletAllocation,隐含狄利克雷分布)算法对历史浏览文本进行无监督聚类,(聚类数量可以设为200个),以获取每篇文本被划分在第一预设类别下的第一概率矩阵p,根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下(包括200个词语子类别数量)的第二概率矩阵q,根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量W,W=0.6p+0.4q,根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。具体地,将所有分词的优化词向量相加后得到对应新闻的文档向量。
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度,
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度,首先从预设的文本数据库集合中检索出当前目标用户在历史上点击浏览过的文本集合,总共k篇文本。然后将第一候选文本与所述第二候选文本与检索出的k篇文本如新闻,分别进行预设结巴分词处理,将所有分词的词向量相加后得到对应文本的文档向量/>。用/>表示历史浏览过的文本集合/>中各篇文本的文档向量,用/>表示当前第一候选文本与所述第二候选文本中每篇文本的文档向量,用/>表示两个文档向量/>之间的第一皮尔逊相关系数,那么第一候选文本与所述第二候选文本的用户偏好度可以表示为
其中,公式中的表示第一候选文本与所述第二候选文本中各篇文本的文档向量,/>表示历史浏览过的文本集合中各篇文本的文档向量。
其中,所述获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度步骤包括:
步骤C1,获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;
步骤C2,获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;
步骤C3,根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。
考虑到目标用户的偏好可能会随着时间发生很大的偏移。例如,某运营人员在1周前最关心的文本是公司的新产品发布会,而当前最关心的是文本是大众对于公司新产品的评价等。因此需要对用户在历史上点击浏览过的文本做时间上的兴趣降权处理,首先获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间,具体地,用表示文本/>是在/>天以前被点击浏览即历史浏览时间为/>,获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数,根据所述第二皮尔逊相关系数获取所述目标用户的偏好度,那么第一候选文本与所述第二候选文本的用户偏好度最终表示为
在本实施例中,通过获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。本实施例,实现准确获取目标用户的偏好度,为准确进行推荐奠定基础。
进一步地,在上述实施例的基础上,在本发明提供文本推荐方法另一实施例,在该实施例中,所述根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
步骤D1,根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;
步骤D2,根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。
根据所述传播量、所述第一相关度、所述第二相关度与所述用户偏好度从所述第一候选文本与所述第二候选文本中选取被选文本,并将所述被选文本推送给目标用户,具体地,通过预设计算公式如得到第一候选文本与所述第二候选文本中每篇文本的价值分数,根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户,如选择分数最大的10篇新闻作为目标内容推送给目标用户,可以每天进行一次推送。
在本实施例中,通过根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。本实施例中根据价值分数进行文本的精准推荐。
参照图3,图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例文本推荐设备可以是PC,也可以是智能手机、平板电脑、便携计算机等终端设备。
如图3所示,该文本推荐设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该文本推荐设备还可以包括目标用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。目标用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选目标用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的文本推荐设备结构并不构成对文本推荐设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及文本推荐程序。操作***是管理和控制文本推荐设备硬件和软件资源的程序,支持文本推荐程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与文本推荐设备中其它硬件和软件之间通信。
在图3所示的文本推荐设备中,处理器1001用于执行存储器1005中存储的文本推荐程序,实现上述任一项所述的文本推荐方法的步骤。
本发明文本推荐设备具体实施方式与上述文本推荐方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种文本推荐装置,所述文本推荐装置包括:
监控模块,用于监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
检索模块,用于从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
选取模块,用于调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
筛选模块,用于根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述文本推荐装置还包括:
采集模块,用于每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;
预处理模块,用于通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;
生成模块,用于根据所述预处理文本生成所述预设的事理图谱。
可选地,所述生成模块包括:
识别单元,用于对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;
第一获取单元,用于通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;
第一计算单元,用于根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;
嫁接处理单元,用于将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;
生成单元,用于基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成所述预设的事理图谱。
可选地,所述选取模块包括:
调取单元,用于调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;
第一设置单元,用于若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;
第二计算单元,用于计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;
选取单元,用于从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;
第二设置单元,用于将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
可选地,所述筛选模块包括:
第二获取单元,用于获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;
推荐单元,用于根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
可选地,所述第二获取单元包括:
第一获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中出现的次数,将所述次数设为词次数;
第二获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中出现的位置,将所述位置设为词位置,并获取所述词位置对应预设的位置权重,其中,词位置不同,位置权重不同,所述词位置包括文本首段首句位置,文本尾段首句位置,文本首段非首句位置、文本尾段非首句位置、非首段首句位置以及非尾段首句位置;
第三获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间间隔的句子数量与全文总句数的比值,将所述比值设为词跨度;
第四获取子单元,用于获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间的目标正文,获取所述目标正文中平均每预设句数中包含所述关键词的数量,将平均每预设句数中包含所述关键词的数量设为词密度;
第五获取子单元,用于根据所述词次数、所述词位置对应预设的位置权重、所述词跨度与所述词密度获取所述第一候选文本中每篇文本的第一相关度;
第六获取子单元,用于获取所述第二候选文本中每篇文本的筛选逻辑深度,根据所述筛选逻辑深度确定所述第二候选文本中每篇文本的第二相关度。
可选地,所述第二获取单元包括:
第七获取子单元,用于从所述操作行为中获取所述目标用户的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量;
第八获取子单元,用于获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述第七获取子单元用于实现:
根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下的第一概率矩阵;
根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下的第二概率矩阵;
根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量;
根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。
可选地,所述第八获取子单元用于实现:
获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;
根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。
可选地,所述筛选模块包括:
第三计算单元,用于根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;
筛选单元,用于根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。所述文本推荐装置具体实施方式与上述文本推荐方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种文本推荐设备,设备包括:存储器109、处理器110及存储在存储器109上并可在处理器110上运行的文本推荐程序,文本推荐程序被处理器110执行时实现上述的文本推荐方法各实施例的步骤。
此外,本发明还提供了一种计算机介质,所述计算机介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述文本推荐方法各实施例的步骤。
本发明设备及介质(即计算机介质)的具体实施方式的拓展内容与上述文本推荐方法各实施例基本相同,在此不做赘述。
需要说明的是,在文本中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (11)
1.一种文本推荐方法,其特征在于,所述文本推荐方法包括:
监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;
通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;
对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;
通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;
根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;
将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;
基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成预设的事理图谱;
调取所述预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
2.如权利要求1所述的文本推荐方法,其特征在于,所述调取预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本步骤包括:
调取预设的事理图谱,判断所述事理图谱中是否存在对应分句中包含所述关键词的收敛节点文本;
若存在,则将所述对应分句中包含所述关键词的收敛节点文本设为用户关注节点文本,并从所述预设的文本数据库在预设时间段内更新的文本中选取第一候选文本外的第三候选文本,通过预设分词工具对所述第三候选文本中每篇文本的标题进行分词处理,得到第三候选文本中每篇文本的标题向量;
计算所述标题向量与所述事理图谱中各收敛节点文本的节点向量之间的第二节点距离;
从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本为用户关注节点文本的第一目标文本,或者从所述第三候选文本中选取第二节点距离小于第二预设距离,且所述小于第二预设距离对应的收敛节点文本的预设筛选逻辑深度范围内存在用户关注节点文本的第二目标文本,其中,所述筛选逻辑深度根据所述事理图谱中所述各关联关系的关联度确定;
将所述第一目标文本与所述第二目标文本设为所述第二候选文本。
3.如权利要求1-2任一项所述的文本推荐方法,其特征在于,所述根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
获取所述第一候选文本与所述第二候选文本中每篇文本的传播量、并获取每篇文本与所述目标用户的相关度,根据所述操作行为获取所述目标用户的偏好度;
根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
4.如权利要求3所述的文本推荐方法,其特征在于,所述获取每篇文本与所述目标用户的相关度步骤包括:
获取所述关键词在所述第一候选文本的每篇文本中出现的次数,将所述次数设为词次数;
获取所述关键词在所述第一候选文本的每篇文本中出现的位置,将所述位置设为词位置,并获取所述词位置对应预设的位置权重,其中,词位置不同,位置权重不同,所述词位置包括文本首段首句位置,文本尾段首句位置,文本首段非首句位置、文本尾段非首句位置、非首段首句位置以及非尾段首句位置;
获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间间隔的句子数量与全文总句数的比值,将所述比值设为词跨度;
获取所述关键词在所述第一候选文本的每篇文本中第一次和最后一次出现的位置之间的目标正文,获取所述目标正文中平均每预设句数中包含所述关键词的数量,将平均每预设句数中包含所述关键词的数量设为词密度;
根据所述词次数、所述词位置对应预设的位置权重、所述词跨度与所述词密度获取所述第一候选文本中每篇文本的第一相关度;
获取所述第二候选文本中每篇文本的筛选逻辑深度,根据所述筛选逻辑深度确定所述第二候选文本中每篇文本的第二相关度。
5.如权利要求3所述的文本推荐方法,其特征在于,所述根据所述操作行为获取所述目标用户的偏好度度步骤包括:
从所述操作行为中获取所述目标用户的历史浏览文本,获取所述历史浏览文本中每篇文本的第一文档向量,并获取所述第一候选文本与所述第二候选文本中每篇文本的第二文档向量;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度。
6.如权利要求5所述的文本推荐方法,其特征在于,所述获取所述历史浏览文本中每篇文本的第一文档向量步骤包括:
根据预设聚类算法获取所述历史浏览文本中每篇文本被划分在第一预设类别下的第一概率矩阵;
根据预设分词算法获取所述历史浏览文本中每篇文本的分词词语,获取所述分词词语被划分在第二预设类别下的第二概率矩阵;
根据所述第一概率矩阵与所述第二概率矩阵获取所述历史浏览文本中每篇文本对应的各个优化词向量;
根据所述优化词向量获取所述历史浏览文本中每篇文本的第一文档向量。
7.如权利要求5所述的文本推荐方法,其特征在于,所述获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述第一皮尔逊相关系数获取所述目标用户的偏好度步骤包括:
获取所述历史浏览文本中每篇文本被点击浏览时至当前时刻之间的历史浏览时间;
获取所述第二文档向量与所述第一文档向量之间的第一皮尔逊相关系数,根据所述历史浏览时间对所述第一皮尔逊相关系数进行兴趣降权处理,得到第二皮尔逊相关系数;
根据所述第二皮尔逊相关系数获取所述目标用户的偏好度。
8.如权利要求4所述的文本推荐方法,其特征在于,所述根据所述传播量、所述相关度与所述偏好度,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户步骤包括:
根据所述传播量、所述第一相关度、所述第二相关度与所述偏好度,计算所述第一候选文本与所述第二候选文本中每篇文本的价值分数;
根据所述价值分数从高至低依次选取预设数量的文本作为被选文本,并将所述被选文本推荐给所述目标用户。
9.一种文本推荐装置,其特征在于,所述文本推荐装置包括:
监控模块,用于监控目标用户的操作行为,根据所述操作行为确定与目标用户关联的关键词;
检索模块,用于从预设的文本数据库集合中检索出一个以上的包含至少一个所述关键词的更新文本,作为第一候选文本;
选取模块,用于每间隔预设时间段从所述预设的文本数据库集合中采集待处理文本;通过预设正则表达式对所述待处理文本进行html标签过滤、符号过滤以及分句处理,得到分句列表构成的预处理文本;对所述分句列表中的每条分句进行多个预设文本关联关系的识别,得到待处理节点文本,其中,所述预设文本关联关系包括但不限于顺承、因果、条件以及并列关系;通过预设分词工具对所述待处理节点文本进行分词处理,并获取每个分词的词向量,基于每个分词的词向量得到每个待处理节点文本的节点向量;根据所述每个待处理节点文本的节点向量计算每个待处理节点文本与其他待处理节点文本之间的第一节点距离;将节点距离小于第一预设距离的两个待处理节点文本进行迭代嫁接处理,直至所述每个待处理节点文本处于节点文本关系边不再发生变化的收敛状态,其中,将所述处于收敛状态的各个待处理节点文本设为收敛节点文本;基于所述收敛节点文本与所述收敛节点文本之间的节点文本关系边,生成预设的事理图谱;调取所述预设的事理图谱,根据所述预设的事理图谱从所述预设的文本数据库集合中选取与所述第一候选文本的总关联度不小于预设关联阈值的更新文本,作为第二候选文本,所述事理图谱包含文本与文本之间的关联关系,各关联关系有其对应的关联度;
筛选模块,用于根据所述操作行为,从所述第一候选文本与所述第二候选文本中筛选出被选文本,并将所述被选文本推荐给所述目标用户。
10.一种文本推荐设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本推荐程序,所述文本推荐程序被所述处理器执行时实现如权利要求1至8中任一项所述的文本推荐方法的步骤。
11.一种介质,其特征在于,所述介质上存储有文本推荐程序,所述文本推荐程序被处理器执行时实现如权利要求1至8中任一项所述的文本推荐方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179808.XA CN110888990B (zh) | 2019-11-22 | 2019-11-22 | 文本推荐方法、装置、设备及介质 |
PCT/CN2020/129115 WO2021098648A1 (zh) | 2019-11-22 | 2020-11-16 | 文本推荐方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179808.XA CN110888990B (zh) | 2019-11-22 | 2019-11-22 | 文本推荐方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888990A CN110888990A (zh) | 2020-03-17 |
CN110888990B true CN110888990B (zh) | 2024-04-12 |
Family
ID=69748961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911179808.XA Active CN110888990B (zh) | 2019-11-22 | 2019-11-22 | 文本推荐方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110888990B (zh) |
WO (1) | WO2021098648A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888990B (zh) * | 2019-11-22 | 2024-04-12 | 深圳前海微众银行股份有限公司 | 文本推荐方法、装置、设备及介质 |
CN111428092B (zh) * | 2020-03-20 | 2023-05-02 | 北京中亦安图科技股份有限公司 | 基于图模型的银行精准营销方法 |
CN111400456B (zh) * | 2020-03-20 | 2023-09-26 | 北京百度网讯科技有限公司 | 资讯推荐方法及装置 |
CN112561581A (zh) * | 2020-12-14 | 2021-03-26 | 珠海格力电器股份有限公司 | 一种推荐方法、装置、电子设备及存储介质 |
CN112836061A (zh) * | 2021-01-12 | 2021-05-25 | 平安科技(深圳)有限公司 | 智能推荐的方法、装置以及计算机设备 |
CN112749344B (zh) * | 2021-02-04 | 2023-08-01 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、电子设备、存储介质及程序产品 |
CN113505587B (zh) * | 2021-06-23 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 实体抽取方法及相关装置、设备和存储介质 |
US11977841B2 (en) | 2021-12-22 | 2024-05-07 | Bank Of America Corporation | Classification of documents |
CN114020936B (zh) * | 2022-01-06 | 2022-04-01 | 北京融信数联科技有限公司 | 多模态事理图谱的构建方法、***和可读存储介质 |
CN114625747B (zh) * | 2022-05-13 | 2022-08-12 | 杭银消费金融股份有限公司 | 基于信息安全的风控更新方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014194689A1 (en) * | 2013-06-06 | 2014-12-11 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
WO2017084362A1 (zh) * | 2015-11-18 | 2017-05-26 | 百度在线网络技术(北京)有限公司 | 模型生成方法、推荐方法及对应装置、设备和存储介质 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐***的推荐方法 |
CN108153901A (zh) * | 2018-01-16 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于知识图谱的信息推送方法和装置 |
CN108733694A (zh) * | 2017-04-18 | 2018-11-02 | 北京国双科技有限公司 | 检索推荐方法和装置 |
CN109165350A (zh) * | 2018-08-23 | 2019-01-08 | 成都品果科技有限公司 | 一种基于深度知识感知的信息推荐方法和*** |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109597878A (zh) * | 2018-11-13 | 2019-04-09 | 北京合享智慧科技有限公司 | 一种确定文本相似度的方法及相关装置 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310073A1 (en) * | 2014-04-29 | 2015-10-29 | Microsoft Corporation | Finding patterns in a knowledge base to compose table answers |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN109033132B (zh) * | 2018-06-05 | 2020-12-11 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
CN110888990B (zh) * | 2019-11-22 | 2024-04-12 | 深圳前海微众银行股份有限公司 | 文本推荐方法、装置、设备及介质 |
-
2019
- 2019-11-22 CN CN201911179808.XA patent/CN110888990B/zh active Active
-
2020
- 2020-11-16 WO PCT/CN2020/129115 patent/WO2021098648A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014194689A1 (en) * | 2013-06-06 | 2014-12-11 | Tencent Technology (Shenzhen) Company Limited | Method, server, browser, and system for recommending text information |
WO2017084362A1 (zh) * | 2015-11-18 | 2017-05-26 | 百度在线网络技术(北京)有限公司 | 模型生成方法、推荐方法及对应装置、设备和存储介质 |
CN108733694A (zh) * | 2017-04-18 | 2018-11-02 | 北京国双科技有限公司 | 检索推荐方法和装置 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐***的推荐方法 |
CN108153901A (zh) * | 2018-01-16 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于知识图谱的信息推送方法和装置 |
CN109165350A (zh) * | 2018-08-23 | 2019-01-08 | 成都品果科技有限公司 | 一种基于深度知识感知的信息推荐方法和*** |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109597878A (zh) * | 2018-11-13 | 2019-04-09 | 北京合享智慧科技有限公司 | 一种确定文本相似度的方法及相关装置 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
基于文档词典的文本关联关键词推荐技术;邱利茂;刘嘉勇;;现代计算机(专业版);20180305(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110888990A (zh) | 2020-03-17 |
WO2021098648A1 (zh) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
US10217058B2 (en) | Predicting interesting things and concepts in content | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US10042896B2 (en) | Providing search recommendation | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
WO2015185019A1 (zh) | 一种基于语义理解的表情输入方法和装置 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
US9996529B2 (en) | Method and system for generating dynamic themes for social data | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN113392195A (zh) | 舆情监测方法及装置、电子设备及存储介质 | |
CN116992010A (zh) | 一种基于多模态大模型的内容分发和交互方法及*** | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN109242690A (zh) | 理财产品推荐方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |