CN109582953B - 一种资讯的言据支撑评分方法、设备和存储介质 - Google Patents
一种资讯的言据支撑评分方法、设备和存储介质 Download PDFInfo
- Publication number
- CN109582953B CN109582953B CN201811302326.4A CN201811302326A CN109582953B CN 109582953 B CN109582953 B CN 109582953B CN 201811302326 A CN201811302326 A CN 201811302326A CN 109582953 B CN109582953 B CN 109582953B
- Authority
- CN
- China
- Prior art keywords
- information
- semantic
- similarity matrix
- support
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013077 scoring method Methods 0.000 title claims description 7
- 239000013598 vector Substances 0.000 claims abstract description 84
- 239000011159 matrix material Substances 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000005295 random walk Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000036541 health Effects 0.000 description 16
- 238000013136 deep learning model Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 206010039083 rhinitis Diseases 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010002198 Anaphylactic reaction Diseases 0.000 description 1
- 206010039085 Rhinitis allergic Diseases 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 201000010105 allergic rhinitis Diseases 0.000 description 1
- 230000036783 anaphylactic response Effects 0.000 description 1
- 208000003455 anaphylaxis Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种资讯的言据支撑评分方法、设备和存储介质。该方法包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。本发明的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的言据支撑评分,本发明准确性高,并且可以有效降低人力成本。
Description
技术领域
本发明涉及数据挖掘和推荐***技术领域,尤其涉及一种资讯的言据支撑评分方法、设备和存储介质。
背景技术
传统的信息获取方式往往是主动的,比如用户主动浏览门户网站获取最新的新闻资讯,或者通过搜索引擎主动搜索自己感兴趣的资讯。近年来,随着计算机网络和人工智能技术的发展,人们获取信息的方式发生了较大的转变,各种瀑布流信息、智能推送的资讯直接展示在用户眼前,用户在很多时候是被动地接受这些资讯的。在信息获取方式从主动转变到被动的过程中,除了技术的良性发展之外,也伴随着信息***和资讯泛滥,一些虚假资讯甚至谣言快速传播,使得正面资讯(如健康类资讯)受到负面资讯的负面影响。
在谣言识别项目中,重点关注对资讯内容的分析,通过专业人员的检验或网络众包学***台的唯一选择。网络众包学习依赖互联网社交参与度,发挥群策群力的优势,共同标记识别谣言内容,通过统计标记来判断资讯的可靠性,但是网络众包学习对于网络人员的素质和互联网社交参与度要求较高,不适合在网络环境下对大量资讯进行识别。
随着深度学习技术的广泛应用,研究者开始考虑使用深度学习模型来识别谣言,其基本思路仍然是从资讯本身的内容入手,通过对谣言和非谣言的样本进行大量的标注,通过深度学习网络构建出能够区分二者的分类器,从而直接对资讯内容的可靠性进行判断。但是深度学习模型存在以下问题:一、深度学习模型虽然在图像视频领域取得了很好的效果,但在自然语言领域,尤其是在一般人无法做出辨别的资讯评价领域上,难以找到合适的深度学习模型来满足实际要求;二、深度学习模型的可解释性有待进一步深入研究,在实际应用中深度学习模型输出结果是通过大量复杂计算得到的,最终的结果往往不易控制,也无法通过证据直接验证输出结果的好坏。
发明内容
本发明的主要目的在于提供一种资讯的言据支撑评分方法、设备和存储介质,以解决现有的资讯的可靠性识别方法人力成本高且准确性低。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明提供了一种资讯的言据支撑评分方法,包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
其中,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
其中,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。
其中,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。
其中,所述方法还包括:根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
本发明还提供了一种资讯的言据支撑评分设备,所述资讯的言据支撑评分设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。
其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
本发明又提供了一种存储介质,所述存储介质上存储有资讯的言据支撑评分程序,所述资讯的言据支撑评分程序被处理器执行时实现上述的资讯的言据支撑评分方法的步骤。
本发明有益效果如下:
本发明的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的言据支撑评分,本发明准确性高,并且可以有效降低人力成本。进一步地,本发明使用与本资讯具有同样观点的其他资讯来支撑本资讯的观点,如果资讯库中支撑该观点的其他资讯很少,甚至其他资讯具有与该观点不相容的观点,那么本资讯的可靠性就会很低,反之,大量其他资讯都具有与所考虑资讯验证相同观点的证据,那么本资讯的可靠性就会很高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一的资讯的言据支撑评分方法的流程图;
图2是根据本发明实施例二的深度语义向量编码的步骤流程图;
图3是根据本发明实施例三的语义网络构建的步骤流程图;
图4是根据本发明实施例五的资讯的言据支撑评分设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
实施例一
根据本发明的实施例一,提供了一种资讯的言据支撑评分方法。如图1所示,为根据本发明实施例一的资讯的言据支撑评分方法的流程图。
步骤S110,对资讯库中的所有资讯分别进行深度语义向量编码。
深度语义向量编码是指通过深度学习技术提取资讯在语义上下文空间的向量表示。通过深度学习技术,描述词在词所在资讯的上下文依赖,能够对词进行更好的语义建模,而向量编码是指将资讯转换成可计算的量,便于计算机进行处理。
步骤S120,根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵。
语言相似度矩阵中包含资讯库中任意两篇资讯的相似度。
步骤S130,根据所述语义相似度矩阵,构建语义网络。
语义网络中的节点为资讯库中的资讯,语义网络中任意两个节点之间的连接具有权重,权重的值为该两个节点的相似度。
步骤S140,根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
随机游走模型应用于网络中,用于描述一系列随机步形成路径概率关系的随机过程模型,随机游走从初始节点出发,然后根据网络(语义网络)的结构,依赖预设的转移概率,跳转到下一步,随着迭代步数的增加,转移概率最后趋向于稳定的分布。随机游走模型能够较好地描述网络结构的固有属性,找到对网络有重大作用的中心节点。
在本实施例中,在得到资讯库中各个资讯的言据支撑评分之后,还可以根据语义网络中每个节点对应的资讯的言据支撑评分,得到资讯库的可靠性评分。也即是说,根据资讯库中各个资讯的言据支撑评分,得到资讯库的可靠性评分。
资讯的言据支撑评分越高,资讯的可靠性越高,资讯的言据支撑评分越底,资讯的可靠性越低。类似的,资讯库的言据支撑评分越高,资讯库的可靠性越高,资讯库的言据支撑评分越底,资讯库的可靠性越低。
在本实施例中,可以根据言据支撑评分的高低对资讯进行排序,将言据支撑评分高的资讯提供给用户。进一步地,根据各个资讯库的言据支撑评分,在言据支撑评分最高的资讯库中,选取言据支撑评分最高的资讯,提供给用户查看。
本实施例的立足点在于评价资讯中观点的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的言据支撑评分。
本实施例在评价过程中,需要资讯库中与本资讯有同样观点的其他资讯来支撑本资讯的观点,如果资讯库中支撑该观点的其他资讯很少,甚至其他资讯具有与该观点不相容的观点,那么资讯的言据支撑评分(可靠性)就会很低,反之,大量其他资讯都具有与所考虑资讯验证相同观点的证据,那么资讯的言据支撑评分(可靠性)就会很高。
下面通过实施例二~实施例四,对实施例一中的步骤进行进一步地说明。其中,实施例二~实施例四将以健康领域为基础进行详细解释。
实施例二
本实施例对深度语义向量编码的步骤进行进一步地描述。
图2为根据本发明实施例二的深度语义向量编码的步骤流程图。
步骤S210,在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中。
常用词是指:在预设网站中出现的技术术语、专业术语、常见名称或者出现频率较高的词语。
预设网站例如是:“A+医学百科”,“39健康网”,“寻医问药网”,“百度医学百科”。
分词工具例如是:结巴分词、NLPIR、LTP、THULAC、IK-Analyzer。
通过抓取预设网站中的词条,获得常用词,扩充分词工具的词典,以便提供较为理想的分词效果。比如:“过敏性鼻炎”是一类鼻炎的常见疾病名词,大部分分词工具都将其切分成“过敏性”和“鼻炎”两个词,经过分词工具的切分后,无法完整而有效的体现专有疾病的含义,对后续的语义分析将产生较大的不利影响。这样,可以指定健康类网站,对健康类网站关于疾病和症状的词条进行抓取,获得常用词。
在选择健康类网站时,选择依据如下:(1)网站有“疾病百科”和“症状百科”两个板块,对疾病和症状都有链接的页面进行详细描述;(2)网站在诸多搜索引擎中过滤掉明确标注为广告链接外搜出的结果较为靠前,且具有较为清晰的网络结构。
将常用词作为用户词典载入分词工具中,这样就可以利用该分词工具对健康资讯库中的每一篇健康资讯进行去符号、去停词、分词操作。
步骤S220,利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词。
对健康资讯库中的各个健康资讯分别进行分词处理,得到多个分词,形成健康资讯数据集。
步骤S230,根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量。
在本实施例中,分布式词向量表示方法可以是基于词嵌入(Word Embedding)的分布式向量表示方法。基于词嵌入的分布式向量表示方法来对健康资讯数据集中的分词进行编码(向量表示)。
分布式词向量模型可以是word2vec模型,也可以是GloVe模型。其中,word2vec模型是一个典型的三层前馈网络,由输入层、隐层(映射层)和输出层表示,该模型通过词在资讯库中的上下文来构建输入和输出,从而发现词的上下文语义关系。可以预先定义维度,比如:使用250维来表示所有词的上下文关系,每一维都是多重语义的复合,称之为分布式语义表示。该word2vec模型的输入和输出向量是每一个词基于词典位置的独热编码,比如:“健康”如果在词典中序号是500,那么除了500这个位置是1,其他的位置全部为0。该word2vec模型有两类训练方法,这两类方法在构建的时候对输入和输出的定义刚好是相反的,一类称之为连续词包(CBOW)模型的方法是用上下文词预测词本身,另一类称之为Skip-gram的方法则是对应词预测其上下文词,两类训练方法的网络结构和优化方法有少许差异,但都是为了更好地得到词的一个比较“紧致”(dense)的语义表示。
在自然语言处理的多项任务中,由于能够很好的处理通过词的上下文语义来量化词本身的缘故,词的分布式向量表示成为了自然语言量化计算的基石。从而,将健康资讯数据集作为word2vec模型的训练数据集,利用该训练数据集训练该word2vec模型,即:将健康资讯数据集中的分词所形成的序列输入word2vec模型,通过设置合适的参数,比如:词的分布式维度、上下文窗口大小、迭代周期、训练方法等参数,进而使word2vec模型输出每个分词对应的分布式词向量。
步骤S240,根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
在基于词嵌入的分布式词向量表示方法中,分词的上下文语义具有可加性,这样通过分词的加权平均,就能得到每篇资讯的深度语义向量。
实施例三
本实施例对语义网络的构建进行进一步地描述。
图3是根据本发明实施例三的语义网络构建的步骤流程图。
步骤S310,根据每个资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵。
在语义相似度矩阵中包括资讯库中任意两篇资讯的相似度。
在本实施例中,相似度计算的目的在于发现相似的言据支撑。比如:A资讯表明了a观点,B资讯表明了b观点,如果观点a与观点b有相似的语义,那么,A、B资讯就互为对应的言据支撑,言据支撑的强度可以定义为a、b的语义相似度S(a,b),相似度越高,言据支撑的强度越高,相似度越低,言据支撑的强度越低,在这过程中,A资讯和B资讯的深度语义向量分别为va、vb。
尽管基于词嵌入的分布式词向量表示方法的语义具有可加性,但是在本实施例中,不仅仅通过方向相似度Spos(a,b),还要加上幅值相似度Sstr(a,b),二者共同度量两篇资讯的相似度。
方向相似度Spos(a,b)可以使用余弦相似度,其定义为:
其中,‖va‖表示取向量va的模运算,‖vb‖表示取向量vb的模运算。
幅值相似度Sstr(a,b)的定义如下:
这样,资讯A、B的相似度可以定义为以上两个相似度的加权和:
S(a,b)=λSpos(a,b)+(1-λ)Sstr(a,b)
其中,参数λ(0.5<λ<1)为预设值,用于调节方向相似度和幅值相似度的权重。在本实施例中,方向相似度体现了所表达观点在语义空间的方向一致性,而幅值相似度则表明观点在语义空间的力度一致性,方向往往比力度更重要,所以本实施例的值域S(a,b)∈(-λ,1]。
在计算过资讯库中任意两篇资讯的相似度之后,可以根据得到的多个相似度构建语义相似度矩阵。
步骤S320,对语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵。
由于资讯的深度语义向量往往具有较高的维度,因此出现两篇资讯语义完全正交即相似度为0的概率极小,这就表明语义相似度矩阵是稠密的矩阵,之所以会造成矩阵稠密,一方面是由于基于词嵌入的分布式词向量表示方法对各语义分布式表示的结果,另外一方面也是由于资讯库中存在一些与资讯主旨语义关联不大的高频噪声。
为了消除语义中高频噪声的影响,可以对稠密的语义相似度矩阵进行主成份分析(principal components analysis,简称PCA),在数学上即对其进行奇异值分解(Singularvalue decomposition,简称SVD),之后再重构得到一个较为稀疏的表示。重构之后得到的语义相似度矩阵,即是稀疏语义相似度矩阵,其是原始的语义相似度矩阵的一个近似,除了消除一些高频噪声的影响,也能减少后续操作的计算量,从而使得后续的随机游走算法能够更加鲁棒。
步骤S330,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。
步骤1,根据所述稀疏语义相似度矩阵,构建带权无向简单图。
带权无向简单图是指关联一对顶点的边有且仅有一条,没有顶点到自身的边(即没有环),并且边上带有权重的图。
利用稀疏语义相似度矩阵作为邻接矩阵,构建带权无向简单图。该带权无向简单图实则为一个语义上下文网络。每篇资讯对应作为带权无向简单图中的一个节点。
步骤2,确定所述带权无向简单图中包含的多个不连通子图。
不连通子图即是和其他子图没有连接的子图。
由于主成份分析去掉了很多节点之间的语义上下文连接,可能造成带权无向简单图不是一个单连通的网络,为了后续的分析需要,需要在带权无向简单图中找到不相连的几个子网络(不连通子图),在不连通的几个子网络中构建桥梁,以便能将整个网络的语义上下文连接起来。
步骤3,在所述语义相似度矩阵中,查询各个不连通子图之间的节点对的相似度。
节点对包括两个节点,在两个不连通子图中,其中一个节点位于一个不连通子图中,另一个节点位于另一个不连通子图中。
为了尽可能不影响到原始的语义上下文,应该尽可能少的连接不连通子图,且尽可能多的包含不连通子图之间的语义上下文。
步骤4,在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。
在每两个不连通子图之间需要执行:在第一不连通子图中确定第一节点和第二不连通子图中确定第二节点,在语义相似度矩阵中,查询第一节点和第二节点的相似度;在第一不连通子图中包含多个第一节点,在第二不连通子图中包含多个第二节点,查询每个第一节点和每个第二节点的相似度,并对获得的多个相似度进行排序,确定最大的相似度,连接最大的相似度对应的第一节点和第二节点,并且使用该最大的相似度作为该连接的权重,使得第一不连通子图和第二不连通子图连通。
实施例四
本实施例进一步地描述如何对资讯进行言据支撑评分。
本实施例在语义网络中实施随机游走模型,完成语义网络中每一个节点的言据支撑评分。
随机游走模型遵循节点i的言据支撑评分由其他节点在前一步的支撑得分得到,一部分是由相邻节点得到的,另一部分由其他节点随机平均贡献得到,那么节点i得到其他节点在第t+1步的言据支撑评分迭代公式为:
其中,P为预设值,P表示语义网络中的两个节点如果相连的话,从一个节点选择相邻节点游动的概率,而1-P相应的表示随机选择其他相邻或者不相邻的节点的概率,本实施例优选地,0.5≤P≤1。W表示语义网络,i和j为语义网络中的相邻节点,k为i的其他节点(k≠i,并且k≠j),wij为资讯i和j之间的连接的权重,即资讯i和j的相似度;wkj为资讯k和j之间的连接的权重,即资讯k和j的相似度;sik为i和k的相似度。
这样通过初始条件和迭代公式,就可以得到每个节点的言据支撑评分。
根据语义网络中每个节点对应的资讯的言据支撑评分,得到资讯库的可靠性评分。整个资讯库的可靠性评分,可定义为各资讯的言据支撑评分的平均:
本实施例结合了资讯本身的内容分析,以及资讯所在资讯库的上下文结构信息,让资讯有了旁证,让资讯在资讯库的上下文中达到言据自洽,否则如果出现不相容甚至是相悖的结果,那么资讯在资讯库中的可靠性就要大打折扣。
实施例五
本实施例提供一种资讯的言据支撑评分设备。如图4所示,为根据本发明实施例五的资讯的言据支撑评分设备的结构图。
在本实施例中,所述资讯的言据支撑评分设备400,包括但不限于:处理器410、存储器420。
所述处理器410用于执行存储器420中存储的资讯的言据支撑评分程序,以实现实施例一~实施例四所述的资讯的言据支撑评分方法。
具体而言,所述处理器410用于执行存储器420中存储的资讯的言据支撑评分程序,以实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
其中,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
其中,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。
其中,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。
其中,根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
实施例六
本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的资讯的言据支撑评分方法。
具体而言,所述处理器用于执行存储器中存储的资讯的言据支撑评分程序,以实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
其中,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
其中,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。
其中,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。
其中,根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (7)
1.一种资讯的言据支撑评分方法,其特征在于,包括:
对资讯库中的所有资讯分别进行深度语义向量编码;
根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;
对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;
根据所述稀疏语义相似度矩阵,构建带权无向简单图;
确定所述带权无向简单图中包含的多个不连通子图;
在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;
在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图作为语义网络;
根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
2.根据权利要求1所述的方法,其特征在于,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:
在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;
利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;
根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;
根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
4.一种资讯的言据支撑评分设备,其特征在于,所述资讯的言据支撑评分设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
对资讯库中的所有资讯分别进行深度语义向量编码;
根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;
对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;
根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络;
根据预设的随机游走模型,对所述语义网络中每个节点对应的资讯进行言据支撑评分。
5.根据权利要求4所述的设备,其特征在于,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:
在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;
利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;
根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;
根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。
6.根据权利要求4所述的设备,其特征在于,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:
根据所述语义网络中每个节点对应的资讯的言据支撑评分,得到所述资讯库的可靠性评分。
7.一种存储介质,其特征在于,所述存储介质上存储有资讯的言据支撑评分程序,所述资讯的言据支撑评分程序被处理器执行时实现如权利要求1~3中任一项所述的资讯的言据支撑评分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811302326.4A CN109582953B (zh) | 2018-11-02 | 2018-11-02 | 一种资讯的言据支撑评分方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811302326.4A CN109582953B (zh) | 2018-11-02 | 2018-11-02 | 一种资讯的言据支撑评分方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582953A CN109582953A (zh) | 2019-04-05 |
CN109582953B true CN109582953B (zh) | 2023-04-07 |
Family
ID=65921410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811302326.4A Active CN109582953B (zh) | 2018-11-02 | 2018-11-02 | 一种资讯的言据支撑评分方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582953B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100221B (zh) * | 2019-06-17 | 2024-02-13 | 深圳市雅阅科技有限公司 | 一种资讯推荐方法、装置、推荐服务器及存储介质 |
CN111027320A (zh) * | 2019-11-15 | 2020-04-17 | 北京三快在线科技有限公司 | 文本相似性计算方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104408115A (zh) * | 2014-11-25 | 2015-03-11 | 三星电子(中国)研发中心 | 一种电视平台上基于语义链接的异构资源推荐方法和装置 |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
CN105824797A (zh) * | 2015-01-04 | 2016-08-03 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和*** |
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及*** |
CN107193805A (zh) * | 2017-06-06 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的文章价值评估方法、装置及存储介质 |
CN107526850A (zh) * | 2017-10-12 | 2017-12-29 | 燕山大学 | 基于多重个性化特征混合架构的社交网络好友推荐方法 |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256595B2 (en) * | 2011-10-28 | 2016-02-09 | Sap Se | Calculating term similarity using a meta-model semantic network |
-
2018
- 2018-11-02 CN CN201811302326.4A patent/CN109582953B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN105893362A (zh) * | 2014-09-26 | 2016-08-24 | 北大方正集团有限公司 | 获取知识点语义向量的方法、确定相关知识点的方法及*** |
CN104408115A (zh) * | 2014-11-25 | 2015-03-11 | 三星电子(中国)研发中心 | 一种电视平台上基于语义链接的异构资源推荐方法和装置 |
CN105824797A (zh) * | 2015-01-04 | 2016-08-03 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和*** |
CN105808648A (zh) * | 2016-02-25 | 2016-07-27 | 焦点科技股份有限公司 | 一种基于r语言程序的个性化推荐方法 |
CN107193805A (zh) * | 2017-06-06 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的文章价值评估方法、装置及存储介质 |
CN107526850A (zh) * | 2017-10-12 | 2017-12-29 | 燕山大学 | 基于多重个性化特征混合架构的社交网络好友推荐方法 |
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
Non-Patent Citations (5)
Title |
---|
一种基于词语多原型向量表示的句子相似度计算方法;郭鸿奇等;《智能计算机与应用》;20180428(第02期);全文 * |
一种基于谱分割的短文本聚类算法;李晓红等;《计算机工程》;20160815(第08期);全文 * |
基于双重注意力模型的微博情感分析方法;张仰森等;《清华大学学报(自然科学版)》;20180215(第02期);全文 * |
虚假评论检测研究综述;李璐旸等;《计算机学报》;20170612(第04期);全文 * |
融合语义相似度与矩阵分解的评分预测算法;王阳等;《计算机应用》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109582953A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN111597314B (zh) | 推理问答方法、装置以及设备 | |
CN110097125B (zh) | 一种基于嵌入表示的跨网络账户关联方法 | |
CN110781317B (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN111368074A (zh) | 一种基于网络结构和文本信息的链路预测方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
CN111524593B (zh) | 基于上下文语言模型和知识嵌入的医疗问答方法及*** | |
CN111563192B (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
CN109062902B (zh) | 一种文本语义表达方法及装置 | |
CN111310023B (zh) | 基于记忆网络的个性化搜索方法及*** | |
CN109492027B (zh) | 一种基于弱可信数据的跨社群潜在人物关系分析方法 | |
CN109582953B (zh) | 一种资讯的言据支撑评分方法、设备和存储介质 | |
Cécillon et al. | Graph embeddings for abusive language detection | |
CN102929962B (zh) | 一种搜索引擎的评测方法 | |
JP7181999B2 (ja) | 検索方法及び検索装置、記憶媒体 | |
CN112632252A (zh) | 对话应答方法、装置、计算机设备和存储介质 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN114676315A (zh) | 基于增强图卷积的属性融合交互推荐模型构建方法及*** | |
CN114494809A (zh) | 特征提取模型优化方法、装置及电子设备 | |
CN111209745B (zh) | 一种资讯可靠性评价方法、设备和存储介质 | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN109558586B (zh) | 一种资讯的言据自证评分方法、设备和存储介质 | |
CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |