CN107220352B - 基于人工智能构建评论图谱的方法和装置 - Google Patents

基于人工智能构建评论图谱的方法和装置 Download PDF

Info

Publication number
CN107220352B
CN107220352B CN201710400557.8A CN201710400557A CN107220352B CN 107220352 B CN107220352 B CN 107220352B CN 201710400557 A CN201710400557 A CN 201710400557A CN 107220352 B CN107220352 B CN 107220352B
Authority
CN
China
Prior art keywords
comment
news
tag
subject
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710400557.8A
Other languages
English (en)
Other versions
CN107220352A (zh
Inventor
时迎超
崔建青
和为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710400557.8A priority Critical patent/CN107220352B/zh
Publication of CN107220352A publication Critical patent/CN107220352A/zh
Priority to US15/942,297 priority patent/US10642938B2/en
Application granted granted Critical
Publication of CN107220352B publication Critical patent/CN107220352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了基于人工智能构建评论图谱的方法和装置。方法的一具体实施方式包括:基于网络页面中的评论数据,确定评论文本;根据评论文本中的特征,识别评论文本中的评论主体和评论观点;基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对;基于新闻资讯,生成与主体观点对相关联的评论标签;基于评论标签和主体观点对,生成评论图谱。该实施方式在对外提供评论时,提高了评论的针对性、精准性以及对评论情感的控制,并且由于构建评论图谱的来源丰富,覆盖面广,因此向外提供的评论也反映大多数评论意见,提升了评论图谱的适用范围。

Description

基于人工智能构建评论图谱的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及基于人工智能构建评论图谱的方法和装置。
背景技术
人工智能(Artificial Intelligence,简称AI)技术的快速发展为人们的日常工作和生活提供了便利。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能越来越多地融入到应用中,结合人工智能的应用可以准确地确定出信息的种类,并按照不同用户的需求将不同种类的信息推送给相应的用户。
随着人工智能的飞速发展,如何让机器能拥有和人类一样的智能,成了无数企业希望做到的事情。在这个背景下,我们希望机器能够读懂一篇文章,并且能够给出有自己观点的评论,或者给出互联网用户对这篇文章的一般观点。
目前的机器评论,一般都是通过传统的信息检索技术,基于新闻关键词索引出相关新闻的评论,并基于新闻与新闻的相关性以及新闻与评论的相关性,选出最相关的评论。
然而,目前的机器评论,人云亦云,给出的评论必须是用户已经在相同或者类似新闻中发表的评论,机器本身并不理解新闻的内容和评论的内容,并且由于检索召回的依据是新闻和评论的相关性,普遍存在冷门新闻无法召回的问题,如果放开相关性限制,容易产出不相关的回复,并且严重依赖评论库的时效性,质量以及大小,因此影响面和召回率低。
发明内容
本申请的目的在于提出一种改进的基于人工智能构建评论图谱的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种基于人工智能构建评论图谱的方法,方法包括:基于网络页面中的评论数据,确定评论文本;根据评论文本中的特征,识别评论文本中的评论主体和评论观点;基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对;基于新闻资讯,生成与主体观点对相关联的评论标签;基于评论标签和主体观点对,生成评论图谱。
在一些实施例中,基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对包括:基于评论主体、评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括评论主体、评论观点和情感倾向的主体观点对。
在一些实施例中,基于新闻资讯,生成与主体观点对相关联的评论标签包括:基于新闻资讯,确定新闻标签;计算新闻标签与评论文本的相关性;将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签。
在一些实施例中,基于新闻资讯,确定新闻标签包括:根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;基于词语的权重和词语之间的共现特征,确定新闻标签。
在一些实施例中,权重模型根据以下步骤确定:获取新闻资讯样本;根据新闻资讯样本中词语的预定特征,采用支持向量机训练权重模型。
在一些实施例中,基于新闻资讯,确定新闻标签还包括:从新闻资讯中抽取事件,事件包括事件类型和事件元素;若事件元素中存在事件元素被选为新闻标签,则将事件确定为新闻标签。
在一些实施例中,计算新闻标签与评论文本的相关性包括以下一项或多项:根据同义词词典,计算新闻标签中的专名或短语与评论主体的相关性;基于预设的专名对应规则,计算新闻标签中的专名与评论主体的相关性;基于文本深度表示模型,计算由新闻标签中的词语生成的向量与由评论主体生成的向量的相似度;基于文本深度表示模型,计算由事件的词语生成的向量与由评论观点生成向量的相似度;基于文本深度表示模型,计算由新闻标签的词语生成的向量与由评论文本中除主体和观点之外的实义词生成的向量的相似度。
在一些实施例中,基于评论标签和评论内容,生成评论图谱包括:将评论标签作为评论图谱的标签节点;将主体观点对作为评论图谱的评论节点;在标签节点和对应标签节点的评论节点之间建立连接关系。
在一些实施例中,基于评论标签和评论内容,生成评论图谱还包括:在语义关联的评论节点之间,建立连接关系;和/或在语义相同的标签节点之间,建立连接关系。
在一些实施例中,在语义关联的评论节点之间,建立连接关系包括:在语义相同和/或语义相反的评论节点之间,建立连接关系。
第二方面,本申请实施例提供了一种生成新闻评论的方法,方法包括:根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;基于词语的权重和词语之间的共现特征,确定新闻标签;基于新闻标签以及根据如上述的基于人工智能构建评论图谱的方法构建的评论图谱,确定评论图谱中对应新闻标签的主体观点对;基于确定的主体观点对,生成新闻评论。
第三方面,本申请实施例提供了一种基于人工智能构建评论图谱的装置,装置包括:评论文本确定单元,用于基于网络页面中的评论数据,确定评论文本;主体观点识别单元,用于根据评论文本中的特征,识别评论文本中的评论主体和评论观点;主体观点对生成单元,用于基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对;评论标签生成单元,用于基于新闻资讯,生成与主体观点对相关联的评论标签;评论图谱生成单元,用于基于评论标签和主体观点对,生成评论图谱。
在一些实施例中,主体观点对生成单元进一步用于:基于评论主体、评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括评论主体、评论观点和情感倾向的主体观点对。
在一些实施例中,评论标签生成单元包括:新闻标签确定单元,用于基于新闻资讯,确定新闻标签;相关性计算单元,用于计算新闻标签与评论文本的相关性;评论标签确定单元,用于将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签。
在一些实施例中,新闻标签确定单元包括:词语权重确定子单元,用于根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;新闻标签确定子单元,用于基于词语的权重和词语之间的共现特征,确定新闻标签。
在一些实施例中,词语权重确定子单元中的权重模型根据以下步骤确定:获取新闻资讯样本;根据新闻资讯样本中词语的预定特征,采用支持向量机训练权重模型。
在一些实施例中,新闻标签确定单元还包括:新闻事件抽取子单元,用于从新闻资讯中抽取事件,事件包括事件类型和事件元素;新闻事件确定子单元,用于若事件元素中存在事件元素被选为新闻标签,则将事件确定为新闻标签。
在一些实施例中,相关性计算单元进一步用于以下一项或多项:根据同义词词典,计算新闻标签中的专名或短语与评论主体的相关性;基于预设的专名对应规则,计算新闻标签中的专名与评论主体的相关性;基于文本深度表示模型,计算由新闻标签中的词语生成的向量与由评论主体生成的向量的相似度;基于文本深度表示模型,计算由事件的词语生成的向量与由评论观点生成向量的相似度;基于文本深度表示模型,计算由新闻标签的词语生成的向量与由评论文本中除主体和观点之外的实义词生成的向量的相似度。
在一些实施例中,评论图谱生成单元包括:标签节点确定单元,用于将评论标签作为评论图谱的标签节点;评论节点确定单元,用于将主体观点对作为评论图谱的评论节点;标签评论连接单元,用于在标签节点和对应标签节点的评论节点之间建立连接关系。
在一些实施例中,评论图谱生成单元还包括:关联评论连接单元,用于在语义关联的评论节点之间,建立连接关系;和/或同义标签连接单元,用于在语义相同的标签节点之间,建立连接关系。
在一些实施例中,关联评论连接单元包括:语义评论连接单元,用于在语义相同和/或语义相反的评论节点之间,建立连接关系。
第四方面,本申请实施例提供了一种生成新闻评论的装置,装置包括:词语权重确定单元,用于根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;新闻标签确定单元,用于基于词语的权重和词语之间的共现特征,确定新闻标签;主体观点对确定单元,用于基于新闻标签以及根据如上任意一项的基于人工智能构建评论图谱的装置构建的评论图谱,确定评论图谱中对应新闻标签的主体观点对;新闻评论生成单元,用于基于确定的主体观点对,生成新闻评论。
第五方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项基于人工智能构建评论图谱的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任意一项基于人工智能构建评论图谱的方法。
本申请实施例提供的基于人工智能构建评论图谱的方法和装置,首先基于网络页面中的评论数据,确定评论文本;之后,根据评论文本中的特征,识别评论文本中的评论主体和评论观点;之后,基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对;之后,生成与主体观点对相关联的评论标签;最后基于评论标签和主体观点对,生成评论图谱。本实施例提供的评论图谱,可以基于主体观点对提供评论内容以及评论情感,可以基于评论标签提供评论内容的应用环境,因此在对外提供评论时,提高了评论的针对性、精准性以及对评论情感的控制,并且由于构建评论图谱的来源丰富,覆盖面广,因此向外提供的评论也反映大多数评论意见,提升了评论图谱的适用范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的基于人工智能构建评论图谱的方法的一个实施例的示意性流程图;
图2是根据本申请的基于新闻资讯生成与主体观点对相关联的评论标签的方法的一个实施例的示意性流程图;
图3a是根据本申请实施例的基于人工智能构建评论图谱的方法的一个应用场景的示例性流程图;
图3b根据图3a中应用场景的示意性流程图构建的评论图谱。
图4是根据本申请的基于人工智能构建评论图谱的装置的一个实施例的示例性结构图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请的基于人工智能构建评论图谱的方法的一个实施例的流程100。该基于人工智能构建评论图谱的方法包括:
在步骤110中,基于网络页面中的评论数据,确定评论文本。
在本实施例中,网络页面是指互联网网络中所使用的页面,例如微博页面、论坛(BBS)页面、互联网网页以及用户原创内容(UGC)等。从海量的互联网网页、微博以及UGC资源中,挖掘出有情感倾向的文本的具体流程如下:首先,利用网络爬虫,定向抓取评论类型网页、新闻资讯评论、BBS及微博等潜在拥有评论数据的网站数据,然后,对网页内容进行提取以及断句,生成潜在的评论句,然后利用情感倾向性分析技术,选择出有情感倾向的句子,即为挖掘的评论文本。
在步骤120中,根据评论文本中的特征,识别评论文本中的评论主体和评论观点。
在本实施例中,网页中挖掘的评论文本,大部分是网民的UGC评论,这些数据都是无结构的数据,也就是机器根本不知道这些句子的评论对象和评论观点是什么,因此需要识别评论主体和识别评论观点。
在识别评论主体和评论观点时,可以采用现有技术或未来发展的技术中的语义识别技术,本申请对此不做限定。例如,可以基于隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)等模型来识别评论主体和评论观点。
具体地,以CRF为例,CRF模型所用到的评论文本中的特征主要可以包括:词特征、词性特征、实体特征和句法特征。例如:评论文本“AA篇,蛮好看的!”,其中评论主体是“AA篇”,评论观点是“蛮好看”;评论文本“我喜欢BBB”,评论主体是“BBB”,评论观点是“我喜欢”。
在步骤130中,基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对。
在本实施例中,基于步骤120中识别的评论主体和评论观点,可以提取包括评论主体、评论观点和情感倾向的主体观点对。在此基础上,还可以增加其它提取主体观点对的约束条件,例如,可以基于评论主体、评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括评论主体、评论观点和情感倾向的主体观点对。这里的篇章信息是指篇幅信息和章节信息,实体类型是指具有共同要素的实体的集合。
在步骤140中,基于新闻资讯,生成与主体观点对相关联的评论标签。
在本实施例中,评论标签(tag)是约束评论的应用环境的词的集合。例如:新闻“XXX工作室晒XXX床照,但网友却发现了这个秘密”,其中评论:“支持XXX,从农村一步步走到现在真不容易啊,而且不做作,有农村那种清新淳朴,不像有的明星太做作了”生成的主体观点对有:<XXX,支持,+>,<XXX,从农村一步步走到现在真不容易,+>,<XXX,不做作,+>,<XXX,有农村那种清新淳朴,+>,<XXX,不像有的明星太做作,+>。基于这些观点,我们可以生成很多的评论,例如:“支持XXX”,“支持XXX,从农村一步步走到现在真不容易呀”,“XXX有农村那种清新淳朴,不像有的明星太做作啦”。而这些观点在什么时候可以用于评价XXX?这就是评论tag的主要作用。因此基于我们的tag标注,这些评论的tag都是“XXX”。因此只要是报道“XXX”的新闻都可以用这些评论来评价。例如新闻“网曝XXX、YYY假戏真做坐实恋情,XXX、YYY恋爱细节遭扒”,还例如“同样是吃饭,TTT、XXX被夸真实、GGG却招黑”。
在步骤150中,基于评论标签和主体观点对,生成评论图谱。
在本实施例中,评论图谱的构建,主要是把评论的标签以及主体观点对,存储成结构化的形式。
在本实施例的一些可选实现方式中,基于评论标签和评论内容,生成评论图谱包括:将评论标签作为评论图谱的标签节点;将主体观点对作为评论图谱的评论节点;在标签节点和对应标签节点的评论节点之间建立连接关系。
在本实现方式中,可以连接标签节点和评论节点,得到与评论标签相关联的主体观点对。例如,对于标签节点,主要存储的是评论的tag,以及该tag的一些属性,属性可以是类型(包括:动作词,人名,地名,书名,电影名等)。其中,评论tag是指的有实际意义的词或者短语,例如专名,名词,实义动词等。如:“XXX”,“坐实恋情”,“YYY”等。评论节点存储的是具体的评论内容,包括:评论主体,评论观点,以及评论的情感倾向,例如:<XXX,支持,+>,<YYY,帅惨了,+>。连接关系体现为评论图谱中标签节点和评论节点之间的边。标签节点到评论节点之间的边主要是指对应的评论可以用来评价对应的标签。例如:如果某个新闻的标签包含YYY,我们就可以用<YYY,帅惨了,+>来做出评论,可以生成:YYY真是帅惨了。
进一步地,基于评论标签和评论内容,生成评论图谱还可以包括:在语义关联的评论节点之间,建立连接关系;和/或在语义相同的标签节点之间,建立连接关系。
在这里,评论节点与评论节点之间的边主要是描述评论节点与评论节点之间的关系,目前包括:同义关系可以替换使用,反义关系是评论相同属性的相反的观点。标签节点与标签节点之间的边主要描述tag节点与tag节点之间的关系,目前主要有同义关系。
本申请的上述实施例提供的基于人工智能构建评论图谱的方法,构建的评论图谱所提供的服务,不再像其它的检索类评论***只能覆盖一部分的新闻资讯,而是基于新闻资讯的特定的点就能产出评论,评论的覆盖率更高,并且不再像其它的检索类评论***一味的照搬相似新闻的评论,并且不知道评论主体和评论内容是什么,而是基于情感分析技术,文本理解技术等,做到了评论的理解和再生以及对评论点和评论情感的控制。
基于本申请的上述实施例,在一些可选的实现方式中,基于新闻资讯,生成与主体观点对相关联的评论标签可以包括:基于新闻资讯,确定新闻标签;计算新闻标签与评论文本的相关性;将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签。
在本实现方式中,首先,可以提取新闻中的关键词,作为新闻标签,用以表征新闻。这里的提取新闻中关键词的方法,可以采用多种方法实现,例如采用词频-逆向文件频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)、主题模型(Topic-model)、词语位置加权算法(Textrank)或关键词提取算法(Rake)等来提取关键词。
之后,可以计算新闻标签与评论文本的相关性。计算相关性的方法可以采用现有技术或未来发展的技术中计算相关性的方法,本申请对此不做限定。例如,可以采用基于语义词典(Wordnet)的词汇相似度算法、采用文本深度表示模型(Word2vec)训练得到词汇向量计算相似度、采用文档主题生成模型(Lda)训练得到词汇向量计算相似度、采用利用新闻聚合器(GoogleNews)语料得到词汇相似度模型以及采用预先确定的对应关系数据库等来计算相关性。
进一步地,基于新闻资讯,确定新闻标签可以包括:根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;基于词语的权重和词语之间的共现特征,确定新闻标签。
在这里,预定特征可以为基于样本确定的对于新闻标签贡献较大的特征。例如,预定特征可以包括以下一项或者多项:出现次数、出现位置、词频(Tf)、逆向文件频率(Idf)、专名类别以及是否出现在标题上。
这里的权重模型,为用于确定某一指标在整体评价中的相对重要程度的模型,例如统计平均模型、变异系数模型、层次分析模型和客观权重赋权模型CRITIC(CriteriaImportance Though Intercrieria Correlation)等。
具体地,参考图2,图2示出了根据本申请的基于新闻资讯生成与主体观点对相关联的评论标签的方法的一个实施例的示意性流程图。
如图2所示,该基于新闻资讯生成与主体观点对相关联的评论标签的方法200包括:
在步骤210中,根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重。
在本实施例中,新闻资讯中词语的预定特征,可以为基于样本确定的对于新闻标签贡献较大的特征。例如,预定特征可以包括以下一项或者多项:出现次数、出现位置、词频、逆向文件频率、专名类别以及是否出现在标题上。
在本实施例的一些可选的实现方式中,权重模型根据以下步骤确定:获取新闻资讯样本;根据新闻资讯样本中词语的预定特征,采用支持向量机训练权重模型。
在本实现方式中,在获取新闻资讯样本之后,可以利用词语的上述预定特征,采用支持向量机(SVM)训练权重模型。
在步骤220中,基于词语的权重和词语之间的共现特征,确定新闻标签。
在本实施例中,可以基于每个词语的权重,以及词语之间的共现特征(基于统计的每两个词语之间的共现概率,也可以使用语义相似性度量方法(Google距离)),筛选出新闻tag,具体就是基于词的共现数据对每个词的权重进行微调。对于每个词的最终打分,除了考虑这个词的的SVM打分,还考虑与这个词共现的词的重要性。
在本实施例的一些可选实现方式中,基于新闻资讯,确定新闻标签还包括:从新闻资讯中抽取事件,事件包括事件类型和事件元素;若事件元素中存在事件元素被选为新闻标签,则将事件确定为新闻标签。
在本实现方式中,新闻资讯一般报道的都是特定事件,所谓事件,在自动内容抽取(Automatic Content Extraction,ACE)评测会议中,“事件”被描述为一个动作的发生或状态的变化(ACE2005定义了8种事件类别以及33种子类别)。事件包括事件类型和事件元素。例如:新闻“网曝XXX、YYY假戏真做坐实恋情,XXX、YYY恋爱细节遭扒”,事件为:<坐实恋情,XXX,YYY,NONE,NONE>。
如果事件中的某一个元素被选为新闻标签,则事件整体会作为新闻标签存在。示例性地,对于新闻“不满父亲家旧房遭强拆,SS地一女子用扁担砸毁挖掘机获缓刑”,通过第一步的SVM线性模型,会给出文章中每个词一个分数,例如“强拆:0.873”,“SS:0.371”,“扁担:0.574”,“缓刑:0.699”,“挖掘机:0.811”,“行为:0.126”……;然后第二步会基于第一步的每个词的打分,以及词之间的共现特征(例如:“维权-强拆:0.016”,“被告人-缓刑:0.0078”)去筛选新闻标签,本文经过筛选的新闻标签有:强拆,挖掘机,缓刑,扁担,SS,女子,……(为了保证评论标签的召回,新闻标签是尽可能的高召回的);基于第二步生成的新闻标签,对于提取的新闻事件,如果事件相关的词汇不在新闻标签中,会补充到新闻标签中,例如事件:“<砸毁,女子,挖掘机>”,倘若“砸毁”不在新闻标签中,则把它扩充到新闻标签中。
在步骤230中,计算新闻标签与评论文本的相关性。
在本实施例中,计算新闻标签与评论文本的相关性时,可以采用任意用于计算相关性的方法来计算,例如,可以采用基于语义词典(Wordnet)的词汇相似度算法、采用文本深度表示模型(Word2vec)训练得到词汇向量计算相似度、采用文档主题生成模型(Lda)训练得到词汇向量计算相似度、利用新闻聚合器(GoogleNews)语料得到词汇相似度模型以及预先确定的对应关系数据库等来计算相关性。
在本实施例的一些可选的实现方式中,计算新闻标签与评论文本的相关性可以包括以下一项或多项:根据同义词词典,计算新闻标签中的专名或短语与评论主体的相关性;基于预设的专名对应规则,计算新闻标签中的专名与评论主体的相关性;基于文本深度表示模型,计算由新闻标签中的词语生成的向量与由评论主体生成的向量的相似度;基于文本深度表示模型,计算由事件的词语生成的向量与由评论观点生成向量的相似度;基于文本深度表示模型,计算由新闻标签的词语生成的向量与由评论文本中除主体和观点之外的实义词生成的向量的相似度。
在本实现方式中,新闻tag就是评论tag的候选tag,计算新闻tag与评论文本的相关性,作为下一步评论tag抽取的一维重要特征。
示例性的,可以采用多策略的相关性计算方法,生成评论标签的标注,包括:
对于评价主体,利用同义对齐找到新闻标签中和评价主体一致的专名或者短语;同义对齐主要策略为:1)利用同义词词典直接匹配;2)基于规则对专名进行同义对齐,例如:我H->H哥,老H->H哥。因为如果“我H”和“H哥”同时出现在评论和新闻中,那么他们俩是一个实体的概率就非常的高;3)基于文本深度表示模型word2Vec对于每一个词生成一个向量,计算评论主体中的实义词与新闻标签的相似度,并设定一个阈值进行筛选。
对于评论文本中的观点词,我们会判定观点是否和特定事件有关,如果相关则把整个事件作为新闻标签。主要策略就是利用的word2Vec计算该观点词与新闻标签的词之间的相似度,并设定一个阈值进行筛选。
对于评论文本中的除评论主体中的实义词之外的普通的实义词,主要策略就是利用的word2Vec计算该实义词与新闻标签的词之间的相似度,并设定一个阈值进行筛选。
在步骤240中,将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签。
在本实施例中,在基于上述步骤230得到相关性之后,若相关性符合预设阈值,则可以认为该新闻标签是与主体观点对相关联的评论标签。
本申请上述实施例提供的基于新闻资讯生成与主体观点对相关联的评论标签的方法,通过采用权重模型确定词语的权重,基于词语的权重和词语之间的共现特征,确定新闻标签,并计算新闻标签与评论文本的相关性,将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签,确定新闻标签的准确度较高,且评论标签与新闻标签的相关性高,因此确定的评论标签更为准确。
以下结合图3a和图3b,描述本申请实施例的基于人工智能构建评论图谱的方法的示例性应用场景。
如图3a所示,图3a示出了根据本申请实施例的基于人工智能构建评论图谱的方法的一个应用场景的示例性流程图。
在图3a中,首先,对于微博、论坛等社交媒体310、互联网原创评论320以及互联网网页库330,执行步骤340;在步骤340中,挖掘与识别评论文本,之后执行步骤350;在步骤350中,根据评论文本中的特征,识别评论主体和评论观点,之后执行步骤360;在步骤360中,基于识别的评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对,之后执行步骤370;在步骤370中,基于新闻资讯,生成对应主体观点对的评论标签,之后执行步骤380;在步骤380中,基于主体观点对和评论标签,构建评论图谱。
如图3b所示,图3b示出了根据图3a中应用场景的示意性流程图构建的评论图谱。
在图3b中,评论标签包括评论标签内容,以及该标签内容的一些属性,例如属性是类型(包括:动作词,人名,地名,书名,电影名,等),评论标签内容是指有实际意义的词或者短语,例如专名,名词,实义动词等,例如图3b中的:“XXX”,“X宝”“坐实恋情”,“YYY”,“Y仔”。
主体观点对包括:评论主体,评论观点以及评论的情感倾向,例如图3b中的:<XXX,支持,+>,<XXX,真美,+>,<XXX,好漂亮,+>,<XXX,清新淳朴,+>,<XXX,不做作,+>,<XXX和YYY,天生一对,+>,<娱记,就知道关注明星恋情,->,<YYY,不要ZZZ了吗,+>,<YYY,帅惨了,+>。
在图3b构建的评论图谱中,建立了评论标签到评论节点的连接边,包括:“XXX”至<XXX,支持,+>,“XXX”至<XXX,真美,+>,“XXX”至<XXX,好漂亮,+>,“XXX”至<XXX,清新淳朴,+>,“XXX”至<XXX,不做作,+>,“XXX”至<XXX和YYY,天生一对,+>这6个连接边。
在图3b构建的评论图谱中,还建立了评论节点与评论节点之间的连接边,包括:<XXX,真美,+>至<XXX,好漂亮,+>这一同义关系的连接边,同义关系即可以替换使用。
在图3b构建的评论图谱中,还建立了评论标签节点与评论标签节点之间的连接边,包括:“XXX”至“X宝”这一同义关系的连接边,以及“YYY”至“Y仔”这一同义关系的连接边,同义关系即可以替换使用。
本申请的上述应用场景中提供的基于人工智能构建评论图谱的方法,在对外提供评论时,提高了评论的针对性、精准性以及对评论情感的控制,并且由于构建评论图谱的来源丰富,覆盖面广,因此向外提供的评论也反映大多数评论意见,提升了评论图谱的适用范围。
本申请实施例还提供了一种生成新闻评论的方法,方法包括:根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;基于词语的权重和词语之间的共现特征,确定新闻标签;基于新闻标签以及根据如上任意一项的基于人工智能构建评论图谱的方法构建的评论图谱,确定评论图谱中对应新闻标签的主体观点对;基于确定的主体观点对,生成新闻评论。
在本实施例中,在基于新闻标签以及根据如上任意一项的基于人工智能构建评论图谱的方法构建的评论图谱,确定评论图谱中对应新闻标签的主体观点对时,若评论图谱中包括的评论标签与本实施例中确定的新闻标签相对应,则认为与该评论标签对应的主体观点对也与该新闻标签相对应。
应当理解,生成新闻评论的方法的实施例中基于人工智能构建评论图谱的方法与图1至图3b所示的基于人工智能构建评论图谱的方法的实施例相对应,由此,上文针对图1至图3b中基于人工智能构建评论图谱的方法描述的操作和特征同样适用于生成新闻评论的方法的实施例中基于人工智能构建评论图谱的方法,在此不再赘述。
本申请上述实施例提供的生成新闻评论的方法,提高了评论的针对性、精准性以及对评论情感的控制,并且由于构建评论图谱的来源丰富,覆盖面广,因此向外提供的评论也反映大多数评论意见,提升了评论图谱的适用范围。
进一步参考图4,作为对上述方法的实现,本申请实施例提供了一种基于人工智能构建评论图谱的装置的一个实施例,该基于人工智能构建评论图谱的方法的实施例与图1至图3b所示的基于人工智能构建评论图谱的方法的实施例相对应,由此,上文针对图1至图3b中基于人工智能构建评论图谱的方法描述的操作和特征同样适用于基于人工智能构建评论图谱的装置400及其中包含的单元,在此不再赘述。
如图4所示,该配置基于人工智能构建评论图谱的装置400包括:装置包括:评论文本确定单元410,用于基于网络页面中的评论数据,确定评论文本;主体观点识别单元420,用于根据评论文本中的特征,识别评论文本中的评论主体和评论观点;主体观点对生成单元430,用于基于评论主体和评论观点,生成包括评论主体、评论观点和情感倾向的主体观点对;评论标签生成单元440,用于基于新闻资讯,生成与主体观点对相关联的评论标签;评论图谱生成单元450,用于基于评论标签和主体观点对,生成评论图谱。
在本实施例的一些可选实现方式中,主体观点对生成单元进一步用于:基于评论主体、评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括评论主体、评论观点和情感倾向的主体观点对。
在本实施例的一些可选实现方式中(图中未示出),评论标签生成单元包括:新闻标签确定单元,用于基于新闻资讯,确定新闻标签;相关性计算单元,用于计算新闻标签与评论文本的相关性;评论标签确定单元,用于将相关性符合预设阈值的新闻标签确定为与主体观点对相关联的评论标签。
在本实施例的一些可选实现方式中(图中未示出),新闻标签确定单元包括:词语权重确定子单元,用于根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;新闻标签确定子单元,用于基于词语的权重和词语之间的共现特征,确定新闻标签。
在本实施例的一些可选实现方式中,词语权重确定子单元中的权重模型根据以下步骤确定:获取新闻资讯样本;根据新闻资讯样本中词语的预定特征,采用支持向量机训练权重模型。
在本实施例的一些可选实现方式中(图中未示出),新闻标签确定单元还包括:新闻事件抽取子单元,用于从新闻资讯中抽取事件,事件包括事件类型和事件元素;新闻事件确定子单元,用于若事件元素中存在事件元素被选为新闻标签,则将事件确定为新闻标签。
在本实施例的一些可选实现方式中,相关性计算单元进一步用于以下一项或多项:根据同义词词典,计算新闻标签中的专名或短语与评论主体的相关性;基于预设的专名对应规则,计算新闻标签中的专名与评论主体的相关性;基于文本深度表示模型,计算由新闻标签中的词语生成的向量与由评论主体生成的向量的相似度;基于文本深度表示模型,计算由事件的词语生成的向量与由评论观点生成向量的相似度;基于文本深度表示模型,计算由新闻标签的词语生成的向量与由评论文本中除主体和观点之外的实义词生成的向量的相似度。
在本实施例的一些可选实现方式中(图中未示出),评论图谱生成单元包括:标签节点确定单元,用于将评论标签作为评论图谱的标签节点;评论节点确定单元,用于将主体观点对作为评论图谱的评论节点;标签评论连接单元,用于在标签节点和对应标签节点的评论节点之间建立连接关系。
在本实施例的一些可选实现方式中(图中未示出),评论图谱生成单元还包括:关联评论连接单元,用于在语义关联的评论节点之间,建立连接关系;和/或同义标签连接单元,用于在语义相同的标签节点之间,建立连接关系。
在本实施例的一些可选实现方式中(图中未示出),关联评论连接单元包括:语义评论连接单元,用于在语义相同和/或语义相反的评论节点之间,建立连接关系。
本申请实施例还提供了一种生成新闻评论的装置,装置包括:装置包括:词语权重确定单元,用于根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;新闻标签确定单元,用于基于词语的权重和词语之间的共现特征,确定新闻标签;主体观点对确定单元,用于基于新闻标签以及根据如上任意一项的基于人工智能构建评论图谱的装置构建的评论图谱,确定评论图谱中对应新闻标签的主体观点对;新闻评论生成单元,用于基于确定的主体观点对,生成新闻评论。
在本实施例中,应当理解,生成新闻评论的装置中的新闻标签确定单元,用于对当前需要进行评论的新闻资讯生成标签;而基于人工智能构建评论图谱的装置中的新闻标签确定单元,用于对新闻资讯样本中的新闻资讯生成标签,两者的所处理的新闻资讯的对象不同。另外,该生成新闻评论的装置的实施例,与上述的生成新闻评论的装置的实施例相对应,由此,上文针对生成新闻评论的方法描述的操作和特征同样适用于生成新闻评论的装置及其中包含的单元,在此不再赘述。
本申请还提供了一种设备的实施例,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项的基于人工智能构建评论图谱的方法。
本申请还提供了一种计算机可读存储介质的实施例,其上存储有计算机程序,该程序被处理器执行时实现如上任意一项的基于人工智能构建评论图谱的方法。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括评论文本确定单元、主体观点识别单元、主体观点对生成单元、评论标签生成单元和评论图谱生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,评论文本确定单元还可以被描述为“基于网络页面中的评论数据,确定评论文本的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:基于网络页面中的评论数据,确定评论文本;根据评论文本中的特征,识别评论文本中的评论主体和评论观点;基于所述评论主体和所述评论观点,生成包括所述评论主体、所述评论观点和情感倾向的主体观点对;基于新闻资讯,生成与主体观点对相关联的评论标签;基于评论标签和主体观点对,生成评论图谱。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (24)

1.一种基于人工智能构建评论图谱的方法,其特征在于,所述方法包括:
基于网络页面中的评论数据,确定评论文本;
根据所述评论文本中的特征,识别所述评论文本中的评论主体和评论观点;
基于所述评论主体和所述评论观点,生成包括所述评论主体、所述评论观点和情感倾向的主体观点对;
基于新闻资讯,生成与所述主体观点对相关联的评论标签,所述评论标签是约束评论的应用环境的词的集合;
基于所述评论标签和所述主体观点对,生成评论图谱。
2.根据权利要求1所述的方法,其特征在于,所述基于所述评论主体和所述评论观点,生成包括所述评论主体、所述评论观点和情感倾向的主体观点对包括:
基于所述评论主体、所述评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括所述评论主体、所述评论观点和情感倾向的主体观点对。
3.根据权利要求1所述的方法,其特征在于,所述基于新闻资讯,生成与所述主体观点对相关联的评论标签包括:
基于新闻资讯,确定新闻标签;
计算所述新闻标签与所述评论文本的相关性;
将所述相关性符合预设阈值的新闻标签确定为与所述主体观点对相关联的评论标签。
4.根据权利要求3所述的方法,其特征在于,所述基于新闻资讯,确定新闻标签包括:
根据所述新闻资讯中词语的预定特征,采用权重模型确定词语的权重;
基于所述词语的权重和所述词语之间的共现特征,确定新闻标签。
5.根据权利要求4所述的方法,其特征在于,所述权重模型根据以下步骤确定:
获取新闻资讯样本;
根据所述新闻资讯样本中词语的所述预定特征,采用支持向量机训练权重模型。
6.根据权利要求4所述的方法,其特征在于,所述基于所述新闻资讯,确定新闻标签还包括:
从新闻资讯中抽取事件,所述事件包括事件类型和事件元素;
若所述事件元素中存在事件元素被选为所述新闻标签,则将所述事件确定为所述新闻标签。
7.根据权利要求3所述的方法,其特征在于,所述计算新闻标签与所述评论文本的相关性包括以下一项或多项:
根据同义词词典,计算所述新闻标签中的专名或短语与所述评论主体的相关性;
基于预设的专名对应规则,计算所述新闻标签中的专名与所述评论主体的相关性;
基于文本深度表示模型,计算由所述新闻标签中的词语生成的向量与由所述评论主体生成的向量的相似度;
基于文本深度表示模型,计算由从新闻资讯中抽取的事件的词语生成的向量与由所述评论观点生成向量的相似度;
基于文本深度表示模型,计算由所述新闻标签的词语生成的向量与由所述评论文本中除所述评论主体和所述评论观点之外的实义词生成的向量的相似度。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述基于所述评论标签和评论内容,生成评论图谱包括:
将所述评论标签作为所述评论图谱的标签节点;
将所述主体观点对作为所述评论图谱的评论节点;
在所述标签节点和对应所述标签节点的所述评论节点之间建立连接关系。
9.根据权利要求8所述的方法,其特征在于,所述基于所述评论标签和评论内容,生成评论图谱还包括:
在语义关联的所述评论节点之间,建立连接关系;和/或
在语义相同的所述标签节点之间,建立连接关系。
10.根据权利要求9所述的方法,其特征在于,所述在语义关联的所述评论节点之间,建立连接关系包括:
在语义相同和/或语义相反的所述评论节点之间,建立连接关系。
11.一种生成新闻评论的方法,其特征在于,所述方法包括:
根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;
基于所述词语的权重和所述词语之间的共现特征,确定新闻标签;
基于所述新闻标签以及根据如权利要求1-10任意一项所述的基于人工智能构建评论图谱的方法构建的评论图谱,确定所述评论图谱中对应所述新闻标签的主体观点对;
基于确定的主体观点对,生成新闻评论。
12.一种基于人工智能构建评论图谱的装置,其特征在于,所述装置包括:
评论文本确定单元,用于基于网络页面中的评论数据,确定评论文本;
主体观点识别单元,用于根据所述评论文本中的特征,识别所述评论文本中的评论主体和评论观点;
主体观点对生成单元,用于基于所述评论主体和所述评论观点,生成包括所述评论主体、所述评论观点和情感倾向的主体观点对;
评论标签生成单元,用于基于新闻资讯,生成与所述主体观点对相关联的评论标签,所述评论标签是约束评论的应用环境的词的集合;
评论图谱生成单元,用于基于所述评论标签和所述主体观点对,生成评论图谱。
13.根据权利要求12所述的装置,其特征在于,所述主体观点对生成单元进一步用于:
基于所述评论主体、所述评论观点以及以下三项中的一项或多项:评论文本的篇章信息、共现信息以及实体类型,提取包括所述评论主体和所述评论观点和情感倾向的主体观点对。
14.根据权利要求12所述的装置,其特征在于,所述评论标签生成单元包括:
新闻标签确定单元,用于基于新闻资讯,确定新闻标签;
相关性计算单元,用于计算所述新闻标签与所述评论文本的相关性;
评论标签确定单元,用于将所述相关性符合预设阈值的新闻标签确定为与所述主体观点对相关联的评论标签。
15.根据权利要求14所述的装置,其特征在于,所述新闻标签确定单元包括:
词语权重确定子单元,用于根据所述新闻资讯中词语的预定特征,采用权重模型确定词语的权重;
新闻标签确定子单元,用于基于所述词语的权重和所述词语之间的共现特征,确定新闻标签。
16.根据权利要求15所述的装置,其特征在于,所述词语权重确定子单元中的权重模型根据以下步骤确定:
获取新闻资讯样本;
根据所述新闻资讯样本中词语的所述预定特征,采用支持向量机训练权重模型。
17.根据权利要求15所述的装置,其特征在于,所述新闻标签确定单元还包括:
新闻事件抽取子单元,用于从新闻资讯中抽取事件,所述事件包括事件类型和事件元素;
新闻事件确定子单元,用于若所述事件元素中存在事件元素被选为所述新闻标签,则将所述事件确定为所述新闻标签。
18.根据权利要求14所述的装置,其特征在于,所述相关性计算单元进一步用于以下一项或多项:
根据同义词词典,计算所述新闻标签中的专名或短语与所述评论主体的相关性;
基于预设的专名对应规则,计算所述新闻标签中的专名与所述评论主体的相关性;
基于文本深度表示模型,计算由所述新闻标签中的词语生成的向量与由所述评论主体生成的向量的相似度;
基于文本深度表示模型,计算由从新闻资讯中抽取的事件的词语生成的向量与由所述评论观点生成向量的相似度;
基于文本深度表示模型,计算由所述新闻标签的词语生成的向量与由所述评论文本中除所述评论主体和所述评论观点之外的实义词生成的向量的相似度。
19.根据权利要求12至18任意一项所述的装置,其特征在于,所述评论图谱生成单元包括:
标签节点确定单元,用于将所述评论标签作为所述评论图谱的标签节点;
评论节点确定单元,用于将所述主体观点对作为所述评论图谱的评论节点;
标签评论连接单元,用于在所述标签节点和对应所述标签节点的所述评论节点之间建立连接关系。
20.根据权利要求19所述的装置,其特征在于,所述评论图谱生成单元还包括:
关联评论连接单元,用于在语义关联的所述评论节点之间,建立连接关系;和/或
同义标签连接单元,用于在语义相同的所述标签节点之间,建立连接关系。
21.根据权利要求20所述的装置,其特征在于,所述在语义关联的所述评论节点之间,建立连接关系包括:
语义评论连接单元,用于在语义相同和/或语义相反的所述评论节点之间,建立连接关系。
22.一种生成新闻评论的装置,其特征在于,所述装置包括:
词语权重确定单元,用于根据新闻资讯中词语的预定特征,采用权重模型确定词语的权重;
新闻标签确定单元,用于基于所述词语的权重和所述词语之间的共现特征,确定新闻标签;
主体观点对确定单元,用于基于所述新闻标签以及根据如权利要求12-21任意一项所述的基于人工智能构建评论图谱的装置构建的评论图谱,确定所述评论图谱中对应所述新闻标签的主体观点对;
新闻评论生成单元,用于基于确定的主体观点对,生成新闻评论。
23.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任意一项所述的基于人工智能构建评论图谱的方法。
24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任意一项所述的基于人工智能构建评论图谱的方法。
CN201710400557.8A 2017-05-31 2017-05-31 基于人工智能构建评论图谱的方法和装置 Active CN107220352B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710400557.8A CN107220352B (zh) 2017-05-31 2017-05-31 基于人工智能构建评论图谱的方法和装置
US15/942,297 US10642938B2 (en) 2017-05-31 2018-03-30 Artificial intelligence based method and apparatus for constructing comment graph

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710400557.8A CN107220352B (zh) 2017-05-31 2017-05-31 基于人工智能构建评论图谱的方法和装置

Publications (2)

Publication Number Publication Date
CN107220352A CN107220352A (zh) 2017-09-29
CN107220352B true CN107220352B (zh) 2020-12-08

Family

ID=59947621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710400557.8A Active CN107220352B (zh) 2017-05-31 2017-05-31 基于人工智能构建评论图谱的方法和装置

Country Status (2)

Country Link
US (1) US10642938B2 (zh)
CN (1) CN107220352B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672706B (zh) * 2017-10-16 2022-06-14 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器及存储介质
CN107657056B (zh) * 2017-10-18 2022-02-18 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
CN109033050B (zh) * 2018-06-29 2019-12-17 北京百度网讯科技有限公司 文章生成方法、设备及存储介质
CN109241402A (zh) * 2018-07-31 2019-01-18 成都华栖云科技有限公司 一种基于新闻内容的虚拟评论机器导入方法
CN109299330B (zh) * 2018-08-13 2021-06-25 中山大学 一种基于影评的电影标签自动生成方法
CN109815482B (zh) * 2018-12-17 2023-05-23 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN109815481B (zh) * 2018-12-17 2023-05-26 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN109739848B (zh) * 2018-12-28 2021-11-09 深圳市科联汇通科技有限公司 一种数据提取方法
CN111506734B (zh) * 2019-01-30 2024-01-26 国家计算机网络与信息安全管理中心 一种事件演化知识图谱构建方法、装置、设备及存储介质
CN110070256B (zh) * 2019-02-28 2023-12-08 国网浙江省电力有限公司 基于critic方法的零电量用户排查优先度权重计算方法
US11106864B2 (en) * 2019-03-22 2021-08-31 International Business Machines Corporation Comment-based article augmentation
CN110188158B (zh) * 2019-05-06 2022-12-27 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110263344B (zh) * 2019-06-25 2022-04-19 创优数字科技(广东)有限公司 一种基于混合模型的文本情感分析方法、装置和设备
CN110569334A (zh) * 2019-09-11 2019-12-13 北京搜狐新动力信息技术有限公司 一种自动生成评论的方法及装置
CN110968668B (zh) * 2019-11-29 2023-03-14 中国农业科学院农业信息研究所 一种基于超网络的网络舆情主题相似度计算方法及装置
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111563190B (zh) * 2020-04-07 2023-03-14 中国电子科技集团公司第二十九研究所 一种区域网络用户行为的多维度分析与监管方法及***
CN111831883A (zh) * 2020-04-21 2020-10-27 北京嘀嘀无限科技发展有限公司 一种用户群体意见确定方法及装置
CN111222499B (zh) * 2020-04-22 2020-08-14 成都索贝数码科技股份有限公司 新闻自动拆条的条件随机场算法预测结果回流训练方法
CN111242110B (zh) * 2020-04-28 2020-08-14 成都索贝数码科技股份有限公司 一种新闻自动拆条的自适应条件随机场算法的训练方法
US11487943B2 (en) * 2020-06-17 2022-11-01 Tableau Software, LLC Automatic synonyms using word embedding and word similarity models
CN111753050A (zh) * 2020-06-18 2020-10-09 微软技术许可有限责任公司 基于话题图谱的评论生成
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN111858886B (zh) * 2020-07-13 2022-05-31 北京航空航天大学 一种机场评论的对象与观点抽取***
CN111859146B (zh) * 2020-07-30 2024-02-23 网易(杭州)网络有限公司 信息挖掘方法、装置及电子设备
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测***及方法
CN113312532B (zh) * 2021-06-01 2022-10-21 哈尔滨工业大学 一种基于深度学习面向公检法领域的舆情等级预测方法
US11928117B2 (en) * 2021-06-23 2024-03-12 International Business Machines Corporation Live comment management
CN113704630B (zh) * 2021-10-27 2022-04-22 武汉卓尔数字传媒科技有限公司 一种信息推送方法、装置、可读存储介质和电子设备
CN113902354B (zh) * 2021-12-03 2022-03-04 环球数科集团有限公司 旅游评价数据处理方法、装置和计算机设备
TWI814396B (zh) 2022-05-25 2023-09-01 國立成功大學 知識圖譜建立方法及系統以及新聞事件對話方法及系統
CN115098650B (zh) * 2022-08-25 2022-11-04 华扬联众数字技术股份有限公司 基于历史数据模型的评论信息分析方法及相关装置
CN115809334B (zh) * 2022-11-22 2023-11-10 北京百度网讯科技有限公司 事件关联性分类模型的训练方法、文本处理方法及装置
CN115544237A (zh) * 2022-12-02 2022-12-30 北京红棉小冰科技有限公司 基于直播场景的对话数据集构建方法及装置
CN116069832B (zh) * 2023-04-07 2023-06-06 微网优联科技(成都)有限公司 数据挖掘方法、装置及电子设备
CN117875330A (zh) * 2023-12-26 2024-04-12 首都经济贸易大学 基于自然语言处理的情绪分析方法、装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163187A (zh) * 2010-02-21 2011-08-24 国际商业机器公司 文档标记方法和装置
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104933130A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 评论信息的标注方法及装置
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US8725168B2 (en) * 2011-10-17 2014-05-13 Facebook, Inc. Content surfacing based on geo-social factors
US9781392B2 (en) * 2015-09-16 2017-10-03 Intel Corporation Facilitating personal assistance for curation of multimedia and generation of stories at computing devices
US10545969B2 (en) * 2015-11-16 2020-01-28 Facebook, Inc. Ranking and filtering comments based on audience

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163187A (zh) * 2010-02-21 2011-08-24 国际商业机器公司 文档标记方法和装置
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104933130A (zh) * 2015-06-12 2015-09-23 百度在线网络技术(北京)有限公司 评论信息的标注方法及装置
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理***

Also Published As

Publication number Publication date
US10642938B2 (en) 2020-05-05
CN107220352A (zh) 2017-09-29
US20180349355A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
CN107220352B (zh) 基于人工智能构建评论图谱的方法和装置
US10956461B2 (en) System for searching, recommending, and exploring documents through conceptual associations
US10496684B2 (en) Automatically linking text to concepts in a knowledge base
CN107256267B (zh) 查询方法和装置
US10572521B2 (en) Automatic new concept definition
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US9734196B2 (en) User interface for summarizing the relevance of a document to a query
US9805139B2 (en) Computing the relevance of a document to concepts not specified in the document
US9773054B2 (en) Inverted table for storing and querying conceptual indices
US20130159277A1 (en) Target based indexing of micro-blog content
US20130060769A1 (en) System and method for identifying social media interactions
WO2013151546A1 (en) Contextually propagating semantic knowledge over large datasets
Bing et al. Web query reformulation via joint modeling of latent topic dependency and term context
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Wijeratne et al. Feature engineering for Twitter-based applications
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
WO2016009321A1 (en) System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
US20230112385A1 (en) Method of obtaining event information, electronic device, and storage medium
Noah et al. Evaluation of lexical-based approaches to the semantic similarity of Malay sentences
Kalloubi et al. Unsupervised topics extraction of microblogging posts: a DBpedia-based approach
Zi et al. Domain‐Oriented Subject Aware Model for Multimedia Data Retrieval
Hong A study on textual contents in online communities and social media using text mining approaches
CN116956899A (zh) 文本信息关键词计算方法、装置、程序、设备以及介质
CN116956818A (zh) 文本素材的处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant