CN111814025A - 一种观点提取方法及装置 - Google Patents

一种观点提取方法及装置 Download PDF

Info

Publication number
CN111814025A
CN111814025A CN202010426854.1A CN202010426854A CN111814025A CN 111814025 A CN111814025 A CN 111814025A CN 202010426854 A CN202010426854 A CN 202010426854A CN 111814025 A CN111814025 A CN 111814025A
Authority
CN
China
Prior art keywords
processed
participle
information
viewpoint
dependency relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010426854.1A
Other languages
English (en)
Inventor
杨春阳
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010426854.1A priority Critical patent/CN111814025A/zh
Publication of CN111814025A publication Critical patent/CN111814025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种观点提取方法及装置,属于数据处理技术领域。所述方法包括:将待处理评论信息进行分词处理,获得待处理分词;获取所述待处理分词的词性以及依存关系;根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息。通过依据待处理信息中各分词的词性和相互之间的依存关系,从待处理信息中提取词性和/或依存关系符合预设模板的观点信息,由于考虑到各分词的词性和依存关系,因此使得所获取的观点信息更加准确、且可以有效地表达用户观点。

Description

一种观点提取方法及装置
技术领域
本发明属于数据处理领域,特别是涉及一种观点提取方法及装置。
背景技术
随着网络环境的发展,用户通过网络可以获取的产品和服务也日益繁 多,用户可在各种服务平台也可以发表自己对于各种服务和产品的评论。而 对于平台运营商来说,对用户的评论进行分析可以了解用户的需求趋向,从 而可以对自身的服务和产品进行改进,促进自身发展。
平台运营商通常是通过人工来对用户的评论信息进行浏览来了解用户 的观点,这种方式不仅费时且低效,而且若评论信息的数据量过大也会随着 增加,通过人工进行浏览明显有些捉襟见肘。另一方面,还可以采用点互信 息算法来计算候选特征词和候选观点词之间的关联度,计算各词语在语料中 联合出现的概率,以将概率较高且包含观点特征词的特定组合作为观点信 息,从而自动提取评论信息中的观点信息。
但是这种方式由于仅考虑分词之间的关联性,并未考虑词语之间的相互 关系,导致无法有效提取评论信息中的表达观点的所有词语,使得所获得的 观点信息准确率较低,并且往往很多具有高关联度的词组并不能构成有效的 观点,无法有效表达用户的观点,因此如何准确且有效地从评论信息中提取 用户观点成为本领域亟需解决的问题。
发明内容
有鉴于此,本发明提供一种观点提取方法及装置,以便解决现有技术中 如何准确且有效地从评论信息中提取用户观点成为本领域亟需解决的问 题。
依据本发明的第一方面,提供了一种观点提取方法,所述方法包括:
将待处理评论信息进行分词处理,获得待处理分词;
获取所述待处理分词的词性以及依存关系;
根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观 点提取,获得所述待处理评论信息的观点信息。
可选的,所述根据所词性和/或所述依存关系对所述待处理分词按照预设 模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
从所述待处理分词中提取依存关系为目标依存关系的多个第一分词;
将所述多个第一分词按照所述目标依存关系进行组合,获得所述待处理 评论信息的观点信息;
其中,所述目标依存关系包括主谓宾关系、定中关系、状中关系中的任 一项。
可选的,所述将所述多个第一分词按照所述目标依存关系进行组合,获 得所述待处理评论信息的观点信息,包括:
在同一第一分词隶属于多个目标依存关系的情况下,将所述第一分词按 照所述多个目标依存关系进行组合,获得所述待处理评论信息的多个观点信 息。
可选的,所述根据所词性和/或所述依存关系对所述待处理分词按照预设 模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
根据所述依存关系从所述待处理分词中,获取中心分词;
从所述待处理分词中获取所述词性为名词的第一名词分词;
将所述中心分词和第一名词分词根据所述依存关系进行组合,得到所述 待处理评论信息的观点信息。
可选的,所述根据所词性和/或所述依存关系对所述待处理分词按照预设 模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
从所述待处理分词中获取所述词性为名词的第二名词分词;
确定所述待处理分词中与所述第二名词分词相邻的目标分词,所述目标 分词的词性至少包括:名词、形容词、动词、副词、助词中的任一项;
将所述目标分词与所述第二名词分词按照所述依存关系进行组合,获得 所述待处理评论信息的观点信息。
可选的,在所述获得所述待处理评论信息的观点信息之后,还包括:
根据所述依存关系从所述待处理分词中,获取中心分词;
在所述待处理分词中存在与中心分词构成状中关系的否定分词,且所述 否定分词存在于否定词词典的情况下,按照所述依存关系将所述否定分词添 加到所述观点信息中。
可选的,所述按照所述依存关系将所述否定分词添加到所述观点信息 中,包括:
在所述否定分词存在多个的情况下,与所述中心分词的分词间隔最小的 否定分词按照所述依存关系添加到所述观点信息中。
可选的,所述将待处理评论信息进行分词处理,获得待处理分词,包括:
根据预设词典对所述待处理评论信息进行分词处理,获取待处理分词, 所述预设词典至少包括:标准词典、否定词词典。
可选的,所述获得所述待处理评论信息的观点信息之后,还包括:
根据预设算法对所述观点信息进行优化,其中,所述预设算法至少包括 距离原则、词共现算法中的任一项。
依据本发明的第二方面,提供了一种观点提取装置,所述装置包括:
分词模块,用于将待处理评论信息进行分词处理,获得待处理分词;
获取模块,用于获取所述待处理分词的词性以及依存关系;
提取模块,用于根据所词性和/或所述依存关系对所述待处理分词按照预 设模板进行观点提取,获得所述待处理评论信息的观点信息。
可选的,所述提取模块,还用于:
从所述待处理分词中提取依存关系为目标依存关系的多个第一分词;
将所述多个第一分词按照所述目标依存关系进行组合,获得所述待处理 评论信息的观点信息;
其中,所述目标依存关系包括主谓宾关系、定中关系、状中关系中的任 一项。
可选的,所述提取模块,还用于:
在同一第一分词隶属于多个目标依存关系的情况下,将所述第一分词按 照所述多个目标依存关系进行组合,获得所述待处理评论信息的多个观点信 息。
可选的,所述提取模块,还用于:
根据所述依存关系从所述待处理分词中,获取中心分词;
从所述待处理分词中获取所述词性为名词的第一名词分词;
将所述中心分词和第一名词分词根据所述依存关系进行组合,得到所述 待处理评论信息的观点信息。
可选的,所述提取模块,还用于:
从所述待处理分词中获取所述词性为名词的第二名词分词;
确定所述待处理分词中与所述第二名词分词相邻的目标分词,所述目标 分词的词性至少包括:名词、形容词、动词、副词、助词中的任一项;
将所述目标分词与所述第二名词分词按照所述依存关系进行组合,获得 所述待处理评论信息的观点信息。
可选的,所述装置,还包括:
处理模块,用于根据所述依存关系从所述待处理分词中,获取中心分词;
添加模块,用于在所述待处理分词中存在与中心分词构成状中关系的否 定分词,且所述否定分词存在于否定词词典的情况下,按照所述依存关系将 所述否定分词添加到所述观点信息中。
可选的,所述添加模块,还用于:
在所述否定分词存在多个的情况下,与所述中心分词的分词间隔最小的 否定分词按照所述依存关系添加到所述观点信息中。
可选的,所述分词模块,还用于:
根据预设词典对所述待处理评论信息进行分词处理,获取待处理分词, 所述预设词典至少包括:标准词典、否定词词典。
可选的,所述装置,还包括:
优化模块,用于根据预设算法对所述观点信息进行优化,其中,所述预 设算法至少包括距离原则、词共现算法中的任一项。
依据本发明第三方面,提供一种电子设备,包括存储器、处理器及存储 在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所 述计算机程序时实现上述第一方面任一所述的观点信息提取方法。
依据本发明第四方面,提供一种计算机可读存储介质,所述计算机可读 存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述第一 方面任一所述的观点信息提取方法。
针对现有技术,本发明具备如下优点:
本发明提供了一种观点提取方法及装置,属于数据处理技术领域。所述 方法包括:将待处理评论信息进行分词处理,获得待处理分词;获取所述待 处理分词的词性以及依存关系;根据所词性和/或所述依存关系对所述待处理 分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息。通 过依据待处理信息中各分词的词性和相互之间的依存关系,从待处理信息中 提取词性和/或依存关系符合预设模板的观点信息,由于考虑到各分词的词性 和依存关系,因此使得所获取的观点信息更加准确、且可以有效地表达用户 观点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方 式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于 本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目 的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符 号表示相同的部件。在附图中:
图1是本发明实施例提供的一种观点提取方法的步骤流程图;
图2是本发明实施例提供的另一种观点提取方法的步骤流程图;
图3是本发明实施例提供的一种观点提取装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显 示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明 而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更 透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术 人员。
图1是本发明实施例提供的一种观点提取方法,所述方法包括:
步骤101,将待处理信息进行分词处理,获得待处理分词。
在本发明实施例中,待处理信息是指包含有用户评论内容的文本信息, 例如:电商店铺中的买家评论,论坛发帖下的读者评论、博客文章下的读者 评论等针对某个产品或服务表明用户观点的信息。
由于待处理信息是短语组成的文本信息,无法直接从中识别出哪部分是 用户的观点,因此需要先对待处理信息进行分句和分词处理,以获得待处理 信息的各个分词作为待处理分词。分词处理具体可采用结巴分词等现有技术 中的常规分词技术,在分词前还可以对待处理信息先进行去噪处理,例如: 去除标签、特殊符号等无用成分后再进行分词处理,以提高所获得待处理分 词的有效性,当然此处只要能将待处理信息进行分词即可,具体分词方式可 以根据实际需求确定,此处不做具体限定。
步骤102,获取所述待处理分词的词性以及依存关系。
在本发明实施例中,词性是指待处理分词的句法分类,例如:形容词、动 词、名词、副词、代词等。依存关系是指待处理分词之间支配与被支配的关 系,可以包含:主谓关系、动宾关系、间宾关系、定中关系、状中关系、并 列关系等。依存关系是具有方向的,处于支配地位的成分称之为支配者,而 处于被支配地位的成分称之为从属者,例如:“红苹果”中“苹果”是从属 于“红”,构成定中关系;“非常漂亮”中“美丽”是从属于“非常”,构成 状中关系。
待处理分词的词性可以是人工进行词性标注,也可以是采用机器学习模 型进行词性标注,模型可以是例如:隐马尔可夫模型、条件随机模型、循环 神经网络模型等,具体词性标注方式可以根据实际需求确定,以本方案的可 实现性为准,此处不做具体限定。
依存关系可以是采用依存句法分析算法得到的。依存句法分析是自然语 言处理的关键技术之一,其主要包含两方面内容,一方面是确定语言的句法 体系,即对待处理信息中合法的句子的句法结构给予形式化的定义;另一方 面是根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含句 法单位和这些句法单位之间的关系。具体可参照本领域实现依存句法分析的 常规方式即可,只要能获取待处理分词的依存关系即可,此处再详细描述。
步骤103,根据所词性和/或所述依存关系对所述待处理分词按照预设模 板进行观点提取,获得所述待处理评论信息的观点信息。
在本发明实施例中,用户通过语言表达观点的方式多种多样,并不是一 定是通过简单的形容词描述,或直接表示喜欢或不喜欢等,因此在获取待处 理分词中的观点分词时,不仅要获取待处理分词中直接表示观点的分词,还 要待处理分词中用户修饰用户观点的分词并组合,以获取完整表达用户观点 的观点分词。例如:“这个苹果价格便宜”,其中“苹果”是实体名词,而 “便宜”其实是用户的实际观点词,但是“价格”同样也是描述了用户对于 实体名词的观点,因此这里需要将“价格”和“便宜”进行组合搭配,作为 观点分词,而不仅仅是“便宜”,这样所得到的观点分词才能表达用户的完 整观点。具体的,可以通过将隶属于同一句子的多个待处理分词中实体名词 相邻的形容词、动词等按照固定词性搭配模板进行组合,作为观点分词,具 体搭配方式可以根据实际需求确定,此处不做限定。进一步的,可通过将与 所述观点分词存在依存关系的待处理分析进行组合,作为待处理信息的观点 信息,例如:“这个房子的空间大”,其中观点分词为“空间大”,而“空 间大”和“房子”之间构成依存关系,因此所获得的观点信息为“房子空间 大”。
可见,结合词性和依存关系从待处理分词的观点信息可以更加全面地获 取待处理信息中的观点信息。当然还可以直接将待处理分词中存在特定依存 关系的分词进行组合,直接作为观点信息。还可以仅采用词性分析,将上述 得到的观点分词直接作为观点信息,只要能表达用户的态度观点即可,具体 可根据实际需求确定,此处不做具体限定。
本发明提供的第一种观点提取方法,通过依据待处理信息中各分词的词 性和相互之间的依存关系,从待处理信息中提取词性和/或依存关系符合预设 模板的观点信息,由于考虑到各分词的词性和依存关系,因此使得所获取的 观点信息更加准确、且可以有效地表达用户观点。
图3是本发明实施例提供的另一种观点提取方法,所述方法包括:
步骤201,根据预设词典对所述待处理信息进行分词处理,获取待处理 分词,所述预设词典至少包括:标准词典、否定词词典。
在本发明实施例中,标准词典可以预先设置的多种分词的语料库,例如 中文字典等常规词典。否定词词典是指预先设置的包含表否定含义分词的语 料库。由于用户的评论信息不一定是采用肯定形式进行描述的,又是也可能 采用否定形式进行描述,例如“这个车我不喜欢”、“房子不漂亮”等,而 对于现有技术并不能有效的手段对否定形式的评论信息进行识别和区分,但 是对于同一句话而言,是否为否定形式对其含义有质的影响,若未识别出否 定形式,而是直接将否定词和观点词进行分割,可能会到的最后得到的观点 信息完全与用户的实际观点背道而驰。因此本申请在对待处理信息进行分词 处理时,不仅会引入包含标准词典的常用词典,还会引入否定词词典,并且 可以提高否定词的权重,以保证否定的修饰语可以被完整分割,与待处理信 息中的中心语分离。
步骤202,获取所述待处理分词的词性以及依存关系。
该步骤可参照步骤102的详细描述,此处不再赘述。
步骤203,从所述待处理分词中提取依存关系为目标依存关系的多个第 一分词。
其中,所述目标依存关系包括主谓关系、主宾关系、定中关系、状中关 系中的任一项。
在本发明实施例中,通常情况主谓关系、主宾关系、定中关系、状中关 系可以表达句子中的重要观点,例如“交通比较便利,房间有点小”,其中 “交通”和“便利”,“房间”和“小”分别构成主谓关系。
进一步的,此处需要主要,为了避免出现所提取的第一分词无法构成可 读句子的情况出现,因此需要对第一分词的词性进行限制,如主语限制为非 代词和非形容词,谓语为非动词等。
步骤204,将所述多个第一分词按照所述目标依存关系进行组合,获得 所述待处理信息的观点信息。
在本发明实施例中,将提取出的第一分词按照所对应的目标依存关系的 句子成分进行组合,例如上述获得构成主谓关系“房间”和“小”、“交通” 和“便利”,则所得到的观点信息为“房间小”、“交通便利”。
进一步的,还需要对主语的限制性定语成分进行补全,例如“升值空间 巨大”,主谓成分是“空间巨大”,字面的意思是指面积或容积大,但实际 是指“升值”空间大,若不加上该定语就会造成歧义,因此这里限定对名词 性定语进行补全。或者对于没有完整结构的观点信息,也可以通过查找具有 定中关系或状中关系的分词进行补充,如“很”和“贴心”构成一个状中关 系,如“不错的小区”这个定中关系可以拆分组合为“小区不错”。
可选的,所述步骤204,包括:在同一第一分词隶属于多个目标依存关 系的情况下,将所述第一分词按照所述多个目标依存关系进行组合,获得所 述待处理信息的多个观点信息。
在本发明实施例中,对于具有共同主语或宾语,甚至是定语的成分关系 的结构进行补全,也就是说某第一分词同时隶属于多个目标依存关系的情况 下,需要针对各目标依存关系生成多个观点信息。例如:“服务和环境都不 错”,这里主语是“服务”,而“不错”是修饰主语的,同时主语还存在一 个并列成分“环境”,因此需要对该“不错”进行增加,并分别两个主语组 成“环境不错”、“服务不错”。
步骤205,根据所述依存关系从所述待处理分词中,获取中心分词。
在本发明实施例中,中心分词是指构成句子的待处理分词中不受其他分 词支配的分词,在该中心分词两侧的分词之间不存在依存关系。仅通过依存 关系从待处理分词中提取观点信息时,可以首先确定该句子中的中心分词, 通常中心分词是句子中的谓语动词。
步骤206,从所述待处理分词中获取所述词性为名词的第一名词分词。
在本发明实施例中,待处理分词中的名词通常为用户表达观点的实体目 标,也是表达观点时必不可少的句子成分,若没有第一名词分词,很容易造 成歧义。例如“房子看起来不错”,“房子”为实体名词,可以作为第一名 词分词。
步骤207,将所述中心分词、第一名词分词根据所述依存关系进行组合, 得到所述待处理信息的观点信息。
在本发明实施例中,将中心分词和第一名词分词与其他待处理分词根据 常用的搭配进行查找组合,即可得到观点信息。例如:“房子的空间看起来 很大”,“空间”为第一名词分词,“看起来”为中心分词,“很大”,则 获得的观点信息为“空间看起来很大”。
步骤208,从所述待处理分词中获取所述词性为名词的第二名词分词。
在本发明实施例中,该步骤中的第二名词分词与所述步骤206的第一名 词分词类似,此处不再赘述。
步骤209,确定所述待处理分词中与所述第二名词分词相邻的目标分词, 所述目标分词的词性至少包括:名词、形容词、动词、副词、助词中的任一 项。
在本发明实施例中,可以针对待处理分词中词性为名词的第二名词分词 与其响铃的具有指定词性的分词进行固定搭配提取观点信息。具体的,通过 对种子语料的研究各分析,可以得到以下表1中包含观点分词的固定词性模 板。
Figure BDA0002499025000000101
Figure BDA0002499025000000111
表1
参照上表1,主要存在的搭配模式包括名词+形容词、复测+动词、动词 +名词、动词+形容词、助词+形容词、副词+形容词、形容词+助词+名词、 形容词+形容词,当然具体搭配方式仅是示例性说明,具体不限于上述表1 的内容,可以根据实际需求对具体搭配方式进行扩充和修改。
步骤210,将所述目标分词与所述第二名词分词按照所述依存关系进行 组合,获得所述待处理信息的观点信息。
在本发明实施例中,参照上述表1中的示例,在获取到可以符合搭配模 式的目标分词后,可按照目标分词与第二名词分词之间的依存关系进行组 合,获得待处理信息的观点信息。
步骤211,在所述待处理分词中存在与中心分词构成状中关系的否定分 词,且所述否定分词存在于否定词词典的情况下,按照所述依存关系将所述 否定分词添加到所述观点信息中。
在本发明实施例,在获取观点信息后,还需要对所修饰谓语的状语分词 做否定词的判定,因为否定词会改变观点信息要表达的意思,所以要保留具 有否定的状语分词,即否定分词。例如:“这小区不错,房价也不低”,应 提取的观点信息为“小区不错”、“房价不低”,若忽略了表否定的状语分 词“不”的话,则会导致所得到的观点信息为“小区错”、“房价低”。因 此需要将否定分词添加到观点信息中。
进一步的,可以将待处理信息中的中心谓语或中宾语具有状中关系的分 词作否定判断,判断的方式是查看该分词是否存在于否定词词典中,若该分 词与中心分词具有状中关系且存在于否定词词典中,则将该否定分词组合到 观点信息中。例如“这件衣服不便宜”,若提取出的观点信息为“衣服便宜”。 但是“不”作为状语于中心分词“便宜”构成状中关系,因此将“不”按照 依存关系添加到“衣服便宜”中,最终回的表达否定观点的观点信息“衣服 不便宜”。
可选的,所述步骤211,包括:在所述否定分词存在多个的情况下,与 所述中心分词的分词间隔最小的否定分词按照所述依存关系添加到所述观 点信息中。
在本发明实施例中,对于存在多个否定分词的情况,可以依据否定分词 的数量确定观点信息具体是表否定还是表肯定。当否定分词存在偶数个时, 则表示该观点信息是表肯定,无需添加否定分词,当否定分词存在奇数个时, 则表示该观点信息需要表否定,则将在待处理信息中距离中心分词的分词间 隔最小的否定分词添加到观点信息中。例如:“这个学校也不是不好”,此 时存在两个否定分词“不”,所得到的观点信息保持为“学校好”;“这个 房价不可能不是不合理的”,所得得到的观点信息为“房价合理”,但是存 在三个否定分词“不”,此时保留距离中心分词“合理”最近的否定分词“不”, 并依据依存关系添加到“合理”前面,得到最终的观点信息“房价不合理”。
步骤212,根据预设算法对所述观点信息进行优化,其中,所述预设算 法至少包括距离原则、词共现算法中的任一项。
在本发明实施例中,为了进一步强化所获得观点信息的准确性,在获取 观点信息后,可以进一步按照距离原则和/或词共现算法等观点优化算法对所 得到的观点信息进行优化。具体的,词共现算法是采用计算句子中所包含的 候选特征词和候选观点词之间的关联度,计算各分词在语料中联合出现的概 率。而距离原则是指根据句子中互相依赖的多个句法成分之间的距离来判断 他们之间关系的原则,可以根据所获得的关系是直接关系还是间接关系提取 句子中的观点信息。具体优化算法可以根据实际需求确定,此处不做具体限 定。
本发明提供了另一种观点提取方法及装置,通过依据待处理信息中各分 词的词性和相互之间的依存关系,从待处理信息中提取词性和/或依存关系符 合预设模板的观点信息,由于考虑到各分词的词性和依存关系,因此使得所 获取的观点信息更加准确、且可以有效地表达用户观点。并且通过在分词阶 段和提取阶段引入否定词判别机制,使得所得到的观点信息可以对否定词进 行区分,使得所得到的观点信息更加准确。
图3是本发明实施例提供的一种观点提取装置30,所述装置包括:
分词模块301,用于将待处理评论信息进行分词处理,获得待处理分词。
获取模块302,用于获取所述待处理分词的词性以及依存关系。
提取模块303,用于根据所词性和/或所述依存关系对所述待处理分词按 照预设模板进行观点提取,获得所述待处理评论信息的观点信息。
可选的,所述提取模块303,还用于:
从所述待处理分词中提取依存关系为目标依存关系的多个第一分词;
将所述多个第一分词按照所述目标依存关系进行组合,获得所述待处理 评论信息的观点信息;
其中,所述目标依存关系包括主谓宾关系、定中关系、状中关系中的任 一项。
可选的,所述提取模块303,还用于:
在同一第一分词隶属于多个目标依存关系的情况下,将所述第一分词按 照所述多个目标依存关系进行组合,获得所述待处理评论信息的多个观点信 息。
可选的,所述提取模块303,还用于:
根据所述依存关系从所述待处理分词中,获取中心分词;
从所述待处理分词中获取所述词性为名词的第一名词分词;
将所述中心分词和第一名词分词根据所述依存关系进行组合,得到所述 待处理评论信息的观点信息。
可选的,所述提取模块303,还用于:
从所述待处理分词中获取所述词性为名词的第二名词分词;
确定所述待处理分词中与所述第二名词分词相邻的目标分词,所述目标 分词的词性至少包括:名词、形容词、动词、副词、助词中的任一项;
将所述目标分词与所述第二名词分词按照所述依存关系进行组合,获得 所述待处理评论信息的观点信息。
可选的,所述装置,还包括:
处理模块304,用于根据所述依存关系从所述待处理分词中,获取中心 分词。
添加模块305,用于在所述待处理分词中存在与中心分词构成状中关系 的否定分词,且所述否定分词存在于否定词词典的情况下,按照所述依存关 系将所述否定分词添加到所述观点信息中。
可选的,所述添加模块305,还用于:
在所述否定分词存在多个的情况下,与所述中心分词的分词间隔最小的 否定分词按照所述依存关系添加到所述观点信息中。
可选的,所述分词模块301,还用于:
根据预设词典对所述待处理评论信息进行分词处理,获取待处理分词, 所述预设词典至少包括:标准词典、否定词词典。
可选的,所述装置,还包括:
优化模块306,用于根据预设算法对所述观点信息进行优化,其中,所 述预设算法至少包括距离原则、词共现算法中的任一项。
本发明提供了一种观点提取装置,通过依据待处理信息中各分词的词性 和相互之间的依存关系,从待处理信息中提取词性和/或依存关系符合预设模 板的观点信息,由于考虑到各分词的词性和依存关系,因此使得所获取的观 点信息更加准确、且可以有效地表达用户观点。
对于上述网关设备实施例而言,由于其与方法实施例基本相似,所以 描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种电子设备,包括处理器,存储器,存储 在存储器上并可在处理上运行的计算机程序,该计算机程序被处理器执行时 实现上述一种观点提取方法实施例的各个过程,且能达到相同的技术效果, 为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上 存储有计算机程序,该计算机程序被处理器执行时实现上述一种观点提取方 法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘 述。其中,所述的计算机可读存储介质,可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说 明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相 参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都 是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案, 但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的一种观点提取方法不与任何特定计算机、虚拟***或者其 它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据 上面的描述,构造具有本发明方案的***所要求的结构是显而易见的。此 外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语 言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了 披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解, 本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中, 并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一 个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征 有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将 该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个 权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所 反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因 此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其 中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行 自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。 可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及 此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或 过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明 书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的 任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说 明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相 同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括 其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征 的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来 使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处 理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员 应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现 根据本发明实施例的一种观点提取方法中的一些或者全部部件的一些或者 全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者 全部的设备或者网关设备程序(例如,计算机程序和计算机程序产品)。这 样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个 或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在 载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出 替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成 对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步 骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明 可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实 现。在列举了若干网关设备的单元权利要求中,这些网关设备中的若干个 可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使 用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种观点提取方法,其特征在于,所述方法包括:
将待处理评论信息进行分词处理,获得待处理分词;
获取所述待处理分词的词性以及依存关系;
根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
从所述待处理分词中提取依存关系为目标依存关系的多个第一分词;
将所述多个第一分词按照所述目标依存关系进行组合,获得所述待处理评论信息的观点信息;
其中,所述目标依存关系包括主谓宾关系、定中关系、状中关系中的任一项。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个第一分词按照所述目标依存关系进行组合,获得所述待处理评论信息的观点信息,包括:
在同一第一分词隶属于多个目标依存关系的情况下,将所述第一分词按照所述多个目标依存关系进行组合,获得所述待处理评论信息的多个观点信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
根据所述依存关系从所述待处理分词中,获取中心分词;
从所述待处理分词中获取所述词性为名词的第一名词分词;
将所述中心分词和第一名词分词根据所述依存关系进行组合,得到所述待处理评论信息的观点信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息,包括:
从所述待处理分词中获取所述词性为名词的第二名词分词;
确定所述待处理分词中与所述第二名词分词相邻的目标分词,所述目标分词的词性至少包括:名词、形容词、动词、副词、助词中的任一项;
将所述目标分词与所述第二名词分词按照所述依存关系进行组合,获得所述待处理评论信息的观点信息。
6.根据权利要求1所述的方法,其特征在于,在所述获得所述待处理评论信息的观点信息之后,还包括:
根据所述依存关系从所述待处理分词中,获取中心分词;
在所述待处理分词中存在与中心分词构成状中关系的否定分词,且所述否定分词存在于否定词词典的情况下,按照所述依存关系将所述否定分词添加到所述观点信息中。
7.根据权利要求6所述的方法,其特征在于,所述按照所述依存关系将所述否定分词添加到所述观点信息中,包括:
在所述否定分词存在多个的情况下,与所述中心分词的分词间隔最小的否定分词按照所述依存关系添加到所述观点信息中。
8.根据权利要求1所述的方法,其特征在于,所述将待处理评论信息进行分词处理,获得待处理分词,包括:
根据预设词典对所述待处理评论信息进行分词处理,获取待处理分词,所述预设词典至少包括:标准词典、否定词词典。
9.根据权利要求1所述的方法,其特征在于,所述获得所述待处理评论信息的观点信息之后,还包括:
根据预设算法对所述观点信息进行优化,其中,所述预设算法至少包括距离原则、词共现算法中的任一项。
10.一种观点提取装置,其特征在于,所述方法包括:
分词模块,用于将待处理评论信息进行分词处理,获得待处理分词;
获取模块,用于获取所述待处理分词的词性以及依存关系;
提取模块,用于根据所词性和/或所述依存关系对所述待处理分词按照预设模板进行观点提取,获得所述待处理评论信息的观点信息。
CN202010426854.1A 2020-05-19 2020-05-19 一种观点提取方法及装置 Pending CN111814025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010426854.1A CN111814025A (zh) 2020-05-19 2020-05-19 一种观点提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010426854.1A CN111814025A (zh) 2020-05-19 2020-05-19 一种观点提取方法及装置

Publications (1)

Publication Number Publication Date
CN111814025A true CN111814025A (zh) 2020-10-23

Family

ID=72848405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426854.1A Pending CN111814025A (zh) 2020-05-19 2020-05-19 一种观点提取方法及装置

Country Status (1)

Country Link
CN (1) CN111814025A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186552A (zh) * 2021-12-13 2022-03-15 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255553A1 (en) * 2004-03-31 2007-11-01 Matsushita Electric Industrial Co., Ltd. Information Extraction System
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN110781369A (zh) * 2018-07-11 2020-02-11 天津大学 一种基于依存句法和泛化因果网络进行情感原因挖掘方法
CN110825948A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 基于促谣-辟谣消息和表示学习的谣言传播控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255553A1 (en) * 2004-03-31 2007-11-01 Matsushita Electric Industrial Co., Ltd. Information Extraction System
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN110781369A (zh) * 2018-07-11 2020-02-11 天津大学 一种基于依存句法和泛化因果网络进行情感原因挖掘方法
CN110825948A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 基于促谣-辟谣消息和表示学习的谣言传播控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186552A (zh) * 2021-12-13 2022-03-15 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN105095204B (zh) 同义词的获取方法及装置
JP5936698B2 (ja) 単語意味関係抽出装置
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
CN106951530B (zh) 一种事件类型抽取方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
WO2017198031A1 (zh) 解析语义的方法和装置
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN109472008A (zh) 一种文本相似度计算方法、装置及电子设备
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Azpeitia et al. Nerc-fr: supervised named entity recognition for french
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
Vij et al. Fuzzy logic for inculcating significance of semantic relations in word sense disambiguation using a WordNet graph
CN114997288A (zh) 一种设计资源关联方法
Jha et al. Hsas: Hindi subjectivity analysis system
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111814025A (zh) 一种观点提取方法及装置
Onyenwe et al. Toward an effective igbo part-of-speech tagger
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
CN110929501B (zh) 文本分析方法和装置
Rofiq Indonesian news extractive text summarization using latent semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination