CN104281695A

CN104281695A - 基于组合理论的类自然语言的语义信息抽取方法及其***

Info

Publication number: CN104281695A
Application number: CN201410537886.3A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-01-14
Anticipated expiration: 2034-10-13
Also published as: CN104281695B

Abstract

本发明公开了一种基于组合理论的类自然语言的语义信息抽取方法及其***，运用先进的语义分析技术，对基于web的大数据进行深度分析和挖掘，在海量的web数据中挖掘有商业价值的信息，可运用于广大中小型企业的商业智能服务领域，可为中小企业提供预测市场需求变化、预测竞争对手的行动、发现新的和潜在的竞争对手、支持技术开发决策、支持营销战术决策等方面的商业智能服务以及产品精准营销服务，并且大大降低了企业商机情报获取成本，提高获取信息的能力，极大的增强企业的竞争力。

Description

基于组合理论的类自然语言的语义信息抽取方法及其***

技术领域

本发明涉及数据网络技术领域，尤其涉及一种基于组合理论的类自然语言的语义信息抽取方法及其***。

背景技术

随着信息化程度不断加深，企业对“大数据”分析服务的渴求也日益强烈；互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息，成为重要的商业智能服务信息源头。现在业界对“大数据”主要关注点仍在企业内部的数据，而作为大数据的主要载体的互联网，由于数据量庞大、获取难度大、单位价值相对低、几乎全是文本等非结构数据等难点，其价值并没有被业界充分开发和利用。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种基于组合理论的类自然语言的语义信息抽取方法及其***，解决了基于web的大数据分析问题，不但精准度高、提供语义信息丰富，而且极具实用性和可产业化。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法，包括以下步骤：

获取大数据，将其作为基础数据源；

在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；

通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；

在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；

根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

优选地，通过云计算、分布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储。

优选地，大数据可以分为互联网大数据，政府大数据，企业大数据和个人的大数据。

优选地，所述语义词典可以是基于心理学和语言学以用户的认知过程中所表现出来的义类。

优选地，所述语义词典为一个大规模汉语语义知识库,以数据库文件形式收录数百万余实词，不仅给出每个词语所属的词类、语义类，而且以义项为单位详细描述了各种语义搭配限制。

优选地，互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取***，包括：

获取模块，用于获取大数据，将其作为基础数据源；

标注模块，与所述获取模块连接，用于在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；

归纳模块，与所述标注模块连接，用于通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；

拣选模块，与所述归纳模块连接，用于在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；

数据库生成模块，与所述拣选模块连接，用于根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

优选地，大数据可以分为互联网文本大数据，政府大数据，企业大数据和个人的大数据。

本发明中，以极其类似自然语言的形式描述和标记自然语言文本中的语义信息，生成基于组合理论的类自然语言规则的文本语义处理***，以其作为数据挖掘等技术的输入数据，可充分释放文本信息的价值。运用该***通过分析互联网用户的商业行为，实现对企业产品的精准营销服务；帮助企业洞察行业内及上下游产业的动态趋势，把握商机和规避风险，帮助企业迅速做出科学的决策等。

附图说明

图1为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽取方法流程图；

图2为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽取***结构图。

具体实施方式

如图1所示，本发明实施例提出了一种基于组合理论的类自然语言的语义信息抽取方法，包括以下步骤：

步骤101，获取大数据，将其作为基础数据源。例如，可以通过云计算、分布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储；其中大数据可以分为互联网的大数据，政府的大数据，企业的大数据和个人的大数据。

步骤102，在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注。

步骤103，通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式。

步骤104，在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式。

步骤105，根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

其中，步骤103中的语义词典可以是基于心理学和语言学以用户的认知过程中所表现出来的义类,而并非如传统的词典一样是基于历史学按照字母的顺序排列；也可以是一个大规模汉语语义知识库,以数据库文件形式收录数百万余实词，不仅给出每个词语所属的词类、语义类，而且以义项为单位详细描述了它们的各种语义搭配限制。收录了几万个通用领域内的实词的语义词典,共有12个数据库，其中包含全部词语的总库1个，每类词语各建一库，计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在各类词库中，如名词库设15个属性字段，动词库设16个属性字段等。语义分类的突出特点就是分类的深度与广度取决于语法分析的需要。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的，并且只对名词、动词、形容词等实词进行语义分类描述，而那些带有明显标志的、通常用句法形式就可以表示的语义关系，如各类虚词，则不作为语义分类研究的对象。

本发明中，由于语义描述规则本质上是以长句子的、可理解规则形式存在，有效抑制机械的规则匹配导致的错误和歧义，准确性高。可将互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性，模型通用性强。规则编辑成本低廉，受过良好基础教育者即能胜任规则编辑及调试工作，实用性和直观性。描述非常贴近自然语言，且有良好的可视化界面支持，编辑、人员易于上手。正向反馈：人工编辑规则，可用于增强语义分析引擎，语义分析引擎反过来，进一步增强候选规则集的质量。层次性和粒度：***则可将这些规则的组成元素细化到短句、词汇，甚至是字符层面。这意味着，可以根据实际应用场景的需求，提取不同粒度的语义信息。以下是在招投标信息、涉房地产商情两个领域的应用性结论(多组抽样)：

表1 抽取效果对比

对比数据：在准确率和召回率方面，我们的方法表现优秀，且稳定性好。值得指出的是，数据是从生产环境中获得的，信息抽取是处理链条中靠近末端一个环节，前端的环节的错误可能会影响数据抽取的质量；涉房地产商数据含有书写质量无法保证的UGC(用户产生数据，如网友评论等)，造成负面指标影响。总体而言，基于组合理论的类自然语言语义信息抽取***是实用的、可产业化的、语义信息丰富的、准确率和召回率高的语义信息抽取***。

如图2所示，本发明实施例提供了一种基于组合理论的类自然语言的语义信息抽取***，包括：获取模块10，用于获取大数据，将其作为基础数据源；标注模块20，与所述获取模块10连接，用于在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；归纳模块30，与所述标注模块20连接，用于通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；拣选模块40，与所述归纳模块30连接，用于在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；数据库生成模块50，与所述拣选模块40连接，用于根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。其中，大数据可以分为互联网文本大数据，政府大数据，企业大数据和个人的大数据；互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于组合理论的类自然语言的语义信息抽取方法，其特征在于，包括以下步骤：

获取大数据，将其作为基础数据源；

2.根据权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法，其特征在于，通过云计算、分布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储。

3.根据权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法，其特征在于，大数据分为互联网大数据、政府大数据、企业大数据和个人的大数据。

4.根据权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法，其特征在于，所述语义词典是基于心理学和语言学以用户的认知过程中所表现出来的义类。

5.根据权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法，其特征在于，所述语义词典为一个大规模汉语语义知识库,以数据库文件形式收录实词。

6.根据权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法，其特征在于，互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

7.一种基于组合理论的类自然语言的语义信息抽取***，其特征在于，包括：

获取模块，用于获取大数据，将其作为基础数据源；

8.根据权利要求7所述的基于组合理论的类自然语言的语义信息抽取***，其特征在于，大数据分为互联网文本大数据、政府大数据、企业大数据和个人的大数据。

9.根据权利要求8所述的基于组合理论的类自然语言的语义信息抽取***，其特征在于，互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。