CN107679035A - 一种信息意图检测方法、装置、设备和存储介质 - Google Patents

一种信息意图检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN107679035A
CN107679035A CN201710941049.0A CN201710941049A CN107679035A CN 107679035 A CN107679035 A CN 107679035A CN 201710941049 A CN201710941049 A CN 201710941049A CN 107679035 A CN107679035 A CN 107679035A
Authority
CN
China
Prior art keywords
node
information intent
intent
information
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710941049.0A
Other languages
English (en)
Other versions
CN107679035B (zh
Inventor
过弋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai pujinte Information Technology Service Co.,Ltd.
Original Assignee
East China University of Science and Technology
Shihezi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology, Shihezi University filed Critical East China University of Science and Technology
Priority to CN201710941049.0A priority Critical patent/CN107679035B/zh
Publication of CN107679035A publication Critical patent/CN107679035A/zh
Application granted granted Critical
Publication of CN107679035B publication Critical patent/CN107679035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及文本挖掘技术领域,公开了一种信息意图检测方法、装置、设备和存储介质。该信息意图检测方法,包括:采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;根据所述包含信息意图的语篇片段构建信息意图的节点,并根据所述信息意图的节点构建语用分析树;基于所述语用分析树,确定所述语篇片段中包含的信息意图的关联集合。本发明提供的信息意图检测方法,使得能够根据文本包含的信息实施意图检测,在语篇层面进行更广泛的文本挖掘,确定文本中的信息意图的关联集合。

Description

一种信息意图检测方法、装置、设备和存储介质
技术领域
本发明实施例涉及文本挖掘技术领域,特别涉及一种信息意图检测方法、装置、设备和存储介质。
背景技术
信息网络时代带来了多源的、飞速增长的海量文本信息(例如新闻文档、研究论文、电子书籍、电子邮件和网络页面等),面对如此庞大的信息资源,我们必须研究和发展文本挖掘技术,掌握事件检测、分析和关联的技术,以提升信息获取、分析和利用的能力,这在学术研究、商业应用、军事政治、乃至国家战略层面都具有非常重要的作用。同时,事件具有政治、经济、军事、社会、文化和个人等多重意义,随着新媒体环境的快速成熟,以互联网为主的电子文本内容已经占据信息传播的主导地位。事件(从最基本的简单句到一系列语篇文本)本身就蕴含着大量的情报信息,事件之间的关系(显性和隐性)构成了事件发生、发展的线索和脉络。
认知科学家认为人类以“事件”为单位进行记忆和理解现实世界。事件是随着时间变化的客观事实,涉及到多方面的概念,事件之间具有本质的内在联系。在理解文本内容时,人往往会围绕主要人物的行为和事件来构建模型,当事件状态发生转移或出现新的事物时,人会比较当前事件与先前事件的关系,如果当前事件的情景与先前事件的情景发生变迁时,需要构建新的事件情景模型。而意图的变化将直接体现事件状态的主观意向性因素的作用。
因此,意图在人们的实践推理和行动中具有关键性的作用,“意图是构成计划的砖瓦,而计划则是扩大化的意图”。意图并非事件发生发展的充分条件,却是能够推动事件发生发展的因素(主观因素)之一;因此,信息意图的检测有助于构建若干小微事件到主体事件之间的隐性联系,可以揭示事件发生发展的主观动因,从而全面掌握事件的发生、发展的推理、演化和预测。因此,研究信息意图检测和推理技术,能够从主观信息层面丰富和补充大、小事件发生、发展和演化规律的检测技术手段和趋势预测能力,在政治和军事情报分析、商业情报挖掘、网络舆情分析和监控等领域都有广阔的应用前景。
目前在Web(互联网)用户查询意图分析方面的研究成果比较丰富,其研究目标是通过用户输入的关键词,结合用户查询行为,辨析用户偏好(识别用户的内在查询意图),从而提高搜索查询效率和用户满意度。
发明人发现现有技术中至少存在如下问题:现有的意图分析方法无法对海量文本中事件关系进行检测,同时,针对文本内容实施信息意图检测的研究工作较少,且限于词汇之间的句法、语义关系分析,尚未见在更高层面(例如语篇层面)进行更加广泛全面的文本挖掘处理实践。
发明内容
本发明实施方式的目的在于提供一种信息意图检测方法、装置、设备和存储介质,使得能够根据文本包含的信息实施意图检测,在语篇层面进行更广泛的文本挖掘,确定文本中的信息意图的关联。
为解决上述技术问题,本发明的实施方式提供了一种信息意图检测方法,包括以下步骤:
采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;
根据该包含信息意图的语篇片段构建信息意图的节点,并根据该信息意图的节点构建语用分析树;
基于该语用分析树,确定该语篇片段中包含的信息意图的关联集合。
本发明的实施方式还提供了一种信息意图检测装置,包括:
筛选模块,用于采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;
构建模块,用于根据该包含信息意图的语篇片段构建信息意图的节点,并根据该信息意图的节点构建语用分析树;
确定模块,用于基于该语用分析树,确定该语篇片段中包含的信息意图的关联集合。
本发明的实施方式还提供了一种设备,包括:至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提到的信息意图检测方法。
本发明的实施方式还提供了一种存储介质,存储介质中存储有计算机程序,该计算机程序用于被处理器加载后按照计算机程序执行上述实施方式提到的信息意图检测方法。
本发明实施方式相对于现有技术而言,从原始文本中获取包含信息意图的语句对应的语篇,显著缩小了原始文本中语句的处理范围,提高了对原始文件的处理效率。对该语篇中的事件进行构建信息意图节点,并建立语用分析树,从而确定出事件之间的关联,该实施方式有效缩小了语篇的处理范围,并确定出意图之间的关联集合,进一步提高了对文本的处理效率,且语篇层面的分析能够完整全面的展示该原始文本中的意图及意图之间的关联关系,通过对语篇层面的信息意图自动检索、建模,丰富了语篇层面的文本挖掘研究工作,为研究事件关系推理和趋势预测提供了基础。
另外,采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段,具体包括:采用信息意图的文本表现形式对原始文本进行句子筛选;对筛选得到的文本进行句法解析,以及对筛选得到的文本进行指代消解;基于句法解析的结果以及指代消解的结果,确定该包含信息意图的语篇片段。
指代消解能够保证从句法的解析中筛选出具有意图信息的语句,在对原始文件进行筛选后能够准确抽取出包含信息意图的语篇片段,是一种有效缩小语句的处理范围的方法,因此也进一步提高了对文本内容的处理效率。
另外,意图信息的文本表现形式包括语篇标记语、句型结构、意图性动词以及常见句式中的一种或多种的组合。
另外,信息意图的节点,包括动词性信息意图节点和非动词性信息意图节点;语用分析树的任一节点分为左右两个分支,左支为主位,右支为述位,主位用于体现所在节点的出发点和中心点,述位用于对所在节点的主位进行补充描述;语用分析树包括动词性信息意图节点和非动词性信息意图节点,动词性信息意图节点用于描述简单句的主位和述位结构,非动词性信息意图节点用于描述复合句内分句的主位和述位结构。
信息意图节点能够***性的表现语篇中的主位和述位的关系,主位体现的节点信息是出发点和中心,述位是对主位的进一步的说明,信息意图中的动词性信息能确定出语篇片段中的意图信息,根据主位和述位的关系提高对语篇的处理速度。
另外,根据包含信息意图的语篇片段构建信息意图的节点,具体包括:将采用意图性动词筛选出的语句构建为动词性信息意图节点;将采用语篇标记语筛选出的语句构建非动词性信息意图节点;其中,若采用语篇标记语筛选出的语句包含分句,分句中包含意图性动词,则非动词性信息意图节点包含动词性信息意图节点;若分句中还包括下一层分句,则非动词性信息意图节点包含高层级的非动词性信息意图节点和低层级的非动词性信息意图节点,且高层级的非动词性信息意图节点包含低层级的非动词性信息意图节点。
根据动词性信息和非动词的信息,能够确定出该文本中语篇对应的意图信息以及根据该意图信息确定出该文本中对应。
另外,基于语用分析树,确定语篇片段中包含的信息意图的关联集合,具体包括:
步骤a,对语用分析树进行修剪,移除语用分析树中与信息意图无关的语篇片段对应的节点;
步骤b,将修剪后的语用分析树最左侧的叶子节点作为初始节点;
步骤c,搜索初始节点最右侧的同级相邻的节点,将初始节点和最右侧同级相邻的节点作为一个信息意图连接关系保存至集合;
步骤d,更新初始节点为初始节点的上一级节点,转去执行步骤c;
重复步骤c和步骤d,直至遍历语用分析树的所有节点。
语用分析树的能够表现出对应的事件之间的关联关系,在对语篇的处理过程中,有效缩小了语句的处理范围,进一步提高了文本的处理效率。
另外,筛选模块包括第一筛选子模块、第二筛选子模块以及第三筛选子模块;
第一筛选子模块,用于采用信息意图的文本表现形式对原始文本进行句子筛选;
第二筛选子模块,用于对筛选得到的文本进行句法解析,以及对筛选得到的文本进行指代消解;
第三筛选子模块,用于基于句法解析的结果以及指代消解的结果,确定包含信息意图的语篇片段。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明第一实施方式中涉及的信息意图检测方法流程图;
图2是本发明第一实施方式中基于蚁群分类算法的凝聚层次示意图;
图3是本发明第一实施方式中确定语篇片段中包含的信息意图的关联集合的实施步骤示意图;
图4是本发明第一实施方式中根据意图信息的语篇片段构建信息意图关联集合的过程示意图;
图5是本发明第二实施方式中涉及的信息意图检测方法流程图;
图6是本发明第二实施方式中信息意图检测方法原始文本信息抽取过程示意图;
图7是本发明第三实施方式中涉及的信息意图检测装置的结构图;
图8是本发明第四实施方式中涉及的信息意图检测装置的结构图;
图9是本发明第五实施方式提供的设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种信息意图检测方法。具体流程如图1所示。包括如下步骤:
步骤101:采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段。
值得一提的是,在对原始文本的筛选过程中,将每个语句视为一个微观的事件,从而针对事件的分析处理任务,落实到每个语句上,保证有效的处理了原始文本。
具体的,该信息意图的文本表现形式包括语篇标记、句型结构、意图性动词以及常见句式中的一种或多种。一个优选的实施方式中,该意图信息文本包括语篇标记、句型结构和意图性动词。
具体的,语篇标记语表示事件之间的聚合关系,根据语篇信息反映事件之间的共生、连续、相继的关系,例如,事件一发生的同时事件二产生,则两个事件是共生的关系;事件一发生之后必然伴随事件二的发生,则两个事件是连续的关系;事件一发生后为了达到意图目的进行事件二,则两个事件是相继的关系。在英文的语法中,意图性动词担负传达信息的主要使命,因此,意图性动词对信息意图的表达起着决定性的作用,例如常见的意图性动词:考虑、计划、渴望、信任等。在实际的研究文本挖掘的工作中,根据想要推测的意图确定意图性动词集合。在英文的文本处理过程中,语篇类型及标记语示意如表1所示:
表1 语篇类型及标记语
值得一提的是,信息意图的语篇片段包括信息意图元素,其中信息意图元素包括:信息意图主体、意图行为、意图结果、空间性信息、时间性信息等,例如包括信息意图的语篇为,某人在某时某地想要做某事,并完成了某事。在分析语篇的过程中,设计相应的算法对语篇中的语篇标记语、句型结构、意图性动词设置相应的取值,并根据取值判断该语篇片段包含的意图信息,使得意图信息的语篇抽取有了良好可靠的可操作性,同时结合英文句法解析和指代消解技术,进一步提高语句处理的准确率。如下的表2中给出了在英文的文本处理处理中,基于信息意图元素从语篇标记语、句型结构、意图性动词及常见句式等三个方面进行筛选后的信息意图语句成分的抽取及对应关系。其中,表2中的“that p”表示意图行为的宾语从句;“toΘ”表示意图行为所带的动词不定式;“X”表示语句中意图行为的直接名词性宾语。
表2 信息意图元素的定义及取值
需要说明的是,该信息意图检测方法也适用于英文的文本内容,能够识别该英文文本中的内容和文本包含的事件,研究分析英文的文本中的信息意图的语义学和语用学的规律,识别和检测词义与语义层面的信息意图。
步骤102:根据包含信息意图的语篇片段构建信息意图的节点,并根据信息意图的节点构建语用分析树。
具体的,动词性节点又称为基本节点,非动词性信息意图节点的组成部分是分句,而分句可被视为基本节点,因此,非动词性信息意图节点又称为语篇节点。该实施步骤中信息意图的节点包括动词性信息意图节点和非动词性信息意图节点;该语用分析树的任一节点分为左右两个分支,坐支为主位,右支为述位,主位用于体现所在节点的出发点和中心点,述位用于对所在节点的主位进行补充描述。其中,语用分析树包括动词性信息节点和非动词性意图节点,动词性意图节点用于描述简单句的主位和述位结构,非动词性信息意图节点用于描述复合句内分句的主位和述位结构。
值得一提的是,对于信息意图的节点的构建,是一个复合行为的话,复合行为的自身的一致性表示一个主体的复合行为中有一定的凝聚性,其中凝聚性表示语法上的接合关系。基于该语法关系可以用树形表示,语用分析树。
具体的,根据包含信息意图的语篇片段构建信息意图的节点具体包括:将采用意图性动词筛选出的语句构建为动词性信息意图节点;将采用语篇标记语筛选出的语句构建非动词性信息意图节点;其中,若采用语篇标记筛选出的语句包含分句,分句中包含意图性动词,则非动词性信息意图节点中包含动词性意图节点。若分句中还包含下一层分句,则非动词性信息意图节点包含高级的非动词性信息意图节点和低层级的非动词性意图节点,且高层级的非动词性信息意图节点包含低层级的非动词性信息意图节点。
具体的,根据信息意图节点构建语用分析树实际构建过程可选择聚类算法,其中聚类算法是一种公知的算法,此处不再详述。
具体的,本实施方式中选择一种基于蚁群分类算法的凝聚层次法,该方法首先利用蚁群分类算法保证了同类节点的一致性,然后在同一分类中,采用凝聚层次法,构建树形结构,从而保证同类节点之间自下而上的凝聚性。
在一个具体实现中,基于蚁群分类算法的凝聚层次法如图2所示,第一阶段a原始文本的节点、b语篇节点、c自下而上凝聚性节点。在同一分类中,采用凝聚层次法,构建树形结构,从而保证同类节点之间自下而上的凝聚性。
具体的,构建的语用分析树的模型具有如下的特质,1)该语用分析树就是具体的行为片段;2)语用分析树的模型构建遵从构建规则;3)同一个树形结构内的片段之间有必然关系。其中,语用分析树的构建规则为,任一节分为左右两个分支,坐支为主位,右支为述位,即上述的主位和述位的说明。因此,语用分析树所体现的结构形式是存在于认知事件之间关系之中。因此,对于构建信息意图节点的动词性节点,根据表2中的构建向量纬度的定义及取值,如下表3所示。其中,表3中的“that p”,“toΘ”或“X”与表2中的表示意义相同。
表3 动词性信息意图节点的维度定义及取值
另外,用语篇标记语抽取出来的信息意图语篇片段,构建非动词性信息意图节点,该节点的意图活动为Null(无);同时,这些语篇片段的组成部分是分句,如果这些分句包含意图性动词,此时非动词性信息意图节点就应包含动词性信息意图节点;甚至如果这些分句又包含分句,非动词性信息意图节点就有了层级之分,高层级的非动词性节点包含低层级的非动词性节点。因此,依据前面对语篇信息结构、语用构建树模型、信息意图和主位结构理论的分析,非动词性信息意图节点又称为语篇节点(Discourse P-Node,简写为dPd),可根据定义用表4表示非动词性信息意图节点的维度定义及取值。
向量维度 信息意图元素 经语篇标记语筛选的语句
所有支点 信息意图主体 连接词前的所有分句和子分句
所有右支点 最终意图结果 连接词后的分句(主、从句)
等级 本节点所处的层级
空间性 空间性信息 从实际语句中抽取的空间信息
时间性 时间性信息 从实际语句中抽取的时间信息
表4 非动词性信息意图节点的维度定义及取值
步骤103:基于语用分析树,确定语篇片段中包含的信息意图的关联集合。
具体的,该实施步骤具体包括:步骤a,对语用分析树进行修剪,移除语用分析树种与意图信息无关的语篇对应的节点;步骤b,将修剪后的语用分析树最左侧的叶子节点作为初始节点;步骤c,搜索初始节点最右侧的同级相邻的节点,将初始节点和最右侧同级相邻的节点作为一个信息意图连接关系保存至集合;步骤d,更新初始节点为初始节点的上一级节点,重复执行步骤c和步骤d,直到遍历语用树的所有节点,则结束。
具体的,该实施步骤可用如图3示意的步骤表示,图3中1表示语用分析树的初始状态;2表示语用分析树首轮修剪后的状态,也就是移除了和意图无关的语篇级语用分析树的节点,然后定位该语用分析树在修剪后的最左边的语篇级语用分析树节点;3表示针对当前最左边的语篇级语用分析树节点搜索其右侧的同级相邻的语用分析树节点;4表示同时将该层级的父节点上移一层;5,6在当前的新的节点层级上,继续搜索最右侧的同级相邻的语用分析树节点;7表示保存当前已经进行的意图连接关系,进行下一个循环;8表示搜索出所有的语用分析树包含的意图连接关系。
从文本内容中获取了信息意图的语篇片段之后,将首先从语言信息结构出发,讨论选择适用于语篇信息结构的模型,具体根据意图信息的语篇片段构建信息意图关联集合的过程如图4所示,研究语用分析树模型和信息意图之间的关系,构建信息意图的节点;构建语用分析树模型所应遵循的方式、方法和原则,以及应达到的特性标准构建语用分析树;最后基于语用分析树的结构特点,运用主位结构理论,挖掘所需的信息意图关联,并构建信息意图关联集合。
具体的,根据语篇信息的结构以及语用分析树之间的关联关系,表明原始文本中的复合行为都与原始文本的行为主体的内在一致性相关,且任何复合行为发的内在一致性依赖于其各个事件之间的内在凝聚性,其中,所谓的“凝聚性”是就是一种语法上的接合关系,例如:通常是具有连贯性的若干较低层次的元素汇聚成较高层次的元素,以此类推,最终形成完整的聚合层次结构。
具体的,在构建语用分析树时,语篇中的连续行为是语用分析树的最底部的节点,以及相应的分支,任何相邻的两个片段若存在直接关联关系,将构成一个节点;若不存在直接关联关系,将由较高层次的节点和其他片段构成关联关系。由此,对于上述中的结合关系使用树形表示,树中每个节点对应一个基本的语法单元或片段则构成语用分析树。由此可以得到,语用分析树有针对的提供了一种自下而上的行为分析方法。
值得一提的是,对语用分析树修剪之后,多次重复对语用分析树左侧的初始节点进行连接关系确认,直到遍历了语用树的所有节点。该语用分析树是包含信息节点的,因此,语用分析树根据节点的相关性聚集成群,保证了各信息节点的凝聚性,且该语用分析树由下而上形成聚合层次,以保证各信息节点的一致性。
本发明实施方式相对于现有技术而言,从原始文本中获取包含信息意图的语句对应的语篇,显著缩小了原始文本中语句的处理范围,提高了对原始文件的处理效率。对该语篇中的事件进行构建信息意图节点,并建立语用分析树,从而确定出事件之间的关联,该实施方式有效缩小了语篇的处理范围,并确定出意图之间的关联集合,进一步提高了对文本的处理效率,且语篇层面的分析能够完整全面的展示该原始文本中的意图及意图之间的关联关系,通过对语篇层面的信息意图自动检索、建模,丰富了语篇层面的文本挖掘研究工作,为研究事件关系推理和趋势预测开辟了新的途径。
本发明的第二实施方式涉及一种信息意图检测方法。在本发明第二实施方式中,说明了采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段的一个具体实施方式。流程图如图5所示。
步骤201:采用信息意图的文本表现形式对原始文本进行句子筛选。
具体的,对原始文本的句子筛选在第一实施方式中有说明,对句子中的句型结构、意图性动词等进行分析,此处不再赘述。
步骤202:对筛选得到的文本进行句法解析,以及对筛选得到的文本进行指代消解。
具体的,对筛选后的文本进行句法解析,具体包括:获得每一语句的完全句法树(full parser tree,FPT),一个具体实施中可利用Charniak解析器(Charniak Parser,Charniak为人名)对筛选后的文本进行句法分析获得完全句法树;获得语句中各构成单词间的依存关系,具体可使用Stanford依存句法解析器(Standford Dependency Parser,一种进行句法解析的算法工具呀);在FPT上保留与当前对象中心具有直接依存关系的分支,形成最简单的上下文句法树(simplest context parser tree,SCP)。
需要说明的是,上述实施方式中的Charniak解析器和Stanford依存句法解析器均是公知的解析工具此处不再详述。
步骤203:基于句法解析的结果以及指代消解的结果,确定包含信息意图的片段。
具体的,对句法解析的结果进行指代消解,具体地说,指代表示一个文本中对于先出现的先行词后面用照应语替代先行词指的对象,指代消解就是确定先行词与照应语之间的关系,指代有分为实体指代和事件指代,实体指代表示指代的先行词和照应语都是客观存在的具体实体(例如,人、物、组织等);事件指代表示照应语指向事件性或抽象性的对象(例如,事件、事实、命题等)。
在一个具体的实现中,该实施步骤具体采用支持向量的方法,选择一种分类器并通过选择适当的核函数,从而得到高维空间的分类函数。也就是说,在步骤202后需要对语篇的全部句子进行分类以及解析,为了提高处理器的速度以及得到可靠的结果,才用支持向量的方法在高维空间中,得到最优的分类面。从而确定语篇中的信息片段。
需要说明的是,支持向量机方法是一种公知的机器学***面特征相似度的计算,再利用乘积将得到的两个核函数进行复和。具体根据文本挖掘的需要选择适当的核函数不再详述。
步骤204:根据包含信息意图的语篇片段构建信息意图的节点,并根据信息意图的节点构建语用分析树。
步骤205:基于语用分析树,确定语篇片段中包含的信息意图的关联集合。
具体的,该实施方式中步骤204和步骤205与第一实施方式中的步骤102和步骤103相同,此处不再赘述。
具体的,为了说明原始文本信息抽取语篇的过程,以处理英文文本为例,具体过程如图6所示,图中“S”表示“Sentence(句子)”。需要说明的是,图中的原始文本先进性句子筛选,其中在对筛选后的文本进行句法解析和指代消解时也会对原始文本进行句法解析和指代消解,因此图中用虚线表示该过程。
相对于现有技术,指代消解能够保证从句法的解析中筛选出具有意图信息的语句,在对原始文件进行筛选后能够准确抽取出包含信息意图的语篇片段,是一种有效缩小语句的处理范围的方法,因此也进一步提高了对文本内容的处理效率。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种信息意图检测装置,如图7所示,包括筛选模块701、构建模块702和确定模块703。
筛选模块701,用于采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段.
构建模块702,用于根据该包含信息意图的语篇片段构建信息意图的节点,并根据该信息意图的节点构建语用分析树。
确定模块703,用于基于该语用分析树,确定该语篇片段中包含的信息意图的关联集合。
具体的,构建模块702还具体用于,将采用意图性动词筛选出的语句构建为动词性信息意图节点;将采用语篇标记语筛选出的语句构建非动词性信息意图节点;其中,若采用语篇标记语筛选出的语句包含分句,分句中包含意图性动词,则非动词性信息意图节点包含动词性信息意图节点;若分句中还包括下一层分句,则非动词性信息意图节点包含高层级的非动词性信息意图节点和低层级的非动词性信息意图节点,且高层级的非动词性信息意图节点包含低层级的非动词性信息意图节点。
具体的,确定模块703还具体用于执行如下步骤,步骤a,对语用分析树进行修剪,移除语用分析树中与信息意图无关的语篇片段对应的节点;步骤b,将修剪后的语用分析树最左侧的叶子节点作为初始节点;步骤c,搜索初始节点最右侧的同级相邻的节点,将初始节点和最右侧同级相邻的节点作为一个信息意图连接关系保存至集合;步骤d,更新初始节点为初始节点的上一级节点,转去执行步骤c;重复步骤c和步骤d,直至遍历语用分析树的所有节点。
不难发现,本实施方式为与第一实施方式相对应的***实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种信息意图检测装置。在本发明第四实施方式中,说明了筛选模块701包括:第一筛选子模块7011、第二筛选子模块7012和第三筛选子模块7013。如图8所示。
第一筛选子模块7011,用于采用信息意图的文本表现形式对原始文本进行句子筛选。
第二筛选子模块7012,用于对筛选得到的文本进行句法解析,以及对筛选得到的文本进行指代消解。
第三筛选子模块7013,用于基于句法解析的结果以及指代消解的结果,确定包含信息意图的语篇片段。
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明第五实施方式涉及一种设备,包括:存储器501、至少一个处理器502。其结构如图9所示,该至少一个的存储器501与该处理器502通信连接。
存储器501用于存储可被该至少一个处理器执行的指令;
处理器502用于执行该存储器中存储的指令。
处理器502还用于执行第一和第二实施方式中有关信息意图检测方法的执行步骤。
具体的,处理器502用于:采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;根据该包含信息意图的语篇片段构建信息意图的节点,并根据该信息意图的节点构建语用分析树;基于该语用分析树,确定该语篇片段中包含的信息意图的关联集合。
具体的,处理器502用于:采用信息意图的文本表现形式对原始文本进行句子筛选;对筛选得到的文本进行句法解析,以及对筛选得到的文本进行指代消解;基于句法解析的结果以及指代消解的结果,确定该包含信息意图的语篇片段。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明的第六实施方式涉及一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时能够实现第一或第二实施方式中提到的信息意图检测方法。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种信息意图检测方法,其特征在于,包括:
采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;
根据所述包含信息意图的语篇片段构建信息意图的节点,并根据所述信息意图的节点构建语用分析树;
基于所述语用分析树,确定所述语篇片段中包含的信息意图的关联集合。
2.根据权利要求1所述的信息意图检测方法,其特征在于,所述采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段,包括:
采用信息意图的文本表现形式对所述原始文本进行句子筛选;
对筛选得到的文本进行句法解析,以及对所述筛选得到的文本进行指代消解;
基于句法解析的结果以及指代消解的结果,确定所述包含信息意图的语篇片段。
3.根据权利要求2所述的信息意图检测方法,其特征在于,所述意图信息的文本表现形式包括语篇标记语、句型结构、意图性动词以及常见句式中的一种或多种的组合。
4.根据权利要求1至3任一项所述的信息意图检测方法,其特征在于,所述信息意图的节点,包括动词性信息意图节点和非动词性信息意图节点;
所述语用分析树的任一节点分为左右两个分支,左支为主位,右支为述位,所述主位用于体现所在节点的出发点和中心点,所述述位用于对所在节点的主位进行补充描述;
所述语用分析树包括所述动词性信息意图节点和所述非动词性信息意图节点,所述动词性信息意图节点用于描述简单句的主位和述位结构,所述非动词性信息意图节点用于描述复合句内分句的主位和述位结构。
5.根据权利要求4所述的信息意图检测方法,其特征在于,所述根据所述包含信息意图的语篇片段构建信息意图的节点,包括:
将采用意图性动词筛选出的语句构建为所述动词性信息意图节点;
将采用语篇标记语筛选出的语句构建所述非动词性信息意图节点;
其中,若所述采用语篇标记语筛选出的语句包含分句,所述分句中包含意图性动词,则所述非动词性信息意图节点包含所述动词性信息意图节点;
若所述分句中还包括下一层分句,则所述非动词性信息意图节点包含高层级的非动词性信息意图节点和低层级的非动词性信息意图节点,且所述高层级的非动词性信息意图节点包含所述低层级的非动词性信息意图节点。
6.根据权利要求4所述的信息意图检测方法,其特征在于,所述基于所述语用分析树,确定所述语篇片段中包含的信息意图的关联集合,包括:
步骤a,对所述语用分析树进行修剪,移除所述语用分析树中与信息意图无关的语篇片段对应的节点;
步骤b,将修剪后的所述语用分析树最左侧的叶子节点作为初始节点;
步骤c,搜索所述初始节点最右侧的同级相邻的节点,将所述初始节点和所述最右侧同级相邻的节点作为一个信息意图连接关系保存至所述集合;
步骤d,更新所述初始节点为所述初始节点的上一级节点,转去执行步骤c;
重复步骤c和步骤d,直至遍历所述语用分析树的所有节点。
7.一种信息意图检测装置,其特征在于,包括:
筛选模块,用于采用信息意图的文本表现形式,对原始文本进行语句筛选得到包含信息意图的语篇片段;
构建模块,用于根据所述包含信息意图的语篇片段构建信息意图的节点,并根据所述信息意图的节点构建语用分析树;
确定模块,用于基于所述语用分析树,确定所述语篇片段中包含的信息意图的关联集合。
8.根据权利要求7所述的信息意图检测装置,其特征在于,所述筛选模块包括第一筛选子模块、第二筛选子模块以及第三筛选子模块;
所述第一筛选子模块,用于采用信息意图的文本表现形式对所述原始文本进行句子筛选;
所述第二筛选子模块,用于对筛选得到的文本进行句法解析,以及对所述筛选得到的文本进行指代消解;
所述第三筛选子模块,用于基于句法解析的结果以及指代消解的结果,确定所述包含信息意图的语篇片段。
9.一种设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一项所述的信息意图检测方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序用于被处理器加载后按照所述计算机程序执行权利要求1至6任一项所述的信息意图检测方法。
CN201710941049.0A 2017-10-11 2017-10-11 一种信息意图检测方法、装置、设备和存储介质 Active CN107679035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710941049.0A CN107679035B (zh) 2017-10-11 2017-10-11 一种信息意图检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710941049.0A CN107679035B (zh) 2017-10-11 2017-10-11 一种信息意图检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN107679035A true CN107679035A (zh) 2018-02-09
CN107679035B CN107679035B (zh) 2020-06-12

Family

ID=61140189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710941049.0A Active CN107679035B (zh) 2017-10-11 2017-10-11 一种信息意图检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN107679035B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN109815314A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN110096595A (zh) * 2019-05-06 2019-08-06 上海互问信息科技有限公司 一种基于混合策略的复句用户查询语句的意图识别方法
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
CN113641782A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于检索语句的信息检索方法、装置、设备和介质
CN113743125A (zh) * 2021-09-07 2021-12-03 广州晓阳智能科技有限公司 文本连贯性分析方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475006B2 (en) * 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
US7596485B2 (en) * 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN102945230A (zh) * 2012-10-17 2013-02-27 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
US20140304251A1 (en) * 2013-04-03 2014-10-09 International Business Machines Corporation Method and Apparatus for Optimizing the Evaluation of Semantic Web Queries
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及***
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475006B2 (en) * 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
US7596485B2 (en) * 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN102945230A (zh) * 2012-10-17 2013-02-27 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
US20140304251A1 (en) * 2013-04-03 2014-10-09 International Business Machines Corporation Method and Apparatus for Optimizing the Evaluation of Semantic Web Queries
CN104142917A (zh) * 2014-05-21 2014-11-12 北京师范大学 一种用于语言理解的层次语义树构建方法及***
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN109815314A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN109815314B (zh) * 2019-01-04 2023-08-08 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN110096595A (zh) * 2019-05-06 2019-08-06 上海互问信息科技有限公司 一种基于混合策略的复句用户查询语句的意图识别方法
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110347821B (zh) * 2019-05-29 2023-08-25 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110825839A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 一种对文本信息中目标的关联关系分析方法
CN113641782A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于检索语句的信息检索方法、装置、设备和介质
CN113743125A (zh) * 2021-09-07 2021-12-03 广州晓阳智能科技有限公司 文本连贯性分析方法及装置

Also Published As

Publication number Publication date
CN107679035B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
Kanan et al. Automated arabic text classification with P‐S temmer, machine learning, and a tailored news article taxonomy
JP5092165B2 (ja) データ構築方法とシステム
CN107798387B (zh) 一种适用于高端装备全生命周期的知识服务***及方法
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN111538794B (zh) 一种数据融合方法、装置及设备
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
KR102498294B1 (ko) 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치
Huang et al. Technology–function matrix based network analysis of cloud computing
Zhang et al. A knowledge graph system for the maintenance of coal mine equipment
CN109918661A (zh) 同义词获取方法及装置
Xu et al. The semantic analysis of knowledge map for the traffic violations from the surveillance video big data.
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
Chen English translation template retrieval based on semantic distance ontology knowledge recognition algorithm
KR20220068462A (ko) 지식 그래프 생성 방법 및 장치
Xia et al. An improved local community detection algorithm using selection probability
Ding et al. Recurrent graph encoder for syntax-aware neural machine translation
Li [Retracted] Question and Answer Techniques for Financial Audits in Universities Based on Deep Learning
Chen et al. Pre-training models based knowledge graph multi-hop reasoning for smart grid technology
Jia et al. Digital media hotspot mining algorithm implementation with complex systems in the mobile internet environment
Wang et al. Two-Stage Graph Convolutional Networks for Relation Extraction
Yilahun et al. Automatic extraction of Uyghur domain concepts based on multi‐feature for ontology extension
CN116401305A (zh) 一种信息处理方法、装置及***
LU505297B1 (en) Method for constructing social media disaster effective information detection model
Galbusera et al. Exploiting web ontologies for automated critical infrastructure data retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220113

Address after: 201815 Room 308, floor 3, building 1, No. 1180, Xingxian Road, Jiading District, Shanghai

Patentee after: Shanghai pujinte Information Technology Service Co.,Ltd.

Address before: 832099 No. 221, Beisi Road, Shihezi City, county level administrative division of Xinjiang Uygur Autonomous Region

Patentee before: SHIHEZI University

Patentee before: East China University of Science and Technology

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method, device, device, and storage medium for detecting information intent

Granted publication date: 20200612

Pledgee: China Construction Bank Corporation Shanghai Pudong Branch

Pledgor: Shanghai pujinte Information Technology Service Co.,Ltd.

Registration number: Y2024310000076