CN113743125A - 文本连贯性分析方法及装置 - Google Patents
文本连贯性分析方法及装置 Download PDFInfo
- Publication number
- CN113743125A CN113743125A CN202111042313.XA CN202111042313A CN113743125A CN 113743125 A CN113743125 A CN 113743125A CN 202111042313 A CN202111042313 A CN 202111042313A CN 113743125 A CN113743125 A CN 113743125A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- analysis
- target analysis
- consistency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 354
- 239000012634 fragment Substances 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 abstract description 12
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 20
- 238000012549 training Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 238000007405 data analysis Methods 0.000 description 8
- 238000007637 random forest analysis Methods 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 235000021152 breakfast Nutrition 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 235000013547 stew Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本连贯性分析方法及装置,该方法包括:获取目标分析文本;所述目标分析文本包括有多个文本片段;确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。可见,本发明能够根据文本中相邻文本片段之间的语义关系,确定文本的连贯性,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本连贯性分析方法及装置。
背景技术
随着自然语言处理技术的发展,针对文本的语义分析,开始从局部指标的分析过渡至全局指标的分析,更多的全局指标,如文本中语句的连贯性,或文本与主题的相关性,开始被引入研究,并逐渐被重视。但现有技术针对文本的连贯性的分析,主要考虑文本中的字词组合和关键词类型等局部性的因素,并没有考虑文本片段间的语义关系这一全局性的因素。可见,现有技术存在缺陷,亟待解决。
发明内容
本发明所要解决的技术问题在于,提供一种文本连贯性分析方法及装置,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
为了解决上述技术问题,本发明第一方面公开了一种文本连贯性分析方法,所述方法包括:
获取目标分析文本;所述目标分析文本包括有多个文本片段;
确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;
根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。
作为一个可选的实施方式,在本发明第一方面中,所述根据所述语义关系,确定所述目标分析文本对应的连贯性参数,包括:
确定所述目标分析文本对应的文本连贯性要求;所述文本连贯性要求用于指示所述目标分析文本的至少一部分文本所对应的语义关系参数要求;
判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求;
根据判断结果,确定所述目标分析文本对应的连贯性参数。
作为一个可选的实施方式,在本发明第一方面中,所述语义关系包括显性语义关系和/或隐性语义关系。
作为一个可选的实施方式,在本发明第一方面中,所述确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系,包括:
将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系;所述语义分析算法模型包括显性语义分析模型和/或隐性语义分析模型。
作为一个可选的实施方式,在本发明第一方面中,所述将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系,包括:
判断所述目标分析文本中至少一对相邻的所述文本片段之间是否存在显性连接词;
当判断结果为是时,将所述相邻的所述文本片段输入至显性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的显性语义关系;
当判断结果为否时,将所述相邻的所述文本片段输入至隐性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的隐性语义关系。
作为一个可选的实施方式,在本发明第一方面中,所述隐性语义关系为所述相邻的所述文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率,和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本所对应的隐性连贯性要求;
和/或,所述判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求,包括:
对于所述目标分析文本的任一部分文本中的任意两个相邻的所述文本片段组成的文本片段对,根据该文本片段对中后一文本片段为前一文本片段的下一语义连贯片段的概率,确定该文本片段对的隐性连贯性;
判断所述目标分析文本中至少一部分文本中的至少一个所述文本片段对的隐性连贯性是否符合所述文本连贯性要求。
作为一个可选的实施方式,在本发明第一方面中,所述语义关系包括多种类型的语句连接关系;和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本应包括的语句连接关系的类型和/或数量;
和/或,所述判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求,包括:
对于所述目标分析文本的任一部分文本,根据该部分文本中的任意一对相邻的所述文本片段之间对应的语句连接关系,确定该部分文本中的所有语句连接关系;
判断所述目标分析文本中至少一部分文本中的所有语句连接关系是否符合所述文本连贯性要求。
本发明实施例第二方面公开了一种文本连贯性分析装置,所述装置包括:
文本获取模块,用于获取目标分析文本;所述目标分析文本包括有多个文本片段;
语义确定模块,用于确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;
连贯性分析模块,用于根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。
作为一个可选的实施方式,在本发明第二方面中,所述连贯性分析模块包括:
第一确定单元,用于确定所述目标分析文本对应的文本连贯性要求;所述文本连贯性要求用于指示所述目标分析文本的至少一部分文本所对应的语义关系参数要求;
判断单元,用于判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求;
第二确定单元,用于根据判断结果,确定所述目标分析文本对应的连贯性参数。
作为一个可选的实施方式,在本发明第二方面中,所述语义关系包括显性语义关系和/或隐性语义关系。
作为一个可选的实施方式,在本发明第二方面中,所述语义确定模块确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系的具体方式,包括:
将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系;所述语义分析算法模型包括显性语义分析模型和/或隐性语义分析模型。
作为一个可选的实施方式,在本发明第二方面中,所述语义确定模块将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系的具体方式,包括:
判断所述目标分析文本中至少一对相邻的所述文本片段之间是否存在显性连接词;
当判断结果为是时,将所述相邻的所述文本片段输入至显性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的显性语义关系;
当判断结果为否时,将所述相邻的所述文本片段输入至隐性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的隐性语义关系。
作为一个可选的实施方式,在本发明第二方面中,所述隐性语义关系为所述相邻的所述文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率,和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本所对应的隐性连贯性要求;
和/或,所述判断单元判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求的具体方式,包括:
对于所述目标分析文本的任一部分文本中的任意两个相邻的所述文本片段组成的文本片段对,根据该文本片段对中后一文本片段为前一文本片段的下一语义连贯片段的概率,确定该文本片段对的隐性连贯性;
判断所述目标分析文本中至少一部分文本中的至少一个所述文本片段对的隐性连贯性是否符合所述文本连贯性要求。
作为一个可选的实施方式,在本发明第二方面中,所述语义关系包括多种类型的语句连接关系;和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本应包括的语句连接关系的类型和/或数量;
和/或,所述判断单元判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求的具体方式,包括:
对于所述目标分析文本的任一部分文本,根据该部分文本中的任意一对相邻的所述文本片段之间对应的语句连接关系,确定该部分文本中的所有语句连接关系;
判断所述目标分析文本中至少一部分文本中的所有语句连接关系是否符合所述文本连贯性要求。
本发明第三方面公开了另一种文本连贯性分析装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的文本连贯性分析方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的文本连贯性分析方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,公开了一种文本连贯性分析方法及装置,该方法包括:获取目标分析文本;所述目标分析文本包括有多个文本片段;确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。可见,本发明能够根据文本中相邻文本片段之间的语义关系,确定文本的连贯性,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种文本连贯性分析方法的流程示意图。
图2是本发明实施例公开的另一种文本连贯性分析方法的流程示意图。
图3是本发明实施例公开的一种文本连贯性分析装置的结构示意图。
图4是本发明实施例公开的另一种文本连贯性分析装置的结构示意图。
图5是本发明实施例公开的又一种文本连贯性分析装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种文本连贯性分析方法及装置,能够根据文本中相邻文本片段之间的语义关系,确定文本的连贯性,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种文本连贯性分析方法的流程示意图。其中,图1所描述的文本连贯性分析方法应用于文本数据分析***/文本数据分析设备/文本数据分析服务器(其中,该文本数据分析服务器包括本地服务器或云服务器)中。如图1所示,该文本连贯性分析方法可以包括以下操作:
101、获取目标分析文本。
可选的,目标分析文本可以为用户提交的写作文本,例如用户在软件上根据主题要求或类型要求进行创作形成的文本,也可以为现成的网络或媒体或书籍上的文本,如书籍的文字、媒体的新闻或网络播客文章,本发明的文本连贯性分析方法可以用于任何文本的分析,并不限定其应用的场景。可选的,目标分析文本可以为英语、中文、德语或其他具备语义分析可能性的语言,例如可解释的古语言,或是其他在未来有可能因为语言技术的发展和语料库的积累而具备语义分析可能性的语言,本发明不做限定。
可选的,目标文本的获取方式包括但不限于:直接接收输入的计算机信息、识别图像中的文本、识别语音中的文本和接收手写设备输入的信息。
可选的,目标分析文本可以包括有多个文本片段。可选的,本发明中所述的文本片段,可以为分句、句子或段落等语义完整上的片段,也可以为任意的连续单词或单字组成的语义不完整的片段,本发明不做限定。
102、确定目标分析文本中至少一对相邻的文本片段之间对应的语义关系。
可选的,语义关系可以包括显性语义关系和/或隐性语义关系,其中,显性语义关系用于指代那些根据语义连接词可以明显确定出的语义关系,而隐性语义关系用于指代没有明显的语义连接词而导致语义关系需要根据两个文本片段本身的语义推断出来的,隐晦的语义关系。例如以下两个例子:
(1)The weather was awesome.We decided to go for lunch outside.
或,天气真好,我们决定去外面吃午饭。
(2)The weather was awesome.However,we had to eat our food inside.
或,天气真好,然而,我们不得不在里面吃我们的食物。
上面两个例子在中文和英语两种语言上都适用,同样在德语或法语中也存在类似的概念,因此非常合适用来解释本发明中的技术概念,上面两个例子中,第一个例子的前后两个句子的语义关系是因果关系,也即,由于天气好,所以在外面享用午餐是可取的。而重要的是,在这个例子中,这种关系必须从两个相邻句子的本身的语义中推断出来,这与第二个例子形成对比,其中语义连接词However或然而,用于表示两个相邻句子之间存在类似对比的关系。因此此类语义连接词的存在使表达的关系变得明确,从而使得第二个例子形成了显性语义关系,而缺少此类语义连接词则使得语义关系变得隐晦,使得第一个例子形成了隐性语义关系。
可选的,语义关系可以包括多种类型的语句连接关系,其中,多种类型的语句连接关系可以为隐性语义关系或显性语义关系,这两个设定之间并不冲突,因为隐性语义分析算法或显性语义分析算法均可以分析出相邻文本片段之间的语句连接关系。可选的,语句连接关系的类型可以包括但不限于:时序、偶然、比较、拓展等类型,其中比较类型可以包括比较-相似、比较-对比、比较-反对等类型,而偶然类型可以包括偶然-因果、偶然-情景、偶然-承诺等类型,而拓展类型可以包括拓展-例外、拓展-细节等类型,这些语义连接关系均可以根据实际的情况进行拓展或删除。可选的,语句连接关系的类型,可以参照现有的语义树分类理论的研究成果,例如在应用在英语或德语这类同属日耳曼语系的语言,或其他类似的语言时,语句连接关系的类型可以参照PDTB(Penn Discourse Treebank,宾州篇章树库)理论提出的分类,而当其应用在如中文这类语言时,其可以参照中文语义研究中提出的理论如张牧宇、秦兵或刘挺等人提出的中文篇章级句间语义关系体系及标注,或是苏州大学自然语言处理实验室提出的基于CDT(connective-driven dependency tree,连接依存树)的汉语篇章结构表示体系,进行分类。从而,通过各种语言的本土化研究中提出的语义分类理论,可以使得本发明中所述的语义关系可以被应用于多个可选的语言类型的文本分析中。
103、根据语义关系,确定目标分析文本对应的连贯性参数。
具体的,连贯性参数用于指示目标分析文本的叙述连贯程度。可选的,连贯性参数可以为目标分析文本对应的连贯性评分,其可以根据文本片段间的语义关系,以及预设的评分规则得出。可选的,连贯性参数也可以为目标分析文本的对应的连贯性提示或修改建议,例如在目标分析文本不连贯时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。
可见,上述发明实施例能够根据文本中相邻文本片段之间的语义关系,确定文本的连贯性,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
作为一个可选的实施方式,上述步骤102中的,确定目标分析文本中至少一对相邻的文本片段之间对应的语义关系,可以包括:
将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系。
可选的,语义分析算法模型,可以采用预先标记有语义连接关系类型的文本片段训练集进行训练得到,对应于上述实施例中的分类,本发明实施例中的语义分析算法模型也可以包括显性语义分析模型和/或隐性语义分析模型。其中显性语义分析模型具体用于分析得到相邻文本片段之间的显性语义关系,而隐性语义分析模型具体用于分析得到相邻文本片段之间的隐性语义关系。
可见,通过该可选的实施方式,可以将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系,从而可以利用语义分析算法模型得到准确语义关系,以便于为后续的连贯性分析提供准确的数据基础。
作为一个可选的实施方式,上述步骤中的,将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系,包括:
判断目标分析文本中至少一对相邻的文本片段之间是否存在显性连接词;
当判断结果为是时,将相邻的文本片段输入至显性语义分析模型进行分析,以得到相邻的文本片段之间对应的显性语义关系;
当判断结果为否时,将相邻的文本片段输入至隐性语义分析模型进行分析,以得到相邻的文本片段之间对应的隐性语义关系。
可选的,本发明实施例中所述的显性连接词,其用于指代文本片段间是否存在用于连接两个命题或两个观点的连接词,可选的,可以将目标分析文本中至少一对相邻的文本片段输入至预先训练好的连接词判断模型来判断目标分析文本中至少一对相邻的文本片段之间是否存在显性连接词,其中,该连接词判断模型可以采用神经网络分类算法模型,如BERT模型和多层分类感知器的结合,并基于预设的连接词词典,以及训练文本对该连接词判断模型进行训练。
进一步的,在采用连接词判断模型进行显性连接词判断时,还需要注意连接词的歧义方面的问题,例如以下两个例子:
(3)He is now changing the place he sleeps every night,sometimes morethan once a night.(他现在每晚都在改变他睡觉的地方,有时一晚上不止一次)
(4)Once it gets there,a company can do with it what it wishes.(一旦到达那里,公司就可以随心所欲)
在例子(3)中,once是短语once a night(每晚一次)的一部分,其没有连接任何命题,因此并不属于显性连接词,相比之下,在例子(4)中once表示连接句子中包含的两个命题,用逗号隔开,因此可见,同一个连接词在不同的上下文语境中拥有着不同的含义。为了消除连接词的歧义问题,本实施例进一步的,还在连接词判断模型的训练或判断中,引入了预设的特定连接词歧义信息,来避免连接词判断模型的判断失误。该特定的连接词歧义信息可以规定特定连接词在特定的上下文搭配中不应被认为是显性连接词的情况,以上面的两个句子为例,在对连接词判断模型进行训练时,可以引入预设的特定连接词歧义信息作为连接词判断模型中的训练数据,以将连接词判断模型训练为:不会将上下文为once anight的once判断为连接词,也可以引入特定连接词歧义信息作为连接词判断模型的后置修正模型,用于在连接词判断模型将上下文为once anight的once判断为连接词时,对该判断结果进行修正。
例如,在一个实际的实施方案中,连接词词典DiMLex被用于德语的连接词判断模型的训练,将出现在连接词词典DiMLex中的所有连接词作为候选的被识别对象,并采用波茨坦评论语料库(Potsdam Commentary Corpus,PCC)和***的网络资源文本作为训练文本,对神经网络分类算法模型进行训练,取得了良好的连接词判断效果。进一步的,该方案还在连接词判断模型的训练中引入了连接词词典DiMLex中的特定连接词歧义信息,以对连接词判断模型的训练预测结果进行否定,以实现显性连接词的歧义消除。在另一个实际的实施方案中,连接词词典EN-DiMLex被用于英语的连接词判断模型的训练,其训练效果同样很好。
可见,通过该可选的实施方式,可以在分析相邻的文本片段之间对应的语义关系前,判断是否存在显性连接词,从而可以区分显性语义文本片段对和隐性语义文本片段对,有助于后续通过语义分析算法模型得到准确语义关系,为连贯性分析提供准确的数据基础。
作为一个可选的实施方式,显性语义分析模型包括有两个并联的向量解析模块和多层感知分类器模块,该多层感知分类器模块连接至两个向量解析模块的输出,对两个向量解析模块输出的文本向量进行分类。相应的,上述步骤中的,将相邻的文本片段输入至显性语义分析模型进行分析,以得到相邻的文本片段之间对应的显性语义关系,可以包括:
将相邻的两个文本片段分别输入至两个并联的向量解析模块,以得到两个对应的文本向量;
将两个对应的文本向量输入至多层感知分类器模块进行分类以得到相邻的文本片段之间对应的显性语义关系。
可选的,向量解析模块可以为BERT模型或ERNIE模型。可选的,多层感知分类器模块可以包括有全连接层模块和softmax层模块。
进一步的,显性语义分析模型还可以为使用集成学习算法对上述包括有两个并联的向量解析模块和多层感知分类器模块的显性语义分析模型进行训练以得到的集成学习算法模型,可选的,该集成学习算法可以为随机森林算法,该集成学习算法模型可以为随机森林算法模型。进一步可选的,随机森林算法使用句法特征作为决策树参数对上述显性语义分析模型的进行训练以得到随机森林算法模型,该句法特征可以为基于pos-tags(Part-of-Speech Tags,词性标签)的句法特征,也可以为基于短语结构树的父节点和子节点的句法特征。
可见,通过该可选的实施方式,可以采用包括有两个并联的向量解析模块和多层感知分类器模块的显性语义分析模型来对相邻文本片段的显性语义关系进行分析,从而可以计算得到准确的显性语义关系,为连贯性分析提供准确的数据基础。
作为一个可选的实施方式,隐性语义关系可以为相邻的文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率。相应的,隐性语义分析模型可以为BERT模型中的NSP(Next Sentence Prediction,下一句预测)模块。可选的,可以将相邻的文本片段输入至经过NSP预训练的BERT模型,并得到其后一文本片段为前一文本片段的下一语义连贯片段的概率,在一些情况中,该概率的形式为预测得分,则步骤103中的根据语义关系,确定目标分析文本对应的连贯性参数,可以为:根据预设的得分阈值,以及相邻的文本片段的预测得分,判断相邻的文本片段的连贯性。比如在预测得分低于得分阈值时,判断相邻的文本片段为不连贯,并在用户终端显示对应的警告提示。
可见,通过该可选的实施方式,可以采用BERT模型中的NSP模块来对相邻文本片段的隐性语义关系进行分析,从而可以计算得到准确的隐性语义关系,为连贯性分析提供准确的数据基础。
考虑到本发明的方案应用在写作评测的场景时,由于隐性的语义关系在NSP模块中的预测得分普遍偏低,若采用一般的得分阈值,容易使得算法只能检测文本中的极不连贯的语义关系,而对于不连贯程度稍轻的语义关系无法识别。因此,作为一个可选的实施方式,上述得分阈值可以通过以下步骤确定:
确定出目标分析文本中的所有的隐性文本片段对;其中,隐性文本片段对为一对相互之间不存在显性连接词的相邻的文本片段;
将所有隐性文本片段对输入至隐性语义分析模型以得到每一隐性文本片段对的预测得分;
将所有隐性文本片段对的预测得分的平均值,确定为得分阈值。
可选的,确定出目标分析文本中的所有的隐性文本片段对的具体细节,可以参照上述采用连接词判断模型进行显性连接词判断的技术细节进行实施,同样,将所有隐性文本片段对输入至隐性语义分析模型以得到每一隐性文本片段对的预测得分的具体细节,也可以参照上述将相邻的文本片段输入至经过NSP预训练的BERT模型,并得到其后一文本片段为前一文本片段的下一语义连贯片段的概率进行实施,本发明在此不再赘述。
可见,通过该可选的实施方式,可以将目标分析文本所有隐性文本片段对的预测得分的平均值,确定为得分阈值,从而在后续以此更准确地确定出目标分析文本的连贯性。
实施例二
请参阅图2,图2是本发明实施例公开的另一种文本连贯性分析方法的流程示意图。其中,图2所描述的文本连贯性分析方法应用于文本数据分析***/文本数据分析设备/文本数据分析服务器(其中,该文本数据分析服务器包括本地服务器或云服务器)中。如图2所示,该文本连贯性分析方法可以包括以下操作:
201、获取目标分析文本。
202、确定目标分析文本中至少一对相邻的文本片段之间对应的语义关系。
本发明实施例中,针对步骤201-202的相关描述请参照实施例一中针对步骤101-步骤102的详细描述,本发明实施例不再赘述。
203、确定目标分析文本对应的文本连贯性要求。
可选的,文本连贯性要求用于指示目标分析文本的至少一部分文本所对应的语义关系参数要求。可选的,文本连贯性要求可以具体用于指示目标分析文本的至少一部分文本所对应的隐性连贯性要求。可选的,文本连贯性要求也可以具体用于指示目标分析文本的至少一部分文本应包括的语句连接关系的类型和/或数量。
204、判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求。
205、根据判断结果,确定目标分析文本对应的连贯性参数。
可见,上述发明实施例能够判断目标分析文本中的文本片段之间对应的语义关系是否满足目标分析文本对应的文本连贯性要求,并根据判断结果来确定目标分析文本对应的连贯性参数,从而可以结合预设的连贯性要求指标来判断目标分析文本的语义关系是否连贯,有利于实现更加宏观的语义连贯性分析。
作为一个可选的实施方式,上述步骤203中的,确定目标分析文本对应的文本连贯性要求,可以包括:
确定目标分析文本所对应的目标文本架构;
根据目标文本架构,确定目标分析文本对应的文本连贯性要求。
其中,目标文本架构可以为目标分析文本所对应的文本体裁应当遵循的文本论述结构,例如,当目标分析文本所对应的文本体裁为英文论述短文时,一般其包括三个部分:介绍、正文和结论。一般而言,在一篇好的英文论述短文中,介绍中应当主要是对事实的陈述,正文中应当讨论作者在该主题上的立场的几个利弊,从正反面以及借助多个对比例子来佐证作者的观点,而在结论中,我们期望对关键的观点进行总结。
可选的,根据目标文本架构确定目标分析文本对应的文本连贯性要求,可以根据目标文本架构中的不同部分文本的期望语义关系,来确定目标分析文本的不同部分文本的文本连贯性要求。其中,该期望语义关系可以为语句连接关系的期望,也可以是隐性语义关系的期望。
进一步结合上面的例子,当目标分析文本所对应的文本体裁为英文论述短文时,其目标文本架构中的不同部分的文本(介绍、正文和结论),对应着不同的期望语义关系,同样也就对应着不同的语义关系要求。在介绍部分的文本中应当主要是对事实的陈述,因此其对应的期望语义关系应当是拓展性的,陈述性的,其对应的语义关系要求应当是拓展性或陈述性的语句连接关系,例如PTDB中的Expansion.Conjunction关系。而在正文部分中应当讨论作者在该主题上的立场的几个利弊,从正反面以及借助多个对比例子来佐证作者的观点,则其对应的期望语义关系应当是比较性的,其对应的语义关系要求应当是比较性的语句连接关系,例如PTDB中的Comparison级别下面的几个子级别的关系,同时,其对应的语义关系数量要求是高于介绍部分或是结论部分的。而在结论部分中,我们期望对关键的观点进行总结,则其对应的期望语义关系应当是拓展性的,细节性的,其对应的语义关系要求应当是拓展性的或细节性的语句连接关系,例如PTDB中的Expansion.Level-of-Detail关系。
另外,在涉及到隐性语义关系时,同样结合上面的例子,由于在正文部分中作者应当讨论多种观点和多种举例,而在介绍部分和结论部分中作者只需要做事实阐述或观点总结,因此正文部分的隐性语义连贯性应当低于介绍部分和结论部分的隐性语义连贯性,这里的隐性语义连贯性可以为实施例一中公开的相邻的文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率。因此,上述例子中的英文论述短文这一文本体裁所对应的文本连贯性要求中,对于正文部分的隐性连贯性要求应当低于介绍部分和结论部分的隐性连贯性要求。
另一个例子是指导性或程序性的文本体裁,例如食谱。食谱体裁的文本,一般首先列出所需的成分,然后举出将它们变成早餐或晚餐所需的步骤,在语义上,这种文本类型的特征在于时间关系的许多表达(通常是祈使式的表达),例如让牛奶慢炖5分钟,然后加入面粉等等,因此在整个文本中主要表现出的语义关系,一般是时间的语义关系,因此在这一类文本中,其对应的期望语义关系应当是时序性的,其对应的语义关系要求应当是时序性的语句连接关系,例如PTDB中的Temporal.Synchronous关系或Temporal.Asynchronous关系,而不应当有其他关系类型如解释性的语句连接关系,因为通常不需要解释为什么某些步骤是这样,或者有哪些替代方法。
因此,通过上述举例可知,通过分析不同体裁的文本结构,可以得到不同文本结构对应的文本连贯性要求,进而可以为目标分析文本确定出文本连贯性要求,以用于目标分析文本的连贯性分析。
作为一个可选的实施方式,上述步骤204中的,判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求,可以包括:
对于目标分析文本的任一部分文本中的任意两个相邻的文本片段组成的文本片段对,根据该文本片段对中后一文本片段为前一文本片段的下一语义连贯片段的概率,确定该文本片段对的隐性连贯性;
判断目标分析文本中至少一部分文本中的至少一个文本片段对的隐性连贯性是否符合文本连贯性要求。
可选的,可以将该概率对应的NSP预测得分确定为该文本片段对的隐性连贯性。进一步的,可以将目标分析文本中至少一部分文本中的所有文本片段对的隐性连贯性的平均值,确定为目标分析文本中该部分文本对应的隐性连贯性,并将该部分文本对应的隐性连贯性,与该部分文本对应的文本连贯性要求中的隐性连贯性阈值进行对比,在该部分文本对应的隐性连贯性低于对应的隐性连贯性阈值时,判断该部分文本不符合文本连贯性要求。
进一步的,可以在判断到该部分文本不符合文本连贯性要求时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。
可见,通过该可选的实施方式,可以通过判断目标分析文本中至少一部分文本中的至少一个文本片段对的隐性连贯性是否符合文本连贯性要求来分析文本的连贯性,有助于通过隐性语义关系确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
作为一个可选的实施方式,上述步骤204中的,判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求,包括:
对于目标分析文本的任一部分文本,根据该部分文本中的任意一对相邻的文本片段之间对应的语句连接关系,确定该部分文本中的所有语句连接关系;
判断目标分析文本中至少一部分文本中的所有语句连接关系是否符合文本连贯性要求。
可选的,可以统计出该部分文本中的所有语句连接关系的类型和/或数量,并将统计出的信息与该部分文本对应的文本连贯性要求中的语句连接关系的类型要求和/或数量要求进行对比,以判断该部分文本中的所有语句连接关系的类型和/或数量是否满足对应的文本连贯性要求中的语句连接关系的类型要求和/或数量要求。
进一步的,可以在判断到该部分文本的所有语句连接关系不符合文本连贯性要求时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。可选的,可以根据该部分文本的所有语句连接关系不满足文本连贯性要求的部分,生成对应的修改建议,例如在该部分文本的所有语句连接关系中不存在文本连贯性要求中要求的类型的语句连接关系时,生成修改建议以建议用户在该部分文本中增加该类型的语句连接关系的文本片段,或例如在该部分文本中特定类型的或不特定类型的语句连接关系数量不满足文本连贯性要求中的数量要求时,生成修改建议以建议用户在该部分文本中增加更多特定类型或不特定类型的语句连接关系的文本片段,比如在英文论述短文的文本中发现正文部分的比较关系的文本片段较少时,可以生成修改建议,建议学生在正文部分添加更多的比较论述或举例论述,来佐证自己的观点。
可见,通过该可选的实施方式,可以通过判断判断目标分析文本中至少一部分文本中的所有语句连接关系是否符合文本连贯性要求来分析文本的连贯性,有助于通过语句连接关系确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
实施例三
请参阅图3,图3是本发明实施例公开的一种文本连贯性分析装置的结构示意图。其中,图3所描述的文本连贯性分析装置应用于文本数据分析***/文本数据分析设备/文本数据分析服务器(其中,该文本数据分析服务器包括本地服务器或云服务器)中。如图3所示,该文本连贯性分析装置可以包括:
文本获取模块301,用于获取目标分析文本。
可选的,目标分析文本可以为用户提交的写作文本,例如用户在软件上根据主题要求或类型要求进行创作形成的文本,也可以为现成的网络或媒体或书籍上的文本,如书籍的文字、媒体的新闻或网络播客文章,本发明的文本连贯性分析方法可以用于任何文本的分析,并不限定其应用的场景。可选的,目标分析文本可以为英语、中文、德语或其他具备语义分析可能性的语言,例如可解释的古语言,或是其他在未来有可能因为语言技术的发展和语料库的积累而具备语义分析可能性的语言,本发明不做限定。
可选的,目标文本的获取方式包括但不限于:直接接收输入的计算机信息、识别图像中的文本、识别语音中的文本和接收手写设备输入的信息。
可选的,目标分析文本可以包括有多个文本片段。可选的,本发明中所述的文本片段,可以为分句、句子或段落等语义完整上的片段,也可以为任意的连续单词或单字组成的语义不完整的片段,本发明不做限定。
语义确定模块302,用于确定目标分析文本中至少一对相邻的文本片段之间对应的语义关系。
可选的,语义关系可以包括显性语义关系和/或隐性语义关系,其中,显性语义关系用于指代那些根据语义连接词可以明显确定出的语义关系,而隐性语义关系用于指代没有明显的语义连接词而导致语义关系需要根据两个文本片段本身的语义推断出来的,隐晦的语义关系。
可选的,语义关系可以包括多种类型的语句连接关系,其中,多种类型的语句连接关系可以为隐性语义关系或显性语义关系,这两个设定之间并不冲突,因为隐性语义分析算法或显性语义分析算法均可以分析出相邻文本片段之间的语句连接关系。可选的,语句连接关系的类型可以包括但不限于:时序、偶然、比较、拓展等类型,其中比较类型可以包括比较-相似、比较-对比、比较-反对等类型,而偶然类型可以包括偶然-因果、偶然-情景、偶然-承诺等类型,而拓展类型可以包括拓展-例外、拓展-细节等类型,这些语义连接关系均可以根据实际的情况进行拓展或删除。可选的,语句连接关系的类型,可以参照现有的语义树分类理论的研究成果,例如在应用在英语或德语这类同属日耳曼语系的语言,或其他类似的语言时,语句连接关系的类型可以参照PDTB(Penn Discourse Treebank,宾州篇章树库)理论提出的分类,而当其应用在如中文这类语言时,其可以参照中文语义研究中提出的理论如张牧宇、秦兵或刘挺等人提出的中文篇章级句间语义关系体系及标注,或是苏州大学自然语言处理实验室提出的基于CDT(connective-driven dependency tree,连接依存树)的汉语篇章结构表示体系,进行分类。从而,通过各种语言的本土化研究中提出的语义分类理论,可以使得本发明中所述的语义关系可以被应用于多个可选的语言类型的文本分析中。
连贯性分析模块303,用于根据语义关系,确定目标分析文本对应的连贯性参数。
具体的,连贯性参数用于指示目标分析文本的叙述连贯程度。可选的,连贯性参数可以为目标分析文本对应的连贯性评分,其可以根据文本片段间的语义关系,以及预设的评分规则得出。可选的,连贯性参数也可以为目标分析文本的对应的连贯性提示或修改建议,例如在目标分析文本不连贯时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。
可见,上述发明实施例能够根据文本中相邻文本片段之间的语义关系,确定文本的连贯性,有助于在篇章级别上确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
作为一个可选的实施方式,语义确定模块302确定目标分析文本中至少一对相邻的文本片段之间对应的语义关系的具体方式,包括:
将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系。
可选的,语义分析算法模型,可以采用预先标记有语义连接关系类型的文本片段训练集进行训练得到,对应于上述实施例中的分类,本发明实施例中的语义分析算法模型也可以包括显性语义分析模型和/或隐性语义分析模型。其中显性语义分析模型具体用于分析得到相邻文本片段之间的显性语义关系,而隐性语义分析模型具体用于分析得到相邻文本片段之间的隐性语义关系。
可见,通过该可选的实施方式,可以将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系,从而可以利用语义分析算法模型得到准确语义关系,以便于为后续的连贯性分析提供准确的数据基础。
作为一个可选的实施方式,语义确定模块302将目标分析文本中至少一对相邻的文本片段输入至语义分析算法模型中,以输出相邻的文本片段之间对应的语义关系的具体方式,包括:
判断目标分析文本中至少一对相邻的文本片段之间是否存在显性连接词;
当判断结果为是时,将相邻的文本片段输入至显性语义分析模型进行分析,以得到相邻的文本片段之间对应的显性语义关系;
当判断结果为否时,将相邻的文本片段输入至隐性语义分析模型进行分析,以得到相邻的文本片段之间对应的隐性语义关系。
可选的,本发明实施例中所述的显性连接词,其用于指代文本片段间是否存在用于连接两个命题或两个观点的连接词,可选的,可以将目标分析文本中至少一对相邻的文本片段输入至预先训练好的连接词判断模型来判断目标分析文本中至少一对相邻的文本片段之间是否存在显性连接词,其中,该连接词判断模型可以采用神经网络分类算法模型,如BERT模型和多层分类感知器的结合,并基于预设的连接词词典,以及训练文本对该连接词判断模型进行训练。为了消除连接词的歧义问题,本实施例进一步的,还在连接词判断模型的训练或判断中,引入了预设的特定连接词歧义信息,来避免连接词判断模型的判断失误。该特定的连接词歧义信息可以规定特定连接词在特定的上下文搭配中不应被认为是显性连接词的情况。
可见,通过该可选的实施方式,可以在分析相邻的文本片段之间对应的语义关系前,判断是否存在显性连接词,从而可以区分显性语义文本片段对和隐性语义文本片段对,有助于后续通过语义分析算法模型得到准确语义关系,为连贯性分析提供准确的数据基础。
作为一个可选的实施方式,显性语义分析模型包括有两个并联的向量解析模块和多层感知分类器模块,该多层感知分类器模块连接至两个向量解析模块的输出,对两个向量解析模块输出的文本向量进行分类。相应的,语义确定模块302将相邻的文本片段输入至显性语义分析模型进行分析,以得到相邻的文本片段之间对应的显性语义关系的具体方式,可以包括:
将相邻的两个文本片段分别输入至两个并联的向量解析模块,以得到两个对应的文本向量;
将两个对应的文本向量输入至多层感知分类器模块进行分类以得到相邻的文本片段之间对应的显性语义关系。
可选的,向量解析模块可以为BERT模型或ERNIE模型。可选的,多层感知分类器模块可以包括有全连接层模块和softmax层模块。
进一步的,显性语义分析模型还可以为使用集成学习算法对上述包括有两个并联的向量解析模块和多层感知分类器模块的显性语义分析模型进行训练以得到的集成学习算法模型,可选的,该集成学习算法可以为随机森林算法,该集成学习算法模型可以为随机森林算法模型。进一步可选的,随机森林算法使用句法特征作为决策树参数对上述显性语义分析模型的进行训练以得到随机森林算法模型,该句法特征可以为基于pos-tags(Part-of-Speech Tags,词性标签)的句法特征,也可以为基于短语结构树的父节点和子节点的句法特征。
可见,通过该可选的实施方式,可以采用包括有两个并联的向量解析模块和多层感知分类器模块的显性语义分析模型来对相邻文本片段的显性语义关系进行分析,从而可以计算得到准确的显性语义关系,为连贯性分析提供准确的数据基础。
作为一个可选的实施方式,隐性语义关系可以为相邻的文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率。相应的,隐性语义分析模型可以为BERT模型中的NSP(Next Sentence Prediction,下一句预测)模块。可选的,可以将相邻的文本片段输入至经过NSP预训练的BERT模型,并得到其后一文本片段为前一文本片段的下一语义连贯片段的概率,在一些情况中,该概率的形式为预测得分,则连贯性分析模块303根据语义关系,确定目标分析文本对应的连贯性参数的具体方式,可以为:根据预设的得分阈值,以及相邻的文本片段的预测得分,判断相邻的文本片段的连贯性。比如在预测得分低于得分阈值时,判断相邻的文本片段为不连贯,并在用户终端显示对应的警告提示。
可见,通过该可选的实施方式,可以采用BERT模型中的NSP模块来对相邻文本片段的隐性语义关系进行分析,从而可以计算得到准确的隐性语义关系,为连贯性分析提供准确的数据基础。
考虑到本发明的方案应用在写作评测的场景时,由于隐性的语义关系在NSP模块中的预测得分普遍偏低,若采用一般的得分阈值,容易使得算法只能检测文本中的极不连贯的语义关系,而对于不连贯程度稍轻的语义关系无法识别。因此,作为一个可选的实施方式,上述得分阈值可以通过以下步骤确定:
确定出目标分析文本中的所有的隐性文本片段对;其中,隐性文本片段对为一对相互之间不存在显性连接词的相邻的文本片段;
将所有隐性文本片段对输入至隐性语义分析模型以得到每一隐性文本片段对的预测得分;
将所有隐性文本片段对的预测得分的平均值,确定为得分阈值。
可选的,确定出目标分析文本中的所有的隐性文本片段对的具体细节,可以参照上述采用连接词判断模型进行显性连接词判断的技术细节进行实施,同样,将所有隐性文本片段对输入至隐性语义分析模型以得到每一隐性文本片段对的预测得分的具体细节,也可以参照上述将相邻的文本片段输入至经过NSP预训练的BERT模型,并得到其后一文本片段为前一文本片段的下一语义连贯片段的概率进行实施,本发明在此不再赘述。
可见,通过该可选的实施方式,可以将目标分析文本所有隐性文本片段对的预测得分的平均值,确定为得分阈值,从而在后续以此更准确地确定出目标分析文本的连贯性。
作为一个可选的实施方式,如图4所示,连贯性分析模块303包括:
第一确定单元3031,用于确定目标分析文本对应的文本连贯性要求。
可选的,文本连贯性要求用于指示目标分析文本的至少一部分文本所对应的语义关系参数要求。可选的,文本连贯性要求可以具体用于指示目标分析文本的至少一部分文本所对应的隐性连贯性要求。可选的,文本连贯性要求也可以具体用于指示目标分析文本的至少一部分文本应包括的语句连接关系的类型和/或数量。
判断单元3032,用于判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求。
第二确定单元3033,用于根据判断结果,确定目标分析文本对应的连贯性参数。
可见,通过该可选的实施方式,可以判断目标分析文本中的文本片段之间对应的语义关系是否满足目标分析文本对应的文本连贯性要求,并根据判断结果来确定目标分析文本对应的连贯性参数,从而可以结合预设的连贯性要求指标来判断目标分析文本的语义关系是否连贯,有利于实现更加宏观的语义连贯性分析。
作为一个可选的实施方式,第一确定单元3031确定目标分析文本对应的文本连贯性要求的具体方式包括:
确定目标分析文本所对应的目标文本架构;
根据目标文本架构,确定目标分析文本对应的文本连贯性要求。
其中,目标文本架构可以为目标分析文本所对应的文本体裁应当遵循的文本论述结构,例如,当目标分析文本所对应的文本体裁为英文论述短文时,一般其包括三个部分:介绍、正文和结论。一般而言,在一篇好的英文论述短文中,介绍中应当主要是对事实的陈述,正文中应当讨论作者在该主题上的立场的几个利弊,从正反面以及借助多个对比例子来佐证作者的观点,而在结论中,我们期望对关键的观点进行总结。
可选的,根据目标文本架构确定目标分析文本对应的文本连贯性要求,可以根据目标文本架构中的不同部分文本的期望语义关系,来确定目标分析文本的不同部分文本的文本连贯性要求。其中,该期望语义关系可以为语句连接关系的期望,也可以是隐性语义关系的期望。
作为一个可选的实施方式,判断单元3032判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求的具体方式,包括:
对于目标分析文本的任一部分文本中的任意两个相邻的文本片段组成的文本片段对,根据该文本片段对中后一文本片段为前一文本片段的下一语义连贯片段的概率,确定该文本片段对的隐性连贯性;
判断目标分析文本中至少一部分文本中的至少一个文本片段对的隐性连贯性是否符合文本连贯性要求。
可选的,可以将该概率对应的NSP预测得分确定为该文本片段对的隐性连贯性。进一步的,可以将目标分析文本中至少一部分文本中的所有文本片段对的隐性连贯性的平均值,确定为目标分析文本中该部分文本对应的隐性连贯性,并将该部分文本对应的隐性连贯性,与该部分文本对应的文本连贯性要求中的隐性连贯性阈值进行对比,在该部分文本对应的隐性连贯性低于对应的隐性连贯性阈值时,判断该部分文本不符合文本连贯性要求。
进一步的,可以在判断到该部分文本不符合文本连贯性要求时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。
可见,通过该可选的实施方式,可以通过判断目标分析文本中至少一部分文本中的至少一个文本片段对的隐性连贯性是否符合文本连贯性要求来分析文本的连贯性,有助于通过隐性语义关系确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
作为一个可选的实施方式,判断单元3032判断目标分析文本中的至少一部分文本中的至少一对相邻的文本片段之间对应的语义关系是否满足文本连贯性要求的具体方式,包括:
对于目标分析文本的任一部分文本,根据该部分文本中的任意一对相邻的文本片段之间对应的语句连接关系,确定该部分文本中的所有语句连接关系;
判断目标分析文本中至少一部分文本中的所有语句连接关系是否符合文本连贯性要求。
可选的,可以统计出该部分文本中的所有语句连接关系的类型和/或数量,并将统计出的信息与该部分文本对应的文本连贯性要求中的语句连接关系的类型要求和/或数量要求进行对比,以判断该部分文本中的所有语句连接关系的类型和/或数量是否满足对应的文本连贯性要求中的语句连接关系的类型要求和/或数量要求。
进一步的,可以在判断到该部分文本的所有语句连接关系不符合文本连贯性要求时,可以在用户终端显示对应的警告提示,或是显示对应的修改建议。可选的,可以根据该部分文本的所有语句连接关系不满足文本连贯性要求的部分,生成对应的修改建议,例如在该部分文本的所有语句连接关系中不存在文本连贯性要求中要求的类型的语句连接关系时,生成修改建议以建议用户在该部分文本中增加该类型的语句连接关系的文本片段,或例如在该部分文本中特定类型的或不特定类型的语句连接关系数量不满足文本连贯性要求中的数量要求时,生成修改建议以建议用户在该部分文本中增加更多特定类型或不特定类型的语句连接关系的文本片段,比如在英文论述短文的文本中发现正文部分的比较关系的文本片段较少时,可以生成修改建议,建议学生在正文部分添加更多的比较论述或举例论述,来佐证自己的观点。
可见,通过该可选的实施方式,可以通过判断判断目标分析文本中至少一部分文本中的所有语句连接关系是否符合文本连贯性要求来分析文本的连贯性,有助于通过语句连接关系确定文本内容的连贯性程度,从而达到精确有效的文本分析效果。
需要说明的是,本发明实施例中所述的文本连贯性分析装置,其为用于对应实施上述实施例一和实施例二中公开的文本连贯性分析方法的各步骤的执行功能模块,因此,本发明实施例中的各模块的具体技术实施细节和可选的其他实施方式,可以参照实施例一和实施例二中公开的技术细节,本发明在此不再赘述。
实施例四
请参阅图5,图5是本发明实施例公开的又一种文本连贯性分析装置。图5所描述的文本连贯性分析装置应用于文本数据分析***/文本数据分析设备/文本数据分析服务器(其中,该文本数据分析服务器包括本地服务器或云服务器)中。如图5所示,该文本连贯性分析装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
其中,处理器402调用存储器401中存储的可执行程序代码,用于执行实施例一或实施例二所描述的文本连贯性分析方法的步骤。
实施例五
本发明实施例公开了一种计算机读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一或实施例二所描述的文本连贯性分析方法的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二所描述的文本连贯性分析方法的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种文本连贯性分析方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种文本连贯性分析方法,其特征在于,所述方法包括:
获取目标分析文本;所述目标分析文本包括有多个文本片段;
确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;
根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。
2.根据权利要求1所述的文本连贯性分析方法,其特征在于,所述根据所述语义关系,确定所述目标分析文本对应的连贯性参数,包括:
确定所述目标分析文本对应的文本连贯性要求;所述文本连贯性要求用于指示所述目标分析文本的至少一部分文本所对应的语义关系参数要求;
判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求;
根据判断结果,确定所述目标分析文本对应的连贯性参数。
3.根据权利要求2所述的文本连贯性分析方法,其特征在于,所述语义关系包括显性语义关系和/或隐性语义关系。
4.根据权利要求1-3中任一项所述的文本连贯性分析方法,其特征在于,所述确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系,包括:
将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系;所述语义分析算法模型包括显性语义分析模型和/或隐性语义分析模型。
5.根据权利要求4所述的文本连贯性分析方法,其特征在于,所述将所述目标分析文本中至少一对相邻的所述文本片段输入至语义分析算法模型中,以输出所述相邻的所述文本片段之间对应的语义关系,包括:
判断所述目标分析文本中至少一对相邻的所述文本片段之间是否存在显性连接词;
当判断结果为是时,将所述相邻的所述文本片段输入至显性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的显性语义关系;
当判断结果为否时,将所述相邻的所述文本片段输入至隐性语义分析模型进行分析,以得到所述相邻的所述文本片段之间对应的隐性语义关系。
6.根据权利要求3所述的文本连贯性分析方法,其特征在于,所述隐性语义关系为所述相邻的所述文本片段中,后一文本片段为前一文本片段的下一语义连贯片段的概率,和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本所对应的隐性连贯性要求;
和/或,所述判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求,包括:
对于所述目标分析文本的任一部分文本中的任意两个相邻的所述文本片段组成的文本片段对,根据该文本片段对中后一文本片段为前一文本片段的下一语义连贯片段的概率,确定该文本片段对的隐性连贯性;
判断所述目标分析文本中至少一部分文本中的至少一个所述文本片段对的隐性连贯性是否符合所述文本连贯性要求。
7.根据权利要求2所述的文本连贯性分析方法,其特征在于,所述语义关系包括多种类型的语句连接关系;和/或,所述文本连贯性要求具体用于指示所述目标分析文本的至少一部分文本应包括的语句连接关系的类型和/或数量;
和/或,所述判断所述目标分析文本中的至少一部分文本中的至少一对相邻的所述文本片段之间对应的语义关系是否满足所述文本连贯性要求,包括:
对于所述目标分析文本的任一部分文本,根据该部分文本中的任意一对相邻的所述文本片段之间对应的语句连接关系,确定该部分文本中的所有语句连接关系;
判断所述目标分析文本中至少一部分文本中的所有语句连接关系是否符合所述文本连贯性要求。
8.一种文本连贯性分析装置,其特征在于,所述装置包括:
文本获取模块,用于获取目标分析文本;所述目标分析文本包括有多个文本片段;
语义确定模块,用于确定所述目标分析文本中至少一对相邻的所述文本片段之间对应的语义关系;
连贯性分析模块,用于根据所述语义关系,确定所述目标分析文本对应的连贯性参数;所述连贯性参数用于指示所述目标分析文本的叙述连贯程度。
9.一种文本连贯性分析装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的文本连贯性分析方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的文本连贯性分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042313.XA CN113743125A (zh) | 2021-09-07 | 2021-09-07 | 文本连贯性分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042313.XA CN113743125A (zh) | 2021-09-07 | 2021-09-07 | 文本连贯性分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743125A true CN113743125A (zh) | 2021-12-03 |
Family
ID=78736367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111042313.XA Pending CN113743125A (zh) | 2021-09-07 | 2021-09-07 | 文本连贯性分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743125A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN108897723A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 场景对话文本识别方法、装置以及终端 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
CN111832308A (zh) * | 2020-07-17 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音识别文本连贯性处理方法和装置 |
-
2021
- 2021-09-07 CN CN202111042313.XA patent/CN113743125A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
CN108897723A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 场景对话文本识别方法、装置以及终端 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
CN111832308A (zh) * | 2020-07-17 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音识别文本连贯性处理方法和装置 |
Non-Patent Citations (3)
Title |
---|
严为绒;徐扬;朱珊珊;洪宇;姚建民;朱巧明;: "篇章关系分析研究综述", 中文信息学报, no. 04, 15 July 2016 (2016-07-15) * |
刘维东: "Web短文本知识关联模型及其语义连贯计算方法", 中国博士学位论文全文数据库 信息科技辑, 15 February 2017 (2017-02-15), pages 103 - 130 * |
姚琴: "语篇连贯:显性连贯与隐性连贯", 江苏大学学报, 30 November 2005 (2005-11-30) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
CN114970491B (zh) * | 2022-08-02 | 2022-10-04 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
WO2023098658A1 (zh) * | 2022-08-02 | 2023-06-08 | 深圳市城市公共安全技术研究院有限公司 | 文本衔接性判断方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Urieli | Robust French syntax analysis: reconciling statistical methods and linguistic knowledge in the Talismane toolkit | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
US10496756B2 (en) | Sentence creation system | |
US20140136188A1 (en) | Natural language processing system and method | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
US10445428B2 (en) | Information object extraction using combination of classifiers | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
Silva et al. | Recognizing and justifying text entailment through distributional navigation on definition graphs | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
Opitz et al. | Dissecting content and context in argumentative relation analysis | |
Danlos et al. | Primary and secondary discourse connectives: definitions and lexicons | |
US11386270B2 (en) | Automatically identifying multi-word expressions | |
Chen et al. | Chinese zero pronoun resolution: An unsupervised approach combining ranking and integer linear programming | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
CN114926039A (zh) | 风险评估方法、风险评估装置、电子设备及存储介质 | |
CN111859988A (zh) | 一种语义相似度评价方法、装置和计算机可读存储介质 | |
García-Méndez et al. | A system for automatic English text expansion | |
CN115238039A (zh) | 文本生成方法、电子设备及计算机可读存储介质 | |
CN113743125A (zh) | 文本连贯性分析方法及装置 | |
Vargas | Narrative information extraction with non-linear natural language processing pipelines | |
de Souza Inácio et al. | Evaluation metrics for video captioning: A survey | |
Žitnik et al. | SkipCor: Skip-mention coreference resolution using linear-chain conditional random fields | |
Rocchietti et al. | FANCY: A Diagnostic Data-Set for NLI Models. | |
Yin et al. | Chinese zero pronoun resolution: A collaborative filtering-based approach | |
CN113901790A (zh) | 文本信息分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |