CN111859894A - 一种情节文本确定方法及装置 - Google Patents

一种情节文本确定方法及装置 Download PDF

Info

Publication number
CN111859894A
CN111859894A CN202010724600.8A CN202010724600A CN111859894A CN 111859894 A CN111859894 A CN 111859894A CN 202010724600 A CN202010724600 A CN 202010724600A CN 111859894 A CN111859894 A CN 111859894A
Authority
CN
China
Prior art keywords
text
aggregation
objects
adjacent
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010724600.8A
Other languages
English (en)
Other versions
CN111859894B (zh
Inventor
郏昕
阳任科
赵冲翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010724600.8A priority Critical patent/CN111859894B/zh
Publication of CN111859894A publication Critical patent/CN111859894A/zh
Application granted granted Critical
Publication of CN111859894B publication Critical patent/CN111859894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种情节文本确定方法及装置,涉及数据处理技术领域,其中,上述方法包括:确定文本中的各个文本单元;提取各个文本单元的内容特征;对上述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定上述文本对应的各个单元簇;将每一单元簇包括的文本单元中的字符分别确定为上述文本中用于描述各个情节的情节文本。应用本发明实施例提供的方案确定文本中的情节文本,可以提高确定情节文本的效率。

Description

一种情节文本确定方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种情节文本确定方法及装置。
背景技术
小说、剧本等文本描述了各种不同的情节。每一情节是由一段连续的字符描述的,因此,可以称这一段连续的字符为情节文本。另外,对于一部小说或者一个剧本而言,情节节奏的快慢、情节安排是否合理直接影响其对用户的吸引力,因此,需要对小说、剧本等文本所描述的情节进行检测。
在对文本所描述的情节进行检测之前,需要确定出文本中各个情节对应的情节文本。现有技术中,确定文本中的情节文本时,一般由工作人员人工识别得到,因此确定情节文本的效率较低。
发明内容
本发明实施例的目的在于提供一种情节文本确定方法及装置,以提高确定文本中的情节文本的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种情节文本确定方法,上述方法包括:
确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
本发明的一个实施例中,所述对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇,包括:
对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,其中,所述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在所述文本中位置相邻;
按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象;
根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征;
在满足预设聚合终止条件的情况下,将各个新的聚合对象分别作为所述文本对应的各个单元簇。
本发明的一个实施例中,上述预设聚合终止条件包括以下情况中的至少一种:
聚合次数达到预设次数;
新的聚合对象与聚合前的聚合对象全部相同;
第一目标聚合对象的个数大于预设对象个数,所述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
本发明的一个实施例中,上述对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,包括:
针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度;
根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
本发明的一个实施例中,上述根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度,包括:
对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值;
按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
Figure BDA0002601207290000031
其中,W为所述整体相似度,W0为所述整体相似度的初始值,a、b、c与d为预设的参数,在计算相邻聚合对象中前端的聚合对象相对于后端的聚合对象的相似度的情况下,所述settingsize为后端的聚合对象中包含的文本单元的数量,在计算相邻聚合对象中后端的聚合对象相对于前端的聚合对象的相似度的情况下,所述settingsize为前端的聚合对象中包含的文本单元的数量。
本发明的一个实施例中,上述按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象,包括:
针对每一第二目标聚合对象,选择与第二目标聚合对象的整体相似度最高的相邻聚合对象,对第二目标聚合对象和所选择的相邻聚合对象进行对象聚合,得到新的聚合对象,其中,所述第二目标聚合对象为:所包含文本单元的数量小于预设数量的聚合对象。
本发明的一个实施例中,上述对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,包括:
确定聚合对象中对应的文本单元不包含目标字符的相邻聚合对象,其中,所述目标字符为:表示一对相邻聚合对象不能进行对象聚合的字符;
对所确定出的每一对相邻聚合对象的对象特征进行特征匹配。
本发明的一个实施例中,在上述内容特征中包括针对字符的特征,且在文本单元描述的文本内容中包含文本角色的情况下,所述提取各个文本单元的内容特征,包括:
识别各个文本单元中文本角色的角色名称;
针对每一文本单元,提取针对剩余字符的特征,所述剩余字符为:文本单元中,除角色名称之外的字符。
第二方面,本发明实施例提供了一种情节文本确定装置,上述装置包括:
单元确定模块,用于确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
特征提取模块,用于提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
单元簇确定模块,用于对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的相似文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
情节文本确定模块,用于将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
本发明的一个实施例中,上述单元簇确定模块,包括:
特征匹配子模块,用于对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,其中,所述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在所述文本中位置相邻;
对象聚合子模块,用于按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象;
特征获得子模块,用于根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征;
单元簇确定子模块,用于在满足预设聚合终止条件的情况下,将各个聚合对象分别作为所述文本对应的各个单元簇。
本发明的一个实施例中,上述预设聚合终止条件包括以下情况中的至少一种:
聚合次数达到预设次数;
新的聚合对象与聚合前的聚合对象全部相同;
第一目标聚合对象的个数大于预设对象个数,所述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
本发明的一个实施例中,上述特征匹配子模块,包括:
相似度计算单元,用于针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度;
相似度获得单元,用于根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
本发明的一个实施例中,上述相似度获得单元,具体用于:
对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值;
按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
Figure BDA0002601207290000051
其中,W为所述整体相似度,W0为所述整体相似度的初始值,a、b、c与d为预设的参数,在计算相邻聚合对象中前端的聚合对象相对于后端的聚合对象的相似度的情况下,所述settingsize为后端的聚合对象中包含的文本单元的数量,在计算相邻聚合对象中后端的聚合对象相对于前端的聚合对象的相似度的情况下,所述settingsize为前端的聚合对象中包含的文本单元的数量。
本发明的一个实施例中,上述对象聚合子模块,具体用于:
针对每一第二目标聚合对象,选择与第二目标聚合对象的整体相似度最高的相邻聚合对象,对第二目标聚合对象和所选择的相邻聚合对象进行对象聚合,得到新的聚合对象,其中,所述第二目标聚合对象为:所包含文本单元的数量小于预设数量的聚合对象。
本发明的一个实施例中,上述特征匹配子模块,具体用于:
确定聚合对象中对应的文本单元不包含目标字符的相邻聚合对象,其中,所述目标字符为:表示一对相邻聚合对象不能进行对象聚合的字符;
对所确定出的每一对相邻聚合对象的对象特征进行特征匹配。
本发明的一个实施例中,在所述内容特征中包括针对字符的特征,且在文本单元描述的文本内容中包含文本角色的情况下,所述特征提取模块,具体用于:
识别各个文本单元中文本角色的角色名称;
针对每一文本单元,提取针对剩余字符的特征,所述剩余字符为:文本单元中,除角色名称之外的字符。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的方法步骤。
本发明实施例有益效果:
应用本发明实施例提供的方案确定情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种情节文本确定方法的流程示意图;
图2为本发明实施例提供的第二种情节文本确定方法的流程示意图;
图3为本发明实施例提供的第三种情节文本确定方法的流程示意图;
图4为本发明实施例提供的第四种情节文本确定方法的流程示意图;
图5为本发明实施例提供的第五种情节文本确定方法的流程示意图;
图6为本发明实施例提供的一种剧本情节文本确定方法的流程示意图;
图7为本发明实施例提供的第一种情节文本确定装置的结构示意图;
图8为本发明实施例提供的第二种情节文本确定装置的结构示意图;
图9为本发明实施例提供的第三种情节文本确定装置的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中确定情节文本时,存在效率较低的技术问题,为解决这一问题,本发明实施例提供了一种情节文本确定方法及装置。
本发明的一个实施例中,提供了一种情节文本确定方法,该方法包括:
确定文本中的各个文本单元,其中,各个文本单元中包含上述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
提取各个文本单元的内容特征,上述内容特征为:反映文本单元所描述的内容的特征;
对上述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定上述文本对应的各个单元簇;
将每一单元簇包括的文本单元中的字符分别确定为上述文本中用于描述各个情节的情节文本。
由以上可见,本发明实施例在确定情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
下面通过具体的实施例对本发明实施例提供的情节文本确定方法及装置进行说明。
参见图1,本发明实施例提供了第一种情节文本确定方法的流程示意图,具体的,上述方法包括以下步骤S101-S104。
S101:确定文本中的各个文本单元。
其中,各个文本单元中包含上述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集。
具体的,上述文本单元可以是自然段、章节、场次等。
本发明的一个实施例中,上述文本单元可以与文本的类型相关,随着文本的类型不同而不同。例如,文本的类型可以是书信类型、小说类型、剧本类型等。
当文本的类型为书信类型时,上述文本单元可以为文本中的自然段;当上述文本的类型为小说类型时,上述文本单元可以为文本中的章节;当上述文本的类型为剧本类型时,上述文本单元可以为文本中的场次。
S102:提取各个文本单元的内容特征。
其中,上述内容特征为:反映文本单元所描述的内容的特征。
文本单元中包括大量的字符,这些字符组合在一起所表达的内容可以称为文本内容,文本内容可以反映不同的信息,所反映的信息可以用于区分不同的文本单元,作为文本单元的内容特征。
本发明的一个实施例中,可以对各个文本单元中的字符进行关键字提取、语义分析等处理,从而根据处理结果提取各个文本单元的文本内容的特征,称为内容特征。
具体的,上述内容特征可以包括以下特征中的至少一种:针对时间的特征、针对地点的特征、针对文本角色的特征、针对天气的特征、针对物品的特征、针对字符的特征等。
上述内容特征可以通过向量或数据集合的形式表示。
其中,上述针对时间的特征可以为:针对时间间隔的特征,如,三年前、三年后等,针对具体时间的特征,如,白天、夜晚、上午、下午三点等。
上述针对地点的特征可以为:针对具体地点的特征,如客厅、卧室、操场、森林等。
上述文本角色可以是文本中的人、动物等。
上述针对文本角色的特征可以为:文本单元中包含的文本角色、文本角色的戏份等。具体的,在上述文本为剧本的情况下,可以根据上述文本角色的出场次数确定上述文本角色的戏份,其中,上述出场次数可以包括文本角色引出对话的次数、文本角色做出动作的次数。还可以根据各个文本角色的出场次数区分上述文本角色的戏份,例如,将出场次数最高的文本角色确定为文本中的主角,将其他出场次数大于预设出场次数的文本角色确定为文本中的配角,将剩余的文本角色确定为文本中的其他角色。
上述针对天气的特征可以为:针对具体天气的特征,如雾天、雨天、雪天等。
上述针对物品的特征可以为:针对具体物品的特征,如雨伞、水杯、自行车等。
上述针对字符的特征可以为:文本单元中各个字符的出现次数与重要程度。
其中,上述字符的出现次数可以为各个字符组成的各个词汇在文本单元中的出现次数,如5次、10次等。
上述字符的重要程度可以为:文本中各个字符组成的各个词汇在文本单元中的重要程度。
具体的,可以通过tfidf模型计算文本中各个字符组成的各个字符串的重要程度。
其中,上述tfidf模型的计算公式如下:
Figure BDA0002601207290000101
其中,上述tfidfi,j为针对第j个文本单元中的第i个字符串的特征,ni,j为第j个文本单元中的第i个字符串的出现次数,nk,j为第j个文本单元中的第k个字符串的出现次数,k的取值为0-第j个文本单元中字符串的总数,因此∑knk,j为第j个文本单元中所有字符串的总的出现次数,D为文本单元,|D|为文本单元的个数,ti∈dj表示第j个文本单元中包含第i个字符串,|{j:ti∈dj}|表示包含第i个字符串的文本单元的个数。
具体的,针对第七字符串,包含该字符串的文本单元越少,说明该字符串在各个文本单元中的存在越稀有,通过稀有的字符串可以区分各个文本单元,因此稀有的字符串的重要程度往往较高。相反的,包含该字符串的文本单元越多,说明该字符串在各个文本单元中的存在越普遍,通过普遍存在的字符串难以区分各个文本单元,因此普遍存在的字符串的重要程度往往较低,如“今天”、“吃饭”等字符串,往往在多个文本单元中均存在,因此重要程度较低。
根据公式可知,包含第i个字符串的文本单元越少,
Figure BDA0002601207290000102
的取值越大,因此
Figure BDA0002601207290000103
可以用于计算字符串的重要程度,同时
Figure BDA0002601207290000104
表示第i个字符串在第j个文本单元中的出现次数占字符串在文本中总的出现次数的比例,可以用于体现第i个字符串在第j个文本单元中的出现次数,因此计算得到的tfidfi,j可以体现字符的出现次数与重要程度两种信息,可以用于表示针对字符的特征。
针对字符的特征的计算方式可以参见后续实施例步骤A-步骤B,这里暂不详述。
S103:对上述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定上述文本对应的各个单元簇。
其中,每一单元簇中包括至少一个文本单元。
本发明的一个实施例中,可以通过计算所提取的文本单元的内容特征的相似度实现内容特征的特征匹配,然后按照计算得到的相似度确定文本中依次相邻且相似的文本单元。例如,将相似度高于预设相似度的文本单元确定为相似文本单元。
具体的,可以对每两个相邻的文本单元的内容特征进行特征匹配,获得每两个相邻的文本单元之间的匹配结果,再将匹配结果表征互相之间内容特征相似的相邻的文本单元确定为同一单元簇中的文本单元。
例如,上述文本中包含依次相邻的文本单元1、文本单元2、文本单元3与文本单元4,对文本单元1与文本单元2、文本单元2与文本单元3、文本单元3与文本单元4分别进行特征匹配,若文本单元1与文本单元2的内容特征相似,说明文本单元1和文本单元2为相似文本单元,文本单元2与文本单元3的内容特征相似,说明文本单元2和文本单元3为相似文本单元,文本单元3与文本单元4的内容特征不相似,说明文本单元3和文本单元4为不相似文本单元,则将文本单元1、文本单元2与文本单元3确定为同一单元簇,文本单元4为另一单元簇。
另外,还可以通过步骤S103A-步骤S103D确定上述文本对应的各个单元簇,在此暂不详述。
S104:将每一单元簇包括的文本单元中的字符分别确定为上述文本中用于描述各个情节的情节文本。
由以上可见,本发明实施例在确定情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
本发明的一个实施例中,在文本单元描述的文本内容中包含文本角色的情况下,可以通过以下步骤A-步骤B提取各个文本单元的针对字符的特征。
步骤A:识别各个文本单元中文本角色的角色名称。
具体的,可以参照已知语料库中被标记为角色名称的字符串识别文本单元中文本角色的角色名称。例如,上述已知语料库可以为百科语料库、新闻语料库等。
步骤B:针对每一文本单元,提取针对剩余字符的特征,上述剩余字符为:文本单元中,除角色名称之外的字符。
由于在上述文本为小说、剧本等文本的情况下,上述文本角色的角色名称为不常见名称的可能性较大,因此若直接对各个文本单元进行分词处理,获得的文本单元中的各个字符串会受到不常见名称的影响,使得分词处理获得的字符串中会包含不常见名称中的部分字符,因此去除字符中的角色名称之后再提取针对字符的特征,能够提高获得的针对字符的特征的准确度。
本发明的一个实施例中,在文本单元描述的文本内容中包含文本角色的情况下,可以通过步骤B1-步骤B8提取针对剩余字符的特征。
步骤B1:提取角色名称之外的字符中的能够组成词汇的第一字符串。
具体的,可以对文本单元中除角色名称之外的字符进行分词处理,从而得到能够组成词汇的各个字符串,称为第一字符串。
例如,可以使用机械分词方法提取角色名称之外的字符中的第一字符串。
步骤B2:确定第一字符串中出现次数大于最低预设出现次数,且小于最高预设出现次数的第二字符串。
其中,上述出现次数为字符串在上述文本单元中出现的次数。例如,50次、60次等。上述最低预设出现次数可以为10次、15次等,上述最高预设出现次数可以为60次、70次等。
由于出现次数过高的字符串可能为“是的”、“好的”等常见词汇,常见词汇中包含的信息量较少,因此在文本中的重要程度较低,出现次数过低的字符串在文本中包含的信息量同样较少,因此在文本中的重要程度较低,因此确定出的字符串为出现次数大于最低预设出现次数,且小于最高预设出现次数的字符串,可以去除出现次数过高的字符串与出现次数过低的字符串,只提取针对重要程度较高的字符的特征,可以提升确定针对字符的特征的效率。
步骤B3:提取第二字符串中词性为名词与动词的字符串,作为第三字符串。
由于词性为名词与动词的字符串在文本的语句中作为主语、谓语与宾语的可能性较高,包含的信息量较高,因此提取词性为名词与动词的字符串,只提取针对文本单元中词性为名词与动词的字符串的特征,可以提高提取针对字符的特征的效率。
步骤B4:去除第三字符串中属于停用词表中的字符串,获得第四字符串。
具体的,上述停用词表可以为预设的重要程度较低的字符串组成的字符串表。
例如,上述停用词可以包括“好的”,“是的”等重要程度较低的字符串。
步骤B5:去除第四字符串中的标点符号,获得第五字符串。
由于标点符号在文本中不包含具体的信息,因此在文本中的重要程度较低,只提取针对文本单元中标点符号之外的字符的特征,可以提高提取针对字符的特征的的效率。
步骤B6:去除第五字符串中属于专用词表中的字符串,获得第六字符串。
其中,上述专用词表可以是指与文本描述的具体情节无关的专用术语字符串组成的字符串表。
例如,在上述文本为剧本的情况下,上述专用词表中包含的字符串可以为“画外音”、“闪回”等专用术语字符串,在上述文本为小说的情况下,上述专用词表中包含的词汇可以为“章节一”、“章节二”等专用术语字符串。
步骤B7:根据角色名称,在第六字符串中确定不属于角色名称的字符串,作为第七字符串。由于在提取第一字符串的过程中可能会产生分词错误,使得第一字符串中包含角色名称中的字符组成的字符串,因此可以根据角色名称在上述第六字符串中确定上述第七字符串。
例如,角色名称中包含“王江江”,则去除第六字符串中的“王江江”、“王江”、“江江”等字符串,确定第七字符串。
步骤B8:提取针对各个第七字符串的特征。
具体的,可以通过tfidf模型提取针对第七字符串的特征。
参见图2,提供了第二种情节文本确定方法的流程示意图,与前述图1所示的实施例相比,前述步骤S103可以通过以下步骤S103A-S103D实现。
由于根据文本单元的内容特征,经过一轮特征匹配确定得到的单元簇可能不能将所有内容特征相似的文本单元聚合到同一个单元簇中,因此,可以进行多轮特征匹配,也就是,进行多轮文本单元聚合。由于进行多轮文本单元聚合过程中涉及的概念较多,为便于区分各种信息以及便于描述,在下述实施例中引入了聚合对象的概念,在确定得到各个单元簇之前将文本单元的各个集合称为各个聚合对象,经过多次对象聚合,在每次对象聚合之后,上述各个聚合对象中包含的文本单元可能会发生变化,直至满足预设聚合终止条件,将各个聚合对象确定为各个单元簇。
S103A:对聚合对象中各对相邻聚合对象的对象特征进行特征匹配。
其中,上述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在上述文本中位置相邻。
具体的,由于每一情节是由文本中一段连续的字符描述的,因此在进行特征匹配的时候也是对两个相邻聚合对象进行特征匹配,从而使得在两个相邻聚合对象的特征互相匹配的情况下能够将两个相邻聚合对象聚合成新的聚合对象,由于相邻聚合对象所包含的文本单元在文本中位置是连续的,因此生成的新的聚合对象所包含的文本单元在文本中位置也是连续的,因此将各个聚合对象确定为各个单元簇的情况下,各个单元簇中包含的文本单元在文本中的位置也是连续的,所以单元簇中包含的字符在文本中是连续的,将单元簇中包含的字符确定为文本中用于描述一个情节的情节文本,可以保证用于描述每一情节的字符在文本中是连续的。
相反的,若对不相邻的两个聚合对象进行特征匹配,若两个聚合对象互相匹配,将两者聚合为新的聚合对象,那么生成的新的聚合对象中包含的文本单元不连续,若将新的聚合对象确定为单元簇,则所确定的单元簇中包含的字符也不连续,若将单元簇中包含的字符确定为文本中用于描述一个情节的情节文本,则该情节就不是由文本中一段连续的字符描述的,因此不需要对不相邻的两个聚合对象进行特征匹配,只对各对相邻聚合对象进行特征匹配,能够减少对聚合对象进行特征匹配的过程中的计算量。
由于文本中可能会包含多个文本单元,所以,也可以认为存在多个本步骤中提及的聚合对象,初始状态下,每一聚合对象中包含一个文本单元,也就是,每一文本单元分别为各个聚合对象初始包含的文本单元。
例如,文本单元1和文本单元2相邻,聚合对象1初始包含文本单元1,聚合对象1的对象特征的初始值为文本单元1的内容特征,聚合对象2初始包含文本单元2,聚合对象2的对象特征的初始值为文本单元2的内容特征,由于文本单元1与文本单元2相邻,因此聚合对象1与聚合对象2为相邻聚合对象。
具体的,可以通过以下步骤S103A1-S103A2对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,在此暂不详述。
S103B:按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象。
具体的,若相邻聚合对象的匹配结果表征相邻聚合对象的对象特征相似,则上述相邻聚合对象之间互相匹配,也就是,相邻聚合对象为相似对象,因此可以对上述相邻聚合对象进行对象聚合,将上述相邻聚合对象确定为同一情节文本中的聚合对象。
若相邻聚合对象的匹配结果表征相邻聚合对象的对象特征不相似,则上述相邻聚合对象之间不匹配,也就是,相邻聚合对象为不相似对象,因此不需要对上述相邻聚合对象进行对象聚合。
本发明的一个实施例中,可以通过计算相邻聚合对象的对象特征的相似度进行特征匹配,可以认为相似度大于预设相似度的相邻聚合对象为相互匹配的相邻聚合对象。
例如,上述预设相似度可以为70%、80%等。
另外,除位于文本开头与结尾处的聚合对象之外,位于文本中部的聚合对象具有两个相邻聚合对象,分别位于上述聚合对象的前端与后端,在上述聚合对象与两个相邻聚合对象的相似度均大于预设相似度的情况下,可以将上述聚合对象与相似度最高的相邻聚合对象进行对象聚合,确定为新的聚合对象。
例如,上述预设相似度为70%的情况下,聚合对象1与聚合对象2的相似度为80%,聚合对象2与聚合对象3的相似度为75%,则将聚合对象1与聚合对象2进行对象聚合,确定为新的聚合对象。
S103C:根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征。
具体的,可以将被聚合对象的对象特征直接合并为新的聚合对象的对象特征。
例如,被聚合对象1的针对时间的特征为白天,针对地点的特征为操场与教室,针对文本角色的特征为张三与李四,被聚合对象2的针对时间的特征为夜晚,针对地点的特征为教室与马路,针对文本角色的特征为李四与王五。
将被聚合对象1与被聚合对象2聚合为新的聚合对象时,新的聚合对象的针对事件的特征为白天与夜晚,针对地点的特征为操场、教室、教室与马路,针对文本角色的特征为张三、李四、李四与王五。
另外,在上述对象特征中包含针对字符的特征的情况下,可以通过上述步骤A-步骤B获得新的聚合对象的针对字符的特征。
再者,还可以对被聚合对象的对象特征进行去重之后合并为新的聚合对象的对象特征。
例如,被聚合对象1的针对时间的特征为白天与夜晚,被聚合对象2的针对时间的特征为夜晚,则将被聚合对象1与被聚合对象2聚合为新的聚合对象之后,新的聚合对象针对时间的特征为白天与夜晚。
S103D:在满足预设聚合终止条件的情况下,将各个聚合对象分别作为上述文本对应的各个单元簇。
具体的,在满足预设聚合终止条件的情况下,结束上述对象聚合的过程,将各个新的聚合对象分别作为上述文本对象的各个单元簇。
相反的,在不满足预设聚合终止条件的情况下,可以认为上述对象聚合的过程还未结束,此时不能将各个聚合对象作为上述文本对应的单元簇,可以返回上述步骤S103A,继续执行对象聚合的过程,直至满足预设聚合终止条件。
本发明的一个实施例中,上述预设聚合终止条件可以包括以下情况中的至少一种:
(一)聚合次数达到预设次数。
具体的,上述预设次数可以为20次、25次等。
(二)新的聚合对象与聚合前的聚合对象全部相同。
例如,聚合前的聚合对象1中包含文本单元1、文本单元2,聚合对象2中包含文本单元3、文本单元4。
新的聚合对象1中包含文本单元1、文本单元2,新的聚合对象2中包含文本单元3、文本单元4。与聚合前的聚合对象全部相等,因此满足上述预设聚合终止条件。
(三)第一目标聚合对象的个数大于预设对象个数。
上述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
具体的,上述预设数量可以通过以下公式计算获得:
Figure BDA0002601207290000171
其中,上述thre_length为上述预设数量,length_script为上述文本中包含的字符的数量,n_thre为期望得到的情节文本数量。
由以上可见,对各对相邻聚合对象进行特征匹配,按照匹配结果对各对相邻聚合对象进行对象聚合,并更新新的聚合对象的对象特征,并重新进行特征匹配,直至满足预设聚合终止条件,由于经过多次特征匹配与对象聚合,因此确定得到的文本对应的各个单元簇准确度更高。
参见图3,提供了第三种情节文本确定方法的流程示意图,与前述图2所示的实施例相比,前述步骤S103A可以通过以下步骤S103A1-S103A2实现。
S103A1:针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度。
由于聚合对象可以具有多种不同类型的对象特征,而每一种类型的对象特征反映的是聚合对象一部分的局部信息,因此针对每一类型的对象特征,可以计算得到各对相邻聚合对象的局部相似度。
具体的,对于针对时间的特征与针对地点的特征,可以通过以下公式计算局部相似度。
Figure BDA0002601207290000181
其中,在itemsim为针对时间的特征的情况下,上述x与y分别为相邻聚合对象的针对时间的特征,上述counter()用于计算聚合对象的针对时间的特征中不同元素的数量,例如,针对时间的特征x中包括2个白天、1个夜晚,counter(x)&counter(y)为特征x与特征y中不同元素的数量的交集,例如,针对时间的特征x中包括2个白天、1个夜晚,针对时间的特征y包括1个白天、2个夜晚,则counter(x)&counter(y)为1个白天、1个夜晚,len()用于计算特征中包含的元素的个数,mean(len(x),len(y))用于计算len(x)与len(y)的平均值。
其中,在itemsim为针对地点的特征的情况下,上述x与y分别为相邻聚合对象的针对地点的特征,上述counter()用于计算聚合对象的针对地点的特征中不同元素的数量,例如,针对地点的特征x中包括2个操场、1个教室,counter(x)&counter(y)为特征x与特征y中不同元素的数量的交集,例如,针对地点的特征x中包括2个操场、1个教室,针对地点的特征y包括1个操场、2个教室,则counter(x)&counter(y)为1个操场、1个教室,len()用于计算特征中包含的元素的个数。
具体的,对于针对字符的特征,可以通过余弦相似度计算方式计算上述局部相似度。在文本单元描述的文本内容中包含文本角色的情况下,也可以通过余弦相似度计算方式计算针对文本角色的特征的局部相似度。
S103A2:根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
具体的,由于各个局部相似度分别反映各对相邻聚合对象在各个种类的对象特征上的相似度,因此将各个相似度进行统计计算可以获得各对相邻聚合对象的针对所有种类的对象特征的整体相似度。
其中,可以对各个局部相似度进行加权计算或计算平均值等方式获得上述整体相似度。
另外,在聚合对象中包含的文本单元较多的情况下,聚合对象的对象特征中包含的数据较多,在聚合对象中包含的文本单元较少的情况下,聚合对象的对象特征中包含的数据较少,因此上述包含的文本单元较多的聚合对象与其他包含的文本单元较少的聚合对象的相似度往往较低,因此可以通过以下步骤C-步骤D获得上述整体相似度,以使得包含的文本单元较多的聚合对象与包含的文本单元较少的聚合对象更易于进行对象聚合。
步骤C:对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值。
具体的,可以对各个局部相似度进行加权计算或计算平均值,得到上述整体相似度的初始值。
步骤D:按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
Figure BDA0002601207290000191
其中,W为上述整体相似度,W0为上述整体相似度的初始值,a、b、c与d为预设的参数,在计算相邻聚合对象中前端的聚合对象相对于后端的聚合对象的相似度的情况下,上述settingsize为后端的聚合对象中包含的文本单元的数量,在计算相邻聚合对象中后端的聚合对象相对于前端的聚合对象的相似度的情况下,上述settingsize为前端的聚合对象中包含的文本单元的数量。
例如,上述a可以为8,b可以为7,c可以为1,d可以为1.5。
由于聚合对象中包含的文本单元越多,
Figure BDA0002601207290000201
计算得到的值越大,因此计算得到的整体相似度越大,从而在聚合对象中包含的文本单元较多的情况下,计算得到较高的整体相似度,使得包含的文本单元较少的聚合对象与包含的文本单元较多的聚合对象之间更易于进行对象聚合。
由以上可见,由于同一情节对应的情节文本中包含的聚合对象中的字符共同描述同一个情节,因此同一情节文本中包含的聚合对象的对象特征之间的相似度较高,可以通过计算相邻聚合对象的对象特征的相似度的方式进行特征匹配。
参见图4,提供了第四种情节文本确定方法的流程示意图,与前述图2所示的实施例相比,前述步骤S103B可以通过以下步骤S103B1实现。
S103B1:针对每一第二目标聚合对象,选择与第二目标聚合对象的整体相似度最高的相邻聚合对象,对第二目标聚合对象和所选择的相邻聚合对象进行对象聚合,得到新的聚合对象。
其中,上述第二目标聚合对象为:所包含文本单元的数量小于预设数量的聚合对象。
由以上可见,由于文本中的情节文本往往需要达到一定的长度,其中的字符才能清楚的描述对应的情节,因此较短的聚合对象与实际文本的情况不符。因此若确定得到的聚合对象长度较短,可以与相邻的聚合对象聚合为较长的新的聚合对象,从而与实际文本的情况相符合。
参见图5,提供了第五种情节文本确定方法的流程示意图,与前述图2所示的实施例相比,前述步骤S103A可以通过以下步骤S103A3-S103A4实现。
S103A3:确定聚合对象中对应的文本单元不包含目标字符的相邻聚合对象。
由于文本单元中一些字符能够表明其与相邻的文本单元在文本内容上的关系,例如,一个文本单元中包含字符“三年后”,则说明该文本单元与在其之前相邻的文本单元所描述的文本内容在时间上是不一致的,可以认为该文本单元与在其之前相邻的文本单元不属于同一情节,这种情况下,对文本单元进行特征匹配时,无需再对该文本单元和与在其之前相邻的文本单元进行特征匹配,即可确定出这两个文本单元不属于同一情节。
基于上述思想,在对聚合对象进行特征匹配时,也可以借助上述能够表明与相邻文本单元之间关系的字符进行聚合对象筛选,从而加快聚合对象间的特征匹配的效率。
其中,上述目标字符为:表示一对相邻聚合对象不能进行对象聚合的字符。
具体的,上述目标字符可以包括前向目标字符与后向目标字符。
其中,前向目标字符为:表示包含前向目标字符的聚合对象和与其前端相邻的聚合对象不属于同一情节文本。
例如,若聚合对象中包含“三年后”等字符,则表示该聚合对象中的字符和与其前端相邻的聚合对象的字符描述的情节的时间相差较大,因此该聚合对象和与其前端相邻的聚合对象不属于同一情节文本。
其中,后向目标字符为:表示包含后向目标字符的聚合对象和与其后端相邻的聚合对象不属于同一情节文本。
例如,若聚合对象中包含“张三踏上了旅程”等字符,则表示该聚合对象中的字符和与其后端相邻的聚合对象的字符描述的情节的地点相差较大,因此该聚合对象和与其后端相邻的聚合对象不属于同一情节文本。
S103A4:对所确定出的每一对相邻聚合对象的对象特征进行特征匹配。
由以上可见,若聚合对象中对应的文本单元包含目标字符,则说明其与相邻聚合对象属于不同的情节文本,因此只需要对不包含目标字符的相邻聚合对象进行特征匹配,从而减少了进行特征匹配的聚合对象的数量,加快了确定情节文本的效率。
下面再结合图6通过具体实例对本发明实施例提供的情节文本确定方法进行说明。
参见图6,提供了一种剧本情节文本确定方法的流程示意图。
其中,上述文本为剧本,且剧本的各个场次描述的文本内容中均包含文本角色的情况下,上述各个文本单元为各个场次,剧本中包含依次相邻的场次1-场次n,共n个文本单元,将上述场次1-场次n分别作为聚合对象1-聚合对象n,也就是,聚合对象1-n的初始值分别为场次1-场次n。
分别识别各个场次的时间信息,获得针对时间的特征,如场次1的针对时间的特征为白天,场次2的针对时间的特征为夜晚等;
分别识别各个场次的地点信息,获得针对地点的特征,如场次1的针对地点的特征为操场,场次2的针对地点的特征为教室等;
分别识别各个场次的文本角色信息,获得针对文本角色的特征,其中针对文本角色的特征包括主角、配角与其他角色的特征,如场次1的针对文本角色的特征为:张三为主角,李四为配角,场次2的针对文本角色的特征为李四为主角,张三为配角等;
通过tfidf模型获得各个场次中针对各个字符的特征,如在场次1中字符串“奔跑”的重要程度为0.7,出现次数为5次;“步行”的重要程度为0.4,出现次数为3次;在场次2中字符串“奔跑”的重要程度为0.5,出现次数为7次;“步行”的重要程度为0.6,出现次数为6次等。
将场次1-场次n的内容特征分别作为聚合对象1-聚合对象n的对象特征的初始值,在获得聚合对象的对象特征之后,根据对象特征的特征匹配结果对聚合对象1-聚合对象n中对象特征相似的相邻聚合对象进行对象聚合,确定为新的聚合对象,并根据被聚合对象的对象特征确定新的聚合对象的对象特征。
例如,若相邻聚合对象中聚合对象1与聚合对象2的对象特征互相匹配,则将聚合对象1与聚合对象2聚合为新的聚合对象,可以依然将该新的聚合对象称为聚合对象1,这时的聚合对象1包括场次1和场次2,并根据原本的聚合对象1的对象特征与原本的聚合对象2的对象特征确定新的聚合对象1的对象特征。
若相邻聚合对象中聚合对象4与聚合对象5的对象特征互相匹配,则将聚合对象4与聚合对象5聚合为新的聚合对象,可以依然将该新的聚合对象称为聚合对象4,这是的聚合对象4包括场次4和场次5,并根据原本的聚合对象4的对象特征与原本的聚合对象5的对象特征确定新的聚合对象4的对象特征。
这时聚合对象包括:聚合对象1、聚合对象3、聚合对象4、聚合对象6……聚合对象n。
若此时不满足预设聚合终止条件,需要再次对聚合对象进行对象聚合。也就是,对上述聚合对象1、聚合对象3、聚合对象4、聚合对象6……聚合对象n进行对象聚合,直至聚合后的聚合对象满足聚合终止条件。其中,对其他聚合对象进行对象聚合的过程与上述对聚合对象1-聚合对象n进行对象聚合的过程相类似,这里不再展开描述。
若此时满足预设聚合终止条件,则将聚合对象1、聚合对象3、聚合对象4、聚合对象6……聚合对象n分别确定为各个单元簇,再将各个单元簇包括的文本单元中的字符确定为文本所描述的各个情节的情节文本。
例如,参见图6,最终场次1与场次2被确定为情节文本1,场次n-1与场次n被确定为情节文本m。
与上述情节文本确定方法相对应,本发明实施例还提供了一种情节文本确定装置。
参见图7,本发明实施例提供了第一种情节文本确定装置的结构示意图,具体的,上述装置包括:
单元确定模块701,用于确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
特征提取模块702,用于提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
单元簇确定模块703,用于对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
情节文本确定模块704,用于将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
由以上可见,本发明实施例在确定情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
参见图8,提供了第二种情节文本确定装置的结构示意图,上述单元簇确定模块703,包括:
特征匹配子模块703A,用于对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,其中,所述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在所述文本中位置相邻;
对象聚合子模块703B,用于按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象;
特征获得子模块703C,用于根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征;
单元簇确定子模块703D,用于在满足预设聚合终止条件的情况下,将各个聚合对象分别作为所述文本对应的各个单元簇。
本发明的一个实施例中,上述预设聚合终止条件包括以下情况中的至少一种:
聚合次数达到预设次数;
新的聚合对象与聚合前的聚合对象全部相同;
第一目标聚合对象的个数大于预设对象个数,所述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
由以上可见,对各对相邻聚合对象进行特征匹配,按照匹配结果对各对相邻聚合对象进行对象聚合,并更新新的聚合对象的对象特征,并重新进行特征匹配,直至满足预设聚合终止条件,由于经过多次特征匹配与对象聚合,因此确定得到的文本对应的各个单元簇准确度更高。
参见图9,提供了第三种情节文本确定装置的结构示意图,上述特征匹配子模块703A,包括:
相似度计算单元703A1,用于针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度;
相似度获得单元703A2,用于根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
本发明的一个实施例中,上述相似度获得单元703A2,具体用于:
对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值;
按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
Figure BDA0002601207290000251
其中,W为所述整体相似度,W0为所述整体相似度的初始值,a、b、c与d为预设的参数,在计算相邻聚合对象中前端的聚合对象相对于后端的聚合对象的相似度的情况下,所述settingsize为后端的聚合对象中包含的文本单元的数量,在计算相邻聚合对象中后端的聚合对象相对于前端的聚合对象的相似度的情况下,所述settingsize为前端的聚合对象中包含的文本单元的数量。
由以上可见,由于同一情节对应的情节文本中包含的聚合对象中的字符共同描述同一个情节,因此同一情节文本中包含的聚合对象的对象特征之间的相似度较高,可以通过计算相邻聚合对象的对象特征的相似度的方式进行特征匹配。
本发明的一个实施例中,上述对象聚合子模块703B,具体用于:
针对每一第二目标聚合对象,选择与第二目标聚合对象的整体相似度最高的相邻聚合对象,对第二目标聚合对象和所选择的相邻聚合对象进行对象聚合,得到新的聚合对象,其中,所述第二目标聚合对象为:所包含文本单元的数量小于预设数量的聚合对象。
由以上可见,由于文本中的情节文本往往需要达到一定的长度,其中的字符才能清楚的描述对应的情节,因此较短的聚合对象与实际文本的情况不符。因此若确定得到的聚合对象长度较短,可以与相邻的聚合对象聚合为较长的新的聚合对象,从而与实际文本的情况相符合。
本发明的一个实施例中,上述特征匹配子模块703A,具体用于:
确定聚合对象中对应的文本单元不包含目标字符的相邻聚合对象,其中,所述目标字符为:表示一对相邻聚合对象不能进行对象聚合的字符;
对所确定出的每一对相邻聚合对象的对象特征进行特征匹配。
由以上可见,若聚合对象中对应的文本单元包含目标字符,则说明其与相邻聚合对象属于不同的情节文本,因此只需要对不包含目标字符的相邻聚合对象进行特征匹配,从而减少了进行特征匹配的聚合对象的数量,加快了确定情节文本的效率。
本发明的一个实施例中,所述内容特征包括以下特征中的至少一种:针对时间的特征、针对地点的特征、针对文本角色的特征、针对字符的特征。
本发明的一个实施例中,在所述内容特征中包括针对字符的特征,且在文本单元描述的文本内容中包含文本角色的情况下,上述特征提取模块702,具体用于:
识别各个文本单元中文本角色的角色名称;
针对每一文本单元,提取针对剩余字符的特征,所述剩余字符为:文本单元中,除角色名称之外的字符。
由以上可见,由于在上述文本为小说、剧本等文本的情况下,上述文本角色的角色名称为不常见名称的可能性较大,因此若直接对各个文本单元进行分词处理,获得的文本单元中的各个字符串会受到不常见名称的影响,使得分词处理获得的字符串中会包含不常见名称中的部分字符,因此去除字符中的角色名称之后再提取针对字符的特征,能够提高获得的针对字符的特征的准确度。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现任一情节文本确定方法实施例所述的方法步骤。
应用本发明实施例提供的电子设备确定文本中的情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一情节文本确定方法实施例所述的方法步骤。
执行应用本实施例提供的计算机可读存储介质中存储的计算机程序确定文本中的情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一情节文本确定方法实施例所述的方法步骤。
执行本实施例提供的计算机程序产品确定文本中的情节文本时,是根据文本单元的内容特征进行特征匹配的,由于同一情节文本中的文本单元相似,也就是,文本单元之间的匹配度较高,不同情节文本的文本单元不相似,也就是,文本单元之间的匹配度较低,因此,将相邻且相似的文本单元确定为同一个单元簇,这样每个单元簇包含的文本单元中的字符分别为文本中用于描述各个情节的情节文本,所以,通过本发明实施例提供的方案可以确定文本中的各个情节文本。与现有技术相比,应用本发明实施例提供的方案确定情节文本时,无需人工参与,从而能够提高确定文本中情节文本的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种情节文本确定方法,其特征在于,所述方法包括:
确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇,包括:
对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,其中,所述聚合对象为:进行对象聚合时的操作单元,每一聚合对象的初始对象中包含一个文本单元,且每一文本单元与每一初始对象一一对应,每一聚合对象的对象特征的初始值为聚合对象所包含的文本单元的内容特征,相邻聚合对象所包含的文本单元在所述文本中位置相邻;
按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象;
根据每一新的聚合对象的被聚合对象的对象特征,获得每一新的聚合对象的对象特征;
在满足预设聚合终止条件的情况下,将各个聚合对象分别作为所述文本对应的各个单元簇。
3.根据权利要求2所述的方法,其特征在于,所述预设聚合终止条件包括以下情况中的至少一种:
聚合次数达到预设次数;
新的聚合对象与聚合前的聚合对象全部相同;
第一目标聚合对象的个数大于预设对象个数,所述第一目标聚合对象为:包含的字符的数量大于预设数量的聚合对象。
4.根据权利要求2或3所述的方法,其特征在于,所述对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,包括:
针对聚合对象的每一类型的对象特征,计算各对相邻聚合对象在该对象特征上的相似度,作为局部相似度;
根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据各对相邻聚合对象的局部相似度,获得各对相邻聚合对象在所有对象特征上的整体相似度,包括:
对各对相邻聚合对象的局部相似度进行统计计算,得到各对相邻聚合对象的整体相似度的初始值;
按照以下表达式,调整各对相邻聚合对象对应的整体相似度的初始值,得到各对相邻聚合对象的整体相似度:
Figure FDA0002601207280000021
其中,W为所述整体相似度,W0为所述整体相似度的初始值,a、b、c与d为预设的参数,在计算相邻聚合对象中前端的聚合对象相对于后端的聚合对象的相似度的情况下,所述settingsize为后端的聚合对象中包含的文本单元的数量,在计算相邻聚合对象中后端的聚合对象相对于前端的聚合对象的相似度的情况下,所述settingsize为前端的聚合对象中包含的文本单元的数量。
6.根据权利要求2或3所述的方法,其特征在于,所述按照匹配结果对各对相邻聚合对象进行对象聚合,得到新的聚合对象,包括:
针对每一第二目标聚合对象,选择与第二目标聚合对象的整体相似度最高的相邻聚合对象,对第二目标聚合对象和所选择的相邻聚合对象进行对象聚合,得到新的聚合对象,其中,所述第二目标聚合对象为:所包含文本单元的数量小于预设数量的聚合对象。
7.根据权利要求2或3所述的方法,其特征在于,所述对聚合对象中各对相邻聚合对象的对象特征进行特征匹配,包括:
确定聚合对象中对应的文本单元不包含目标字符的相邻聚合对象,其中,所述目标字符为:表示一对相邻聚合对象不能进行对象聚合的字符;
对所确定出的每一对相邻聚合对象的对象特征进行特征匹配。
8.根据权利要求1所述的方法,其特征在于,在所述内容特征中包括针对字符的特征,且在文本单元描述的文本内容中包含文本角色的情况下,所述提取各个文本单元的内容特征,包括:
识别各个文本单元中文本角色的角色名称;
针对每一文本单元,提取针对剩余字符的特征,所述剩余字符为:文本单元中,除角色名称之外的字符。
9.一种情节文本确定装置,其特征在于,所述装置包括:
单元确定模块,用于确定文本中的各个文本单元,其中,各个文本单元中包含所述文本中的部分连续排列的字符,且各个文本单元之间在文本中的位置不存在交集;
特征提取模块,用于提取各个文本单元的内容特征,所述内容特征为:反映文本单元所描述的内容的特征;
单元簇确定模块,用于对所述文本中位置相邻的文本单元的内容特征进行特征匹配,确定内容特征相似的文本单元,将内容特征相似的文本单元确定到同一单元簇中,确定所述文本对应的各个单元簇;
情节文本确定模块,用于将每一单元簇包括的文本单元中的字符分别确定为所述文本中用于描述各个情节的情节文本。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202010724600.8A 2020-07-24 2020-07-24 一种情节文本确定方法及装置 Active CN111859894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724600.8A CN111859894B (zh) 2020-07-24 2020-07-24 一种情节文本确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724600.8A CN111859894B (zh) 2020-07-24 2020-07-24 一种情节文本确定方法及装置

Publications (2)

Publication Number Publication Date
CN111859894A true CN111859894A (zh) 2020-10-30
CN111859894B CN111859894B (zh) 2024-01-23

Family

ID=72949488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724600.8A Active CN111859894B (zh) 2020-07-24 2020-07-24 一种情节文本确定方法及装置

Country Status (1)

Country Link
CN (1) CN111859894B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
JP2011215899A (ja) * 2010-03-31 2011-10-27 Kddi Corp 類似文書検索装置
US20120166180A1 (en) * 2009-03-23 2012-06-28 Lawrence Au Compassion, Variety and Cohesion For Methods Of Text Analytics, Writing, Search, User Interfaces
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
US20150154177A1 (en) * 2013-12-03 2015-06-04 International Business Machines Corporation Detecting Literary Elements in Literature and Their Importance Through Semantic Analysis and Literary Correlation
US20170220665A1 (en) * 2016-01-28 2017-08-03 Ceeq It Corporation Systems and methods for merging electronic data collections
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
CN109739975A (zh) * 2018-11-15 2019-05-10 东软集团股份有限公司 热点事件抽取方法、装置、可读存储介质及电子设备
US20190278843A1 (en) * 2017-02-27 2019-09-12 Tencent Technology (Shenzhen) Company Ltd Text entity extraction method, apparatus, and device, and storage medium
JP2020052961A (ja) * 2018-09-28 2020-04-02 キヤノン株式会社 コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラム
CN111401031A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 一种目标文本确定方法、装置及设备
CN111414479A (zh) * 2020-03-16 2020-07-14 北京智齿博创科技有限公司 基于短文本聚类技术的标签抽取方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
US20120166180A1 (en) * 2009-03-23 2012-06-28 Lawrence Au Compassion, Variety and Cohesion For Methods Of Text Analytics, Writing, Search, User Interfaces
JP2011215899A (ja) * 2010-03-31 2011-10-27 Kddi Corp 類似文書検索装置
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
US20150154177A1 (en) * 2013-12-03 2015-06-04 International Business Machines Corporation Detecting Literary Elements in Literature and Their Importance Through Semantic Analysis and Literary Correlation
US20170220665A1 (en) * 2016-01-28 2017-08-03 Ceeq It Corporation Systems and methods for merging electronic data collections
US20190278843A1 (en) * 2017-02-27 2019-09-12 Tencent Technology (Shenzhen) Company Ltd Text entity extraction method, apparatus, and device, and storage medium
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
JP2020052961A (ja) * 2018-09-28 2020-04-02 キヤノン株式会社 コンテンツ提供システム、コンテンツ提供方法、情報処理装置、及びプログラム
CN109739975A (zh) * 2018-11-15 2019-05-10 东软集团股份有限公司 热点事件抽取方法、装置、可读存储介质及电子设备
CN111401031A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 一种目标文本确定方法、装置及设备
CN111414479A (zh) * 2020-03-16 2020-07-14 北京智齿博创科技有限公司 基于短文本聚类技术的标签抽取方法

Also Published As

Publication number Publication date
CN111859894B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN108073568B (zh) 关键词提取方法和装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
CN111914564B (zh) 一种文本关键词确定方法及装置
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN109829045A (zh) 一种问答方法和装置
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN111898381A (zh) 一种结合rpa与ai的文本信息提取方法、装置、设备及介质
CN111984867B (zh) 一种网络资源确定方法及装置
CN108475265B (zh) 获取未登录词的方法与装置
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN111597822A (zh) 一种对象名称识别方法及装置
CN109145261B (zh) 一种生成标签的方法和装置
CN111859894A (zh) 一种情节文本确定方法及装置
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN112528021A (zh) 一种模型训练方法、模型训练装置及智能设备
US20160246870A1 (en) Classifying a document using patterns
CN110688472A (zh) 一种自动筛选问题答案的方法、终端设备及存储介质
CN111191095A (zh) 网页数据获取方法、装置、设备及介质
CN114548083B (zh) 标题生成方法、装置、设备及介质
CN115878849B (zh) 一种视频标签关联方法、装置和电子设备
WO2022053018A1 (zh) 一种文本聚类***、方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant