CN114662487A - 一种文本分段方法、装置、电子设备及可读存储介质 - Google Patents

一种文本分段方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114662487A
CN114662487A CN202011540880.3A CN202011540880A CN114662487A CN 114662487 A CN114662487 A CN 114662487A CN 202011540880 A CN202011540880 A CN 202011540880A CN 114662487 A CN114662487 A CN 114662487A
Authority
CN
China
Prior art keywords
word
target
word frequency
clause
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011540880.3A
Other languages
English (en)
Inventor
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Guoshuang Software Co ltd
Original Assignee
Suzhou Guoshuang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Guoshuang Software Co ltd filed Critical Suzhou Guoshuang Software Co ltd
Priority to CN202011540880.3A priority Critical patent/CN114662487A/zh
Publication of CN114662487A publication Critical patent/CN114662487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出的一种文本分段方法、装置、电子设备及可读存储介质,针对待分段文本中的任一目标子句,基于预先构建的第一元祖集合和第二元组集合确定目标子句对应的词频向量,进而根据词频向量确定目标子句是否是段落结尾句,在确定目标子句为段落结尾句时,基于目标子句对待分段文本进行段落划分。本方案基于待分段文本中句子的词频向量,来确定段落结尾句,进而根据段落结尾句进行分段,相比于基于深度学习算法进行分段,本方案不需要进行模型训练,更加简单,对计算机的性能要求也相对较低,更容易实现。

Description

一种文本分段方法、装置、电子设备及可读存储介质
技术领域
本发明实施例涉及文本处理技术领域,具体涉及一种文本分段方法、装置、电子设备及可读存储介质。
背景技术
目前很多业务场景需要对OCR文本内容进行整理或分析,OCR文本内容在形式上没有明显的段落划分标志,常常以文本块儿的形式进行存储或传输,这使得后续的处理工作(如解析、分段展示等)难以展开或难以得到预期效果。
目前对文本进行分段采用的方案通常为使用深度学习算法(LSTM),对语料进行有监督的训练,得到分段判别模型,基于分段判别模型对文本进行分段。
但是,基于深度学习算法得到的模型相对来说更像一个黑盒,预测结果具有不可解释性。并且模型的训练过程伴随着大量的参数调优,时间成本高,并对计算机的性能也有较高要求。
上述对问题的发现过程的描述,仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种文本分段方法、装置、电子设备及可读存储介质。
有鉴于此,第一方面,本发明实施例提供一种文本分段方法,包括:
针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
作为一种可能的实现方式,所述第一元组集合和第二元组集合采用下述方式构建:
获取语料,所述语料为具有段落标识和语句划分标志的文本;
根据段落标识对所述语料进行段落划分,得到多个段落;
根据语句划分标识对每个段落进行语句划分,得到多个子句;
将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;
确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;
将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;
将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
作为一种可能的实现方式,所述词频向量包括目标词频向量、第一词频向量和第二词频向量;
所述基于预设的第一元组集合和第二元组集合确定所述目标子句对应的词频向量,包括:
对所述目标子句进行词语划分,得到对应的目标词集;
根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量;
从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量;
从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
作为一种可能的实现方式,根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句,包括:
确定所述目标词频向量与所述第一词频向量的第一相似度;
确定所述目标词频向量与所述第二词频向量的第二相似度;
若所述第一相似度大于所述第二相似度,则确定所述目标子句是段落结尾句;
若所述第一相似度小于所述第二相似度,则确定所述目标子句不是段落结尾句。
作为一种可能的实现方式,所述第一句集中的词语的第一平均词频采用下述方式确定:
确定词语在所述第一句集中的第一词频;
确定所述第一词频与所述第一句集中包含的子句数量的第一比值;
将所述第一比值作为该词语对应的第一平均词频。
作为一种可能的实现方式,所述第二句集中的词语的第二平均词频采用下述方式确定:
确定词语在所述第二句集中的第二词频;
确定所述第二词频与所述第二句集中包含的子句数量的第二比值;
将所述第二比值作为该词语对应的第二平均词频。
作为一种可能的实现方式,对所述目标子句进行词语划分,得到对应的目标词集,包括:
对所述目标子句进行词语划分,得到多个词语;
去除所述多个词语中的预设词语,得到多个目标词语;
将所述目标词语组成目标词集。
第二方面,本发明实施例还提供了一种文本分段装置,包括:
词频向量确定模块,用于针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
结尾句确定模块,用于根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
段落划分模块,用于在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
第三方面,本发明实施例还提供了一种电子设备,包括至少一个处理器以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行第一方面所述的文本分段方法的步骤。
第四方面,本发明实施例还提供了一种可读存储介质,所述可读存储介质存储计算机指令,所述计算机指令使计算机执行第一方面所述的文本分段方法的步骤。
相比现有技术,本发明实施例提出的一种文本分段方法,针对待分段文本中的任一目标子句,基于预先构建的第一元祖集合和第二元组集合确定目标子句对应的词频向量,进而根据词频向量确定目标子句是否是段落结尾句,进而在确定目标子句为段落结尾句时,基于目标子句对待分段文本进行段落划分。本方案基于待分段文本中句子的词频向量,来确定段落结尾句,进而根据段落结尾句进行分段,相比于基于深度学习算法进行分段,本方案不需要进行模型训练,更加简单,对计算机的性能要求也相对较低,更容易实现。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本分段方法的流程图;
图2为本发明实施例提供的另一种文本分段方法的流程图;
图3为本发明实施例提供的一种元祖集合构建方法的流程图;
图4为本发明实施例提供的一种词频向量确定方法的流程图;
图5为本发明实施例提供的一种文本分段装置的框图;
图6为本发明实施例提供的一种电子设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有的OCR文本分段困难的问题,本发明基于统计学方法提供了一种可以对OCR文本进行分段的文本分段方法,本发明通过确定文本中的句子分词后得到的词组同时出现在某一种类型的句子(如段落结尾句,非段落结尾句)中的可能性,进而根据比较可能性的大小估计该句子属于哪一种类型,根据句子类型来判断文本是否需要在该句结束进行分段。
下面结合附图对本发明提供的文本分段方法进行详细说明。
图1为本发明一实施例提供的一种文本分段方法的流程图,如图1所述,该方法可以包括如下步骤:
S11.针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量。
本实施例提供的一种文本分段方法,根据待分段文本中的段落结尾句对待分段文本进行段落划分。基于此,在对待分段文本进行分段时,需要先对待分段文本进行语句划分,得到待分段文本对应的多个子句,然后在分别判断各个子句是否是段落结尾句。
作为一种可选的实现方式,可以采用自然语言处理技术,根据预设标点符号对待分段文本进行语句划分,其中预设的标点符号可以为表示句子语义结束的标点符号,例如“。”、“?”和“!”等。
作为另一种可选的实现方式,还可以利用正则表达式re.split()对待分段文本进行语句划分。
需要说明的是,上述两种语句划分的方式只是示例性的,除了上述两种方式,还可以采用其他方式进行语句划分,本发明实施例不做具体限定。
在一实施例中,在判断子句是否是段落结尾句时,可将子句作为目标子句,然后针对目标子句执行步骤S11-步骤S12。在对文本进行分段时,可以将每一子句分别作为目标子句执行相应的步骤,从而完成对该文本中所有子句是否为段落结尾句的判断。
作为一个实施例,第一元祖集合为根据多个段落结尾句构建的以词语和词语的第一平均词频为元组的集合,第二元组集合为根据多个非段落结尾句构建的以词语和词语的第二平均词频为元组的集合。
基于此,确定目标子句对应的词频向量可以包括:根据目标子句本身确定的目标词频向量、根据第一元祖集合确定的第一词频向量和根据第二元组集合确定的第二词频向量。
S12.根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句。
本发明实施例,根据目标子句的词频向量确定目标子句作为段落结尾句的可能性和作为非段落结尾句的可能性,进而根据比较可能性的大小估计目标子句是否是段落结尾句。具体的,若目标子句作为段落结尾句的可能性大于作为非段落结尾句的可能性,则确定目标子句为段落结尾句,若目标子句作为段落结尾句的可能性小于作为非段落结尾句的可能性,则确定目标子句不是段落结尾句。
至于目标子句作为段落结尾句的可能性与作为非段落结尾句的可能性相等的情况,通常不会出现,若出现了则可以通过人工来确定目标子句是否为段落结尾句。当然除了人工之外还可以采用其他方式,对比本发明实施例不做具体限定。
S13.在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
作为一个实施例,当确定目标子句为段落结尾句中,以目标子句的结尾为分割点,进行段落划分。
本发明实施例提出的一种文本分段方法,针对待分段文本中的任一目标子句,基于预先构建的第一元祖集合和第二元组集合确定目标子句对应的词频向量,进而根据词频向量确定目标子句是否是段落结尾句,进而在确定目标子句为段落结尾句时,基于目标子句对待分段文本进行段落划分。本方案基于待分段文本中句子的词频向量,来确定段落结尾句,进而根据段落结尾句进行分段,相比于基于深度学习算法进行分段,本方案不需要进行模型训练,更加简单,对计算机的性能要求也相对较低,更容易实现。
图2为本发明实施例提供的另一种文本分段方法的流程图,如图2所示,该方法可以包括如下步骤:
S21.构建第一元祖集合和第二元组集合。
作为一个实施例,如图3所示,构建第一元祖集合和第二元组集合可以包含如下步骤:
S31.获取语料。
在本实施例中,所述语料为具有段落标识(例如首行缩进等)和语句划分标志(例如表示句子语义结束的标点符号)的文本。
作为一种可选的实现方式,可以通过利用网络爬虫技术从网络中爬取的方式来获取语料。
作为另一种可能的实现方式,可以用过用户或外部设备输入的方式来获取语料,而外部设备可以采用有线或无线的方式进行输入。
S32.根据段落标识对所述语料进行段落划分,得到多个段落。
S33.根据语句划分标识对每个段落进行语句划分,得到多个子句。
在作为一个实施例,在进行语句划分时,以完整的句为单位,划分得到的子句以“。”、“?”、“!”等表示句子语义结束的标点符号为结尾。
S34.将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成。
作为一个实施例,在步骤S23进行语句划分时,可以为段落结尾句添加段落结尾句标识(例如is_end=true),为段落结尾句添加非段落结尾句标识(例如is_end=false),然后将添加有段落结尾句标识的子句组成第一句集,将添加有非段落结尾句标识的子句组成第二句集。
S35.确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频。
在本实施例中,词语的第一平均词频用于表征词语在段落结尾句中出现的概率,词语的第二平均词频用于表征词语在非段落结尾句中出现的概率。
作为一个实施例,在确定第一平均词频和第二平均词频时,首先要确定第一句集和第二句集中各自包含的词语。基于此,先对分别第一句集和第二句集中各自包含的句子进行分词,得到第一句集对应的第一词集和第二句集对应的第二词集,然后在分别确定第一词集中各词语对应的第一平均词频和第二词集中各词语对应的第二平均词频。
可选的,可以采用jieba中文分词器进行分词。
作为一个实施例,针对第一词集中的任一词语均可以采用下述确定第一平均词频:
确定词语在所述第一句集中的第一词频,确定所述第一词频与所述第一句集中包含的子句数量的第一比值,将所述第一比值作为该词语对应的第一平均词频。
针对第一词集中的各词语分别采用上述方式确定对应的第一平均词频,即可得到第一词集中各词语对应的第一平均词频。
作为一个实施例,针对第二词集中的任一词语均可以采用下述确定第二平均词频:
确定词语在所述第二句集中的第二词频,确定所述第二词频与所述第二句集中包含的子句数量的第二比值,将所述第二比值作为该词语对应的第二平均词频。
针对第二词集中的各词语分别采用上述方式确定对应的第二平均词频,即可得到第二词集中各词语对应的第二平均词频。
在本实施例中,因为第一句集中包含的子句数量和第二句集中包含的子句数量不同,所以采用平均词频可以消除量纲,实现归一化。
S36.将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合。
作为一个实施例,以(词语,词语对应的第一平均词频)的格式,分别生成各个词语对应的第一元祖,一个词语对应一个第一元祖,例如第一句集中包含“我们”,“我们”对应的第一平均词频为2,则“我们”对应的第一元祖就是(我们,2),由第一句集中所有词语对应的第一元祖共同组成第一元祖集合。
S37.将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
与第一元祖集合类似,以(词语,词语对应的第二平均词频)的格式,分别生成各个词语对应的第二元祖,一个词语对应一个第二元组,由第二句集中所有词语对应的第二元祖共同组成第二元祖集合。
S22.针对待分段文本中的任一目标子句,基于第一元组集合和第二元组集合确定所述目标子句对应的目标词频向量、第一词频向量和第二词频向量。
下面结合附图4,对基于第一元组集合和第二元组集合确定所述目标子句对应的目标词频向量、第一词频向量和第二词频向量进行说明。
如图4所示,可以包含如下步骤:
S41.对所述目标子句进行词语划分,得到对应的目标词集。
作为一个可选的实现方式,可以将词语划分得到的所有词语组成目标词集。
作为另一个可选的实现方式,可以将对目标子句进行词语划分,得到多个词语中包含的预设词语去除,将剩余的词语作为目标词语,然后将目标词语组成目标词集。其中预设词语可以为停用词(例如“的”,“了”等),滤除停用词,可以使得最终段落结尾句的判断结果更准确。
S42.根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量。
作为一个实施例,按照目标词集中的词语顺序,根据各个词语在所述目标子句中的词频,生成对应的目标词频向量,例如目标子句为“淡泊是一种情怀,一切随缘,一切随心”,其对应的目标词集为(淡泊,是,一种,情怀,一切,随缘,随心),其中“淡泊”的词频为1,“是”的词频为1,“一种”的词频为1,“情怀”的词频为1,“一切”的词频为2,“随缘”的词频为1,“随心”的词频为1,则生成的目标词频向量就是(1,1,1,1,2,1,1)。
S43.从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量。
在第一元祖集合中,词语与词语对应的第一平均词频,以元祖的形式对应存储,因此在知道了词语的情况下,通过查找的方式可以很轻易的确定出对应的第一平均词频。
在确定出目标词集中各词语的第一平均词频后,将得到的第一平均词频,按照目标词集中的词语排列顺序,生成对应的第一词频向量。
S44.从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
作为一个实施例,与步骤S43同理,根据目标词集中的词语,采用查找的方式确定第二元组集合中,对应的第二平均词频,然后将查找到的第二平均词频,按照目标词集中的词语排列顺序,生成对应的第二词频向量。
S23.确定所述目标词频向量与所述第一词频向量的第一相似度。
S24.确定所述目标词频向量与所述第二词频向量的第二相似度。
在本实施例中,S23和S24没有特定的先后顺序,可以先执行S23也可以先执行S24,或者同时执行S23和S24。
作为一个实施例,可以采用余弦相似度计算方法计算第一相似度和第二相似度。
具体的,余弦相似度计算公式如下所示:
Figure BDA0002854839990000141
其中,A和B为进行相似度计算的两个向量,比如,当计算第一相似度是,A就表示目标词频向量,B就表示第一词频向量,Ai就表示目标词频向量中的第i个元素,Bi就表示第一词频向量中的第i个元素,n表示目标词频向量/第一词频向量中的元素个数。当计算第二相似度是,A就表示目标词频向量,B就表示第二词频向量,Ai就表示目标词频向量中的第i个元素,Bi就表示第二词频向量中的第i个元素,n表示目标词频向量/第二词频向量中的元素个数。
除了采用余弦相似度之外,还可以采用其他相似度计算方法计算第一相似度和第二相似度,此处不再一一列举。
S25.判断第一相似度与第二相似度的大小,若所述第一相似度大于所述第二相似度,则执行S26,若所述第一相似度小于所述第二相似度,则执行S28。
作为一个实施例,第一相似度越大,则说明目标子句是段落结尾句的可能性越大,同理,第二相似度越大,则说明目标子句是非段落结尾句的可能性越大,若第一相似度大于所述第二相似度,则说明目标子句是段落结尾句的可能性更大,此时执行S26,若第一相似度小于所述第二相似度,则说明目标子句是非段落结尾句的可能性更大,此时执行S28。
S26.确定所述目标子句是段落结尾句,并执行S27。
S27.基于所述目标子句对所述待分段文本进行段落划分。
作为一个实施例,基于当目标子句是段落结尾句时,以目标子句的结尾为段落分割点,进行段落划分。
S28.确定所述目标子句不是段落结尾句。
在确定出当前的目标子句是否为段落结尾句之后,对其他的目标子句执行上述过程,直至待分段文本中的所有目标子句均确定出是否是段落结尾句为止。
本发明另一实施例还提供了一种文本分段装置,如图5所示,该装置可以包括词频向量确定模块501、结尾句确定模块502和段落划分模块503。
词频向量确定模块501,用于针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量。
结尾句确定模块502,用于根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句。
段落划分模块503,用于在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
作为一个实施例,该装置还可以包括元祖集合构建模块(图中未示出),该元祖集合构建模块具体用于:
获取语料,所述语料为具有段落标识和语句划分标志的文本;
根据段落标识对所述语料进行段落划分,得到多个段落;
根据语句划分标识对每个段落进行语句划分,得到多个子句;
将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;
确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;
将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;
将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
作为一个实施例,第一句集中的词语的第一平均词频采用下述方式确定:
确定词语在所述第一句集中的第一词频;
确定所述第一词频与所述第一句集中包含的子句数量的第一比值;
将所述第一比值作为该词语对应的第一平均词频。
作为一个实施例,第二句集中的词语的第二平均词频采用下述方式确定:
确定词语在所述第二句集中的第二词频;
确定所述第二词频与所述第二句集中包含的子句数量的第二比值;
将所述第二比值作为该词语对应的第二平均词频。
作为一个实施例,所述词频向量包括目标词频向量、第一词频向量和第二词频向量。
所述词频向量确定模块501,具体用于:
对所述目标子句进行词语划分,得到对应的目标词集,根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量,从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量,从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
作为一个实施例,所述结尾句确定模块502,具体用于:
确定所述目标词频向量与所述第一词频向量的第一相似度,确定所述目标词频向量与所述第二词频向量的第二相似度,若所述第一相似度大于所述第二相似度,则确定所述目标子句是段落结尾句,若所述第一相似度小于所述第二相似度,则确定所述目标子句不是段落结尾句。
作为一个实施例,对所述目标子句进行词语划分,得到对应的目标词集,包括:
对所述目标子句进行词语划分,得到多个词语;
去除所述多个词语中的预设词语,得到多个目标词语;
将所述目标词语组成目标词集。
所述文本分段装置包括处理器和存储器,上述词频向量确定模块501、结尾句确定模块502和段落划分模块503等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定待分段文本中的段落结尾句,并根据段落结尾句对待分段文本进行段落划分。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本分段方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本分段方法。
本发明实施例提供了一种设备60,如图6所示,该设备60包括至少一个处理器601、以及与处理器601连接的至少一个存储器602、总线603;其中,处理器601、存储器602通过总线603完成相互间的通信;处理器601用于调用存储器602中的程序指令,以执行上述的文本分段方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
所述第一元组集合和第二元组集合采用下述方式构建:
获取语料,所述语料为具有段落标识和语句划分标志的文本;
根据段落标识对所述语料进行段落划分,得到多个段落;
根据语句划分标识对每个段落进行语句划分,得到多个子句;
将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;
确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;
将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;
将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
所述词频向量包括目标词频向量、第一词频向量和第二词频向量;
所述基于预设的第一元组集合和第二元组集合确定所述目标子句对应的词频向量,包括:
对所述目标子句进行词语划分,得到对应的目标词集;
根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量;
从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量;
从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句,包括:
确定所述目标词频向量与所述第一词频向量的第一相似度;
确定所述目标词频向量与所述第二词频向量的第二相似度;
若所述第一相似度大于所述第二相似度,则确定所述目标子句是段落结尾句;
若所述第一相似度小于所述第二相似度,则确定所述目标子句不是段落结尾句。
所述第一句集中的词语的第一平均词频采用下述方式确定:
确定词语在所述第一句集中的第一词频;
确定所述第一词频与所述第一句集中包含的子句数量的第一比值;
将所述第一比值作为该词语对应的第一平均词频。
所述第二句集中的词语的第二平均词频采用下述方式确定:
确定词语在所述第二句集中的第二词频;
确定所述第二词频与所述第二句集中包含的子句数量的第二比值;
将所述第二比值作为该词语对应的第二平均词频。
对所述目标子句进行词语划分,得到对应的目标词集,包括:
对所述目标子句进行词语划分,得到多个词语;
去除所述多个词语中的预设词语,得到多个目标词语;
将所述目标词语组成目标词集。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本分段方法,其特征在于,包括:
针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
2.根据权利要求1所述的方法,其特征在于,所述第一元组集合和第二元组集合采用下述方式构建:
获取语料,所述语料为具有段落标识和语句划分标志的文本;
根据段落标识对所述语料进行段落划分,得到多个段落;
根据语句划分标识对每个段落进行语句划分,得到多个子句;
将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;
确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;
将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;
将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
3.根据权利要求2所述的方法,其特征在于,所述词频向量包括目标词频向量、第一词频向量和第二词频向量;
所述基于预设的第一元组集合和第二元组集合确定所述目标子句对应的词频向量,包括:
对所述目标子句进行词语划分,得到对应的目标词集;
根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量;
从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量;
从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
4.根据权利要求3所述的方法,其特征在于,根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句,包括:
确定所述目标词频向量与所述第一词频向量的第一相似度;
确定所述目标词频向量与所述第二词频向量的第二相似度;
若所述第一相似度大于所述第二相似度,则确定所述目标子句是段落结尾句;
若所述第一相似度小于所述第二相似度,则确定所述目标子句不是段落结尾句。
5.根据权利要求2所述的方法,其特征在于,所述第一句集中的词语的第一平均词频采用下述方式确定:
确定词语在所述第一句集中的第一词频;
确定所述第一词频与所述第一句集中包含的子句数量的第一比值;
将所述第一比值作为该词语对应的第一平均词频。
6.根据权利要求2所述的方法,其特征在于,所述第二句集中的词语的第二平均词频采用下述方式确定:
确定词语在所述第二句集中的第二词频;
确定所述第二词频与所述第二句集中包含的子句数量的第二比值;
将所述第二比值作为该词语对应的第二平均词频。
7.根据权利要求3所述的方法,其特征在于,对所述目标子句进行词语划分,得到对应的目标词集,包括:
对所述目标子句进行词语划分,得到多个词语;
去除所述多个词语中的预设词语,得到多个目标词语;
将所述目标词语组成目标词集。
8.一种文本分段装置,其特征在于,包括:
词频向量确定模块,用于针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
结尾句确定模块,用于根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
段落划分模块,用于在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
9.一种电子设备,其特征在于,包括至少一个处理器以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行权利要求1-7任一所述的文本分段方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质存储计算机指令,所述计算机指令使计算机执行权利要求1-7任一所述的文本分段方法的步骤。
CN202011540880.3A 2020-12-23 2020-12-23 一种文本分段方法、装置、电子设备及可读存储介质 Pending CN114662487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011540880.3A CN114662487A (zh) 2020-12-23 2020-12-23 一种文本分段方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011540880.3A CN114662487A (zh) 2020-12-23 2020-12-23 一种文本分段方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114662487A true CN114662487A (zh) 2022-06-24

Family

ID=82025099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011540880.3A Pending CN114662487A (zh) 2020-12-23 2020-12-23 一种文本分段方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114662487A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
US11416672B2 (en) Object recognition and tagging based on fusion deep learning models
AU2018214675B2 (en) Systems and methods for automatic semantic token tagging
CN112685565A (zh) 基于多模态信息融合的文本分类方法、及其相关设备
EP3926531A1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
JP2018501579A (ja) 画像の内容の意味表現
CN110781687B (zh) 相同意图语句的获取方法及装置
CN110597966A (zh) 自动问答方法及装置
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN109597982B (zh) 摘要文本识别方法及装置
CN117312535B (zh) 基于人工智能的问题数据处理方法、装置、设备及介质
CN114662487A (zh) 一种文本分段方法、装置、电子设备及可读存储介质
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN112148902B (zh) 数据处理方法、装置、服务器及存储介质
CN113434695A (zh) 金融事件抽取方法、装置、电子设备及存储介质
CN112528646A (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN113222167A (zh) 一种图像处理方法及其装置
CN111538813B (zh) 一种分类检测方法、装置、设备及存储介质
CN111191689B (zh) 样本数据的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination