CN112434515A - 语句压缩方法、装置、电子设备及可读存储介质 - Google Patents

语句压缩方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112434515A
CN112434515A CN202011386421.4A CN202011386421A CN112434515A CN 112434515 A CN112434515 A CN 112434515A CN 202011386421 A CN202011386421 A CN 202011386421A CN 112434515 A CN112434515 A CN 112434515A
Authority
CN
China
Prior art keywords
sentence
sentences
target
key
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011386421.4A
Other languages
English (en)
Inventor
刘臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianmian Information Technology Shenzhen Co ltd
Original Assignee
Tianmian Information Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianmian Information Technology Shenzhen Co ltd filed Critical Tianmian Information Technology Shenzhen Co ltd
Priority to CN202011386421.4A priority Critical patent/CN112434515A/zh
Publication of CN112434515A publication Critical patent/CN112434515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理,揭露一种语句压缩方法,包括:对待压缩语句执行去口语化处理,得到目标语句集,判断目标语句集中的句子数量是否大于第一阈值;当判断目标语句集中的句子数量大于第一阈值时,将目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断关键语句的句长是否大于第二阈值;当判断关键语句的句长大于第二阈值时,抽取关键语句的主干词语,拼接主干词语,得到目标语句。本发明还提供一种语句压缩装置、电子设备及可读存储介质。本发明降低了标注成本、保证了压缩后语句的语义准确性。

Description

语句压缩方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种语句压缩方法、装置、电子设备及可读存储介质。
背景技术
语句压缩技术是自然语言处理领域的一个重要研究方向,通过语句压缩处理,可剔除语句中的冗余信息,保留主题思想,便于用户阅读和机器识别,可用于摘要生成、问题匹配及主题提取等多领域。
当前通常采用生成式或抽取式的语句压缩处理方法,然而生成式语句压缩方法需要大量的标注语料进行监督式学习,这种方式对于受项目大小及成本限制、业务数据量少、标注数据缺失的情况并不适用;而传统的抽取式语句压缩方法与语句长度相关,当语句较长时,抽取式压缩方法的压缩效果并不理想,无法准确保留语义信息。因此,亟需一种语句压缩方法,以降低标注成本、保证压缩后语句的语义准确性。
发明内容
鉴于以上内容,有必要提供一种语句压缩方法,旨在降低标注成本、保证压缩后语句的语义准确性。
本发明提供的语句压缩方法,包括:
解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值;
当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值;
当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
可选的,所述对所述待压缩语句执行去口语化处理,包括:
从第一数据库中获取口语语句词典,将所述待压缩语句中的每个第一子句与所述口语语句词典进行比对,若某一指定第一子句与所述口语语句词典中的一个语句匹配,则删除所述指定第一子句,得到初始语句集;
对所述初始语句集中的句子执行分词处理,得到第一词语序列;
基于口语词语识别模型识别所述第一词语序列中的口语词语,删除所述口语词语,得到第二词语序列;
按照各个词语在所述待压缩语句中的位置将所述第二词语序列中的词语拼接得到多个第二子句,将所述多个第二子句的集合作为目标语句集。
可选的,所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
可选的,在判断所述目标语句集中的句子数量是否大于第一阈值之后,所述方法还包括:
若判断所述目标语句集中的句子数量小于或等于第一阈值,则确定所述待压缩语句的语句类型,从第二数据库中获取所述语句类型对应的抽取规则,基于所述抽取规则从所述目标语句集中抽取语句,将抽取的语句拼接,得到关键语句。
可选的,所述抽取所述关键语句的主干词语包括:
对所述关键语句执行分词处理,得到第三词语序列;
依次识别所述第三词语序列中每个词语的词性,基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,基于所述句法结构提取所述第三词语序列中的主干词语。
可选的,在判断所述关键语句的句长是否大于第二阈值之后,所述方法还包括:
若判断所述关键语句的句长小于或等于第二阈值,则将所述关键语句作为目标语句。
为了解决上述问题,本发明还提供一种语句压缩装置,所述装置包括:
解析模块,用于解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值;
排序模块,用于当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值;
抽取模块,用于当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
可选的,所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的语句压缩程序,所述语句压缩程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述语句压缩方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语句压缩程序,所述语句压缩程序可被一个或者多个处理器执行,以实现上述语句压缩方法。
相较现有技术,本发明首先对待压缩语句执行去口语化处理,得到目标语句集,该步骤通过执行去口语化处理,剔除了待压缩语句中无语义信息的口语化句子、口语化词语,实现了对待压缩语句的初步压缩;然后,当判断目标语句集中的句子数量大于第一阈值时,将目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,该步骤通过重要度排序抽取到了待压缩语句中的关键语句,进一步剔除了冗余信息,保留了待压缩语句的语义信息;最后,当判断关键语句的句长大于第二阈值时,抽取关键语句的主干词语,拼接主干词语,得到目标语句,本步骤通过抽取关键语句的主干词语,进一步剔除了多余词语,保证了目标语句的语义准确性,同时,本发明不需要标注样本。因此,本发明降低了标注成本、保证了压缩后语句的语义准确性。
附图说明
图1为本发明一实施例提供的语句压缩方法的流程示意图;
图2为本发明一实施例提供的语句压缩装置的模块示意图;
图3为本发明一实施例提供的实现语句压缩方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种语句压缩方法。参照图1所示,为本发明一实施例提供的语句压缩方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,语句压缩方法包括:
S1、解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值。
所述对所述待压缩语句执行去口语化处理,包括:
A11、从第一数据库中获取口语语句词典,将所述待压缩语句中的每个第一子句与所述口语语句词典进行比对,若某一指定第一子句与所述口语语句词典中的一个语句匹配,则删除所述指定第一子句,得到初始语句集;
A12、对所述初始语句集中的句子执行分词处理,得到第一词语序列;
本实施例中,可采用统计概率模型或/和基于N-gram语言模型的分词方法对初始语句集中的句子进行分词。
A13、基于口语词语识别模型识别所述第一词语序列中的口语词语,删除所述口语词语,得到第二词语序列;
本实施例中,所述口语词语识别模型为深度神经网络模型,所述深度神经网络模型识别出第一词语序列中每个词语的词性标签,基于词性标签剔除口语(语气词等)。
A14、按照各个词语在所述待压缩语句中的位置将所述第二词语序列中的词语拼接得到多个第二子句,将所述多个第二子句的集合作为目标语句集。
本实施例中,所述待压缩语句为由多个句子组成的长句,所述口语语句词典中存储了多个无语义信息的口水话语句。
例如,若待压缩语句为“额,这些我都知道,我能借的都借了。我每个月15号才发工资。额,我只能等15号发工资。每个月15号发工资还。没办法。”
将口水句“这些我都知道”、语气词“额”去掉后剩余的句子的集合作为目标语句集。
S2、当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值。
本实施例中,所述第一阈值可以是5。
所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
B11、将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
B12、计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
B13、基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
假设目标语句集中各个组合对对应的相似度值如下表1所示:
相似度值 句子1 句子2 句子3
句子1 1 0.63 0.44
句子2 0.63 1 0.78
句子3 0.44 0.78 1
表1
则目标语句集对应的相似度矩阵为
Figure BDA0002809643850000061
所述重要度分值的计算公式为:
wi=(1-d)+d*s*wi′
其中,wi为目标语句集中第i个句子的重要度分值,d为阻尼系数(取值范围为0~1,一般取值为0.85),s为目标语句集对应的相似度矩阵,wi′为目标语句集中第i个句子前一次迭代得到的重要度分值。
本实施例中,各个句子的初始重要度分值为1,根据上述重要度分值计算公式迭代传播计算各句子最终的重要度得分,当任意一个句子的误差率小于给定的极限值(例如,0.0001)时达到收敛。
本实施例中,可采用余弦相似度、欧氏距离、曼哈顿距离及明可夫斯基距离算法来计算各个组合对中两个句子的相似度值。
在判断所述目标语句集中的句子数量是否大于第一阈值之后,所述方法还包括:
若判断所述目标语句集中的句子数量小于或等于第一阈值,则确定所述待压缩语句的语句类型,从第二数据库中获取所述语句类型对应的抽取规则,基于所述抽取规则从所述目标语句集中抽取语句,将抽取的语句拼接,得到关键语句。
本实施例中,当目标语句集中的句子数量小于第一阈值(例如,5)时,先确定待压缩语句的语句类型,所述语句类型包括提问句型、回答句型及陈述句型,第二数据库中预先存储了各种语句类型对应的抽取规则,例如,提问句型对应的抽取规则可以是抽取目标语句集合位于待压缩语句末尾的两个句子,回答句型对应的抽取规则可以是抽取目标语句集合中位于待压缩语句首尾的两个句子,叙述句型可以是抽取目标语句集合中位于待压缩语句首尾、中间的三个句子。
本实施例中不对抽取规则进行限制,用户可根据具体场景设置对应的抽取规则。
将抽取的语句按照其在待压缩语句中的顺序进行拼接,得到关键语句。
S3、当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
本实施例中,所述抽取所述关键语句的主干词语包括:
C11、对所述关键语句执行分词处理,得到第三词语序列;
C12、依次识别所述第三词语序列中每个词语的词性,基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,基于所述句法结构提取所述第三词语序列中的主干词语。
本实施例中,所述词性包括名词、动词、形容词、介词、否定词、副词、助词等。
所述预设句法分析策略为依存句法分析,所述基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,包括:
D11、基于所述词性确定所述第三词语序列中的核心词;
通常情况下,动词为核心词(一个句子中通常只有一个动词)。
D12、确定所述第三词语序列中各个词语间的从属关系;
例如,若关键语句为:我吃了一个大苹果,则第三词语序列为{我,吃,了,一个,大,苹果},其核心词为“吃”。
分析从属关系时,“一个”从属于“苹果”,“大”也从属于“苹果”。
D13、依据所述核心词及从属关系确定所述第三词语序列的句法结构。
所述句法结构包括:主谓关系、动宾关系、间宾关系、前置宾语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系及右附加关系。
第三词语序列{我,吃,了,一个,大,苹果}对应的句法结构为{2:主谓关系,6:动宾关系,2:动补关系,6,定中关系,6:定中关系,2:动宾关系}。
根据上述句法结构抽取出的主干词语为“我”、“吃”、“苹果”。
本实施例中,在判断所述关键语句的句长是否大于第二阈值之后,所述方法还包括:
若判断所述关键语句的句长小于或等于第二阈值,则将所述关键语句作为目标语句。
由上述实施例可知,本发明提出的语句压缩方法,首先,对待压缩语句执行去口语化处理,得到目标语句集,该步骤通过执行去口语化处理,剔除了待压缩语句中无语义信息的口语化句子、口语化词语,实现了对待压缩语句的初步压缩;然后,当判断目标语句集中的句子数量大于第一阈值时,将目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,该步骤通过重要度排序抽取到了待压缩语句中的关键语句,进一步剔除了冗余信息,保留了待压缩语句的语义信息;最后,当判断关键语句的句长大于第二阈值时,抽取关键语句的主干词语,拼接主干词语,得到目标语句,本步骤通过抽取关键语句的主干词语,进一步剔除了多余词语,保证了目标语句的语义准确性,同时,本发明不需要标注样本。因此,本发明降低了标注成本、保证了压缩后语句的语义准确性。
如图2所示,为本发明一实施例提供的语句压缩装置的模块示意图。
本发明所述语句压缩装置100可以安装于电子设备中。根据实现的功能,所述语句压缩装置100可以包括解析模块110、排序模块120及抽取模块130。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
解析模块110,用于解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值。
所述对所述待压缩语句执行去口语化处理,包括:
A21、从第一数据库中获取口语语句词典,将所述待压缩语句中的每个第一子句与所述口语语句词典进行比对,若某一指定第一子句与所述口语语句词典中的一个语句匹配,则删除所述指定第一子句,得到初始语句集;
A22、对所述初始语句集中的句子执行分词处理,得到第一词语序列;
本实施例中,可采用统计概率模型或/和基于N-gram语言模型的分词方法对初始语句集中的句子进行分词。
A23、基于口语词语识别模型识别所述第一词语序列中的口语词语,删除所述口语词语,得到第二词语序列;
本实施例中,所述口语词语识别模型为深度神经网络模型,所述深度神经网络模型识别出第一词语序列中每个词语的词性标签,基于词性标签剔除口语(语气词等)。
A24、按照各个词语在所述待压缩语句中的位置将所述第二词语序列中的词语拼接得到多个第二子句,将所述多个第二子句的集合作为目标语句集。
本实施例中,所述待压缩语句为由多个句子组成的长句,所述口语语句词典中存储了多个无语义信息的口水话语句。
例如,若待压缩语句为“额,这些我都知道,我能借的都借了。我每个月15号才发工资。额,我只能等15号发工资。每个月15号发工资还。没办法。”
将口水句“这些我都知道”、语气词“额”去掉后剩余的句子的集合作为目标语句集。
排序模块120,用于当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值。
本实施例中,所述第一阈值可以是5。
所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
B21、将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
B22、计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
B23、基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
假设目标语句集中各个组合对对应的相似度值如上表1所示。
则目标语句集对应的相似度矩阵为
Figure BDA0002809643850000091
所述重要度分值的计算公式为:
wi=(1-d)+d*s*wi′
其中,wi为目标语句集中第i个句子的重要度分值,d为阻尼系数(取值范围为0~1,一般取值为0.85),s为目标语句集对应的相似度矩阵,wi′为目标语句集中第i个句子前一次迭代得到的重要度分值。
本实施例中,各个句子的初始重要度分值为1,根据上述重要度分值计算公式迭代传播计算各句子最终的重要度得分,当任意一个句子的误差率小于给定的极限值(例如,0.0001)时达到收敛。
本实施例中,可采用余弦相似度、欧氏距离、曼哈顿距离及明可夫斯基距离算法来计算各个组合对中两个句子的相似度值。
在判断所述目标语句集中的句子数量是否大于第一阈值之后,所述排序模块120还用于:
若判断所述目标语句集中的句子数量小于或等于第一阈值,则确定所述待压缩语句的语句类型,从第二数据库中获取所述语句类型对应的抽取规则,基于所述抽取规则从所述目标语句集中抽取语句,将抽取的语句拼接,得到关键语句。
本实施例中,当目标语句集中的句子数量小于第一阈值(例如,5)时,先确定待压缩语句的语句类型,所述语句类型包括提问句型、回答句型及陈述句型,第二数据库中预先存储了各种语句类型对应的抽取规则,例如,提问句型对应的抽取规则可以是抽取目标语句集合位于待压缩语句末尾的两个句子,回答句型对应的抽取规则可以是抽取目标语句集合中位于待压缩语句首尾的两个句子,叙述句型可以是抽取目标语句集合中位于待压缩语句首尾、中间的三个句子。
本实施例中不对抽取规则进行限制,用户可根据具体场景设置对应的抽取规则。
将抽取的语句按照其在待压缩语句中的顺序进行拼接,得到关键语句。
抽取模块130,用于当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
本实施例中,所述抽取所述关键语句的主干词语包括:
C21、对所述关键语句执行分词处理,得到第三词语序列;
C22、依次识别所述第三词语序列中每个词语的词性,基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,基于所述句法结构提取所述第三词语序列中的主干词语。
本实施例中,所述词性包括名词、动词、形容词、介词、否定词、副词、助词等。
所述预设句法分析策略为依存句法分析,所述基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,包括:
D21、基于所述词性确定所述第三词语序列中的核心词;
通常情况下,动词为核心词(一个句子中通常只有一个动词)。
D22、确定所述第三词语序列中各个词语间的从属关系;
例如,若关键语句为:我吃了一个大苹果,则第三词语序列为{我,吃,了,一个,大,苹果},其核心词为“吃”。
分析从属关系时,“一个”从属于“苹果”,“大”也从属于“苹果”。
D23、依据所述核心词及从属关系确定所述第三词语序列的句法结构。
所述句法结构包括:主谓关系、动宾关系、间宾关系、前置宾语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系及右附加关系。
第三词语序列{我,吃,了,一个,大,苹果}对应的句法结构为{2:主谓关系,6:动宾关系,2:动补关系,6,定中关系,6:定中关系,2:动宾关系}。
根据上述句法结构抽取出的主干词语为“我”、“吃”、“苹果”。
本实施例中,在判断所述关键语句的句长是否大于第二阈值之后,所述抽取模块130还用于:
若判断所述关键语句的句长小于或等于第二阈值,则将所述关键语句作为目标语句。
由上述实施例可知,本发明提出的语句压缩装置100,首先,对待压缩语句执行去口语化处理,得到目标语句集,该步骤通过执行去口语化处理,剔除了待压缩语句中无语义信息的口语化句子、口语化词语,实现了对待压缩语句的初步压缩;然后,当判断目标语句集中的句子数量大于第一阈值时,将目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,该步骤通过重要度排序抽取到了待压缩语句中的关键语句,进一步剔除了冗余信息,保留了待压缩语句的语义信息;最后,当判断关键语句的句长大于第二阈值时,抽取关键语句的主干词语,拼接主干词语,得到目标语句,本步骤通过抽取关键语句的主干词语,进一步剔除了多余词语,保证了目标语句的语义准确性,同时,本发明不需要标注样本。因此,本发明降低了标注成本、保证了压缩后语句的语义准确性。
如图3所示,为本发明一实施例提供的实现语句压缩方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过***总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有语句压缩程序10,所述语句压缩程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及语句压缩程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作***和各类应用软件,例如存储本发明一实施例中的语句压缩程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行语句压缩程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的语句压缩程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值;
当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值;
当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
具体地,所述处理器12对上述语句压缩程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有语句压缩程序10,所述语句压缩程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述语句压缩方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种语句压缩方法,其特征在于,所述方法包括:
解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值;
当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值;
当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
2.如权利要求1所述的语句压缩方法,其特征在于,所述对所述待压缩语句执行去口语化处理,包括:
从第一数据库中获取口语语句词典,将所述待压缩语句中的每个第一子句与所述口语语句词典进行比对,若某一指定第一子句与所述口语语句词典中的一个语句匹配,则删除所述指定第一子句,得到初始语句集;
对所述初始语句集中的句子执行分词处理,得到第一词语序列;
基于口语词语识别模型识别所述第一词语序列中的口语词语,删除所述口语词语,得到第二词语序列;
按照各个词语在所述待压缩语句中的位置将所述第二词语序列中的词语拼接得到多个第二子句,将所述多个第二子句的集合作为目标语句集。
3.如权利要求1所述的语句压缩方法,其特征在于,所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
4.如权利要求1所述的语句压缩方法,其特征在于,在判断所述目标语句集中的句子数量是否大于第一阈值之后,所述方法还包括:
若判断所述目标语句集中的句子数量小于或等于第一阈值,则确定所述待压缩语句的语句类型,从第二数据库中获取所述语句类型对应的抽取规则,基于所述抽取规则从所述目标语句集中抽取语句,将抽取的语句拼接,得到关键语句。
5.如权利要求1所述的语句压缩方法,其特征在于,所述抽取所述关键语句的主干词语包括:
对所述关键语句执行分词处理,得到第三词语序列;
依次识别所述第三词语序列中每个词语的词性,基于所述词性及预设句法分析策略确定所述第三词语序列的句法结构,基于所述句法结构提取所述第三词语序列中的主干词语。
6.如权利要求1-5任一项所述的语句压缩方法,其特征在于,在判断所述关键语句的句长是否大于第二阈值之后,所述方法还包括:
若判断所述关键语句的句长小于或等于第二阈值,则将所述关键语句作为目标语句。
7.一种语句压缩装置,其特征在于,所述装置包括:
解析模块,用于解析用户基于客户端发出的语句压缩请求,获取所述请求携带的待压缩语句,对所述待压缩语句执行去口语化处理,得到目标语句集,判断所述目标语句集中的句子数量是否大于第一阈值;
排序模块,用于当判断所述目标语句集中的句子数量大于第一阈值时,将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,判断所述关键语句的句长是否大于第二阈值;
抽取模块,用于当判断所述关键语句的句长大于第二阈值时,抽取所述关键语句的主干词语,拼接所述主干词语,得到目标语句。
8.如权利要求7所述的语句压缩装置,其特征在于,所述将所述目标语句集中的句子进行重要度排序,基于排序结果抽取关键语句,包括:
将所述目标语句集中的各个句子分别与其它的句子两两组合,得到多个组合对;
计算所述多个组合对中每个组合对的两个句子的相似度值,基于所述相似度值确定所述目标语句集对应的相似度矩阵;
基于所述相似度矩阵计算所述目标语句集中各个句子的重要度分值,按照重要度分值从高到低的顺序对所述目标语句集中的句子进行排序,将排序最前的句子作为关键语句。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的语句压缩程序,所述语句压缩程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的语句压缩方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语句压缩程序,所述语句压缩程序可被一个或者多个处理器执行,以实现如权利要求1至6任一项所述的语句压缩方法。
CN202011386421.4A 2020-12-01 2020-12-01 语句压缩方法、装置、电子设备及可读存储介质 Pending CN112434515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386421.4A CN112434515A (zh) 2020-12-01 2020-12-01 语句压缩方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386421.4A CN112434515A (zh) 2020-12-01 2020-12-01 语句压缩方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112434515A true CN112434515A (zh) 2021-03-02

Family

ID=74697605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386421.4A Pending CN112434515A (zh) 2020-12-01 2020-12-01 语句压缩方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112434515A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成***及方法
CN107451139A (zh) * 2016-05-30 2017-12-08 北京三星通信技术研究有限公司 文件资源展示方法、装置及相应智能设备
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN111444703A (zh) * 2020-03-04 2020-07-24 中国平安人寿保险股份有限公司 语句压缩方法、装置、设备及计算机可读存储介质
US20200312297A1 (en) * 2019-03-28 2020-10-01 Wipro Limited Method and device for extracting factoid associated words from natural language sentences

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成***及方法
CN107451139A (zh) * 2016-05-30 2017-12-08 北京三星通信技术研究有限公司 文件资源展示方法、装置及相应智能设备
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
US20200312297A1 (en) * 2019-03-28 2020-10-01 Wipro Limited Method and device for extracting factoid associated words from natural language sentences
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN111444703A (zh) * 2020-03-04 2020-07-24 中国平安人寿保险股份有限公司 语句压缩方法、装置、设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘文锋: "基于表示学习和依存句法的自动文本摘要方法研究", 《中国博士学位论文全文数据库 信息科技辑》, 15 August 2020 (2020-08-15) *
吴仁守: "基于文本结构信息的短文本摘要生成研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 April 2020 (2020-04-15), pages 2 *
吴玉林: "基于主题模型的多文档自动文摘技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 June 2020 (2020-06-15), pages 9 - 11 *

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN111460787B (zh) 一种话题提取方法、装置、终端设备及存储介质
JP5936698B2 (ja) 単語意味関係抽出装置
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
WO2022078308A1 (zh) 裁判文书摘要生成方法、装置、电子设备及可读存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
CN108427702B (zh) 目标文档获取方法及应用服务器
CN112541056B (zh) 医学术语标准化方法、装置、电子设备及存储介质
US11170169B2 (en) System and method for language-independent contextual embedding
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN109885641A (zh) 一种数据库中文全文检索的方法及***
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
EP3425531A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN114969385B (zh) 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN109241281B (zh) 软件失效原因生成方法、装置及设备
WO2022141860A1 (zh) 文本去重方法、装置、电子设备及计算机可读存储介质
CN114398877A (zh) 基于人工智能的主题提取方法、装置、电子设备及介质
CN112434515A (zh) 语句压缩方法、装置、电子设备及可读存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination