CN112765963A

CN112765963A - 语句分词方法、装置、计算机设备及存储介质

Info

Publication number: CN112765963A
Application number: CN202011626763.9A
Authority: CN
Inventors: 余勇; 谢永恒; 石志中
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07

Abstract

本发明公开了一种语句分词方法、装置、计算机设备及存储介质。该方法包括：获取目标语句；根据预设词典和目标语句确定第一词语和第二词语，根据第一词语确定前缀树，第一词语为目标语句中记载于预设词典的词语，第二词语为未记载于预设词典的词语；根据前缀树确定第一有向无环图；根据第二词语和第一有向无环图确定第二有向无环图；根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。目标路径可以为第二有向无环图的优选路径，进而得到优选的分词方式，提高分词准确性。

Description

语句分词方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种语句分词方法、装置、计算机设备及存储介质。

背景技术

随着信息产业的发展，人们的生活进入信息***的时代。在信息***的时代，由人工进行信息查找显然无法满足海量的信息处理需求。

目前，采用机器识别的方式对语句进行分词。在由机器对语句进行自动分词时，由于汉语的单子与词组均可以作为独立的词语进行分词，因此常出现自动分词错误的问题。如何提高自动分词的准确性成为亟待解决的问题。

发明内容

本发明提供一种语句分词方法、装置、计算机设备及存储介质，以实现提高语句分词准确性。

第一方面，本发明实施例提供了一种语句分词方法，包括：

获取目标语句；

根据预设词典和目标语句确定第一词语和第二词语，根据第一词语确定前缀树，第一词语为目标语句中记载于预设词典的词语，第二词语为未记载于预设词典的词语；

根据前缀树确定第一有向无环图；

根据第二词语和第一有向无环图确定第二有向无环图；

根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。

第二方面，本发明实施例还提供了一种语句分词装置，包括：

目标语句获取模块，用于获取目标语句；

词语确定模块，用于根据预设词典和目标语句确定第一词语和第二词语，第一词语为目标语句中记载于预设词典的词语，第二词语为未记载于预设词典的词语；

前缀树确定模块，用于根据第一词语确定前缀树，

第一有向无环图确定模块，用于根据前缀树确定第一有向无环图；

第二有向无环图确定模块，用于根据第二词语和第一有向无环图确定第二有向无环图；

目标路径确定模块，用于根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如本申请实施例所示的语句分词方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的语句分词方法。

本发明实施例提供的语句分词方法，能够获取目标语句；根据预设词典和目标语句确定记载于预设词典的第一词语和未记载于预设词典的第二词语，根据第一词语确定前缀树；根据前缀树确定第一有向无环图；根据第二词语和第一有向无环图确定第二有向无环图；根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。相对于目前无法准确的进行语句分词，分词准确性低的问题，本发明实施例能够基于预设词典从目标语句中确定记载于预设词典的第一词语，根据第一词语确定前缀树，并根据前缀树确定第一有向无环图。使用目标语句中预设词典未记载的第二词语对第一有向无环图进行优化，得到包含第一词语和第二词语的第二有向无环图，利用第二有向无环图计算得到的目标路径即可表示目标语句的分词方式，目标路径可以为第二有向无环图的优选路径，进而得到优选的分词方式，提高分词准确性。

附图说明

图1是本发明实施例一中的语句分词方法的流程图；

图2是本发明实施例二中的语句分词装置的结构示意图；

图3是本发明实施例三中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的语句分词方法的流程图，本实施例可适用于对语句进行分词的情况，该方法可以由计算机设备来执行，计算机设备可以为个人电脑或终端，终端可以为智能手机、平板电脑等。该方法具体包括如下步骤：

步骤110、获取目标语句。

目标语句为进行分词的语句，通过执行本发明实施例提供的方法，确定目标语句的分词方式。目标语句包括中文词语和标点。在一种实现方式中，用户可以每次输入一个语句作为目标语句。

在另一种实现方式中，用户可以将某个包含多个语句的文件作为输入。计算机设备读取该文件后，自动的从该文件中识别出目标语句。示例性的，获取目标语句可通过下述方式实施：

步骤1.1、接收用户输入的目标文件。用户可以将某个文本格式的文件，如txt结尾的文件，作为目标文件进行输入。计算机设备通过目标文件的地址读取目标文件。

步骤1.2、获取目标文件中的多个语句。

根据预设标点符号对目标文件中的语句进行识别。例如，预设标点符号为句号，则从目标文件的起始位置至第一个句号的内容，作为第一个语句。从第一个句号至第二个句号的内容作为第二个语句。以此类推，得到目标文件中的多个语句。

步骤1.3、依次将多个语句中的一个语句作为目标语句。

从第一个语句开始，依次将得到的多个语句作为目标语句。可以通过并行任务同时对多个语句进行处理。

计算机设备通过自动识别目标文件，得到目标语句，能够降低用户操作复杂度，减少用户人工成本。用户指定目标文件后，计算机设备便可自动的识别出目标语句，提高语句识别效率。

步骤120、根据预设词典和目标语句确定第一词语和第二词语，根据第一词语确定前缀树。

其中，第一词语为目标语句中记载于预设词典的词语，第二词语为未记载于预设词典的词语。

预设词典中记载有预先输入的词语，可以由用户预先录入。预设词典中包含单字、词语以及短语等。可以将具有含义的单字或词语记载到预设词典中。预设词典为计算机可读文件，可以通过查询的方式在预设词典中查找某个词语。

示例性的，根据预设词典和目标语句确定第一词语，可通过下述方式实施：

根据字符位置确定目标字符；

根据目标字符和目标语句确定至少一个目标词语；

若目标词语记载于预设词典，则目标词语为第一词语；

字符位置可以从0开始，目标语句的第一个字对应字符位置0，第二个字对应字符位置1。对于任意一个字符位置，以该字符位置为起始，以该字符位置之后的字符为终止，得到目标字符。示例性的，对于任意一个字符位置A，将字符位置A对应的目标字符a和字符位置A+1对应的组合字符b的组合作为目标词语，即目标字符a+组合字符b。将字符位置A对应的目标字符a、字符位置A+1对应的组合字符b以及字符位置A+2对应的组合字符c的组合作为目标词语，即目标字符a+组合字符b+组合字符c。以此类推，得到每个字符位置对应的多个目标词语。例如，若目标语句的开头为“中华人民”，则字符位置A对应的目标字符a为“中”，字符位置A+1对应的组合字符b为“华”，字符位置A+2对应的组合字符c为“人”，字符位置A+3对应的组合字符d为“民”。以“中”为目标字符，得到的目标词语为“中”、“中华”、“中华人”和“中华人民”。

在预设词典中依次查找每个目标词语。如果在预设词典中查找到目标词语，则目标词语记载于预设词典，将目标词语确定为第一词语。

假设“中华人民”在预设词典中包括“中”、“中华”和“中华人民”，则将“中”、“中华”和“中华人民”确定为第一词语。

相应的，根据第一词语确定前缀树，包括：

根据第一词语确定字符位置对应的前缀树。

分别对每个字符位置建立一个前缀树(trie树)，如果字符位置上的目标字符位于预设词典中，则可以建立该字符位置对应的前缀树。

通过查找预设词典能够对目标语句中每个单字进行查中，当预设词典中包含该单字时，可建立该单字为根节点的前缀树。以单字为基础，确定多个目标词语后，判断记载于预设词典中的目标词语，将记载于预设词典中的目标词语作为第一词语，并将第一词语添加到相应根节点的前缀树中。

进一步的，若目标字符未记载于预设词典，则将目标字符确定为第二词语。

对于目标语句中的单字，可能未记载于预设词典中。此时，在预设词典中无法查询到目标字符。此时，将该目标字符确定为第二词语。

除了单字未记载于预设词典之外，一些外国人名翻译为中文后，其作为一个词语，未记载于目标词典中。进一步的，若目标字符未记载于预设词典，且与目标字符相邻的至少一个字符也未记载于预设词典，则根据目标字符和相邻的至少一个字符确定第二词语。

如果目标字符未记载于预设词典，且目标字符之后连续一个或多个字符所组成的词语也未记载于预设词典，则将目标字符以及和相邻的至少一个字符组合为第二词语。

步骤130、根据前缀树确定第一有向无环图。

根据步骤120中建立的前缀树，构造第一有向无环图(Directed acyclic graph，DAG)。将目标语句中前缀树依次排列，得到目标语句的第一有向无环图。

步骤140、根据第二词语和第一有向无环图确定第二有向无环图。

若目标语句中不存在第二词语，即目标语句中全部目标字符均记载于预设词典，则此时第二词语为却声响，可以将第一有向无环图作为第二有向无环图。

若目标语句中存在第二词语，则可根据第二词语和第一有向无环图确定隐马尔可夫模型(Hidden Markov Model，HMM)。

步骤150、根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。

可选的，根据维特比Viterbi算法，计算隐马尔可夫模型HMM的目标路径。

维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在隐马尔可夫模型中。可以通过维特比算法计算维特比路径，将维特比路径作为目标路径。

实施例二

图2为本发明实施例二提供的语句分词装置的结构示意图，本实施例可适用于对语句进行分词的情况，该装置可以位于计算机设备，计算机设备可以为个人电脑或终端，终端可以为智能手机、平板电脑等。该装置具体包括：目标语句获取模块210、词语确定模块220、前缀树确定模块230、第一有向无环图确定模块240、第二有向无环图确定模块250以及目标路径确定模块260。

目标语句获取模块210，用于获取目标语句；

词语确定模块220，用于根据预设词典和目标语句确定第一词语和第二词语，第一词语为目标语句中记载于预设词典的词语，第二词语为未记载于预设词典的词语；

前缀树确定模块230，用于根据第一词语确定前缀树，

第一有向无环图确定模块240，用于根据前缀树确定第一有向无环图；

第二有向无环图确定模块250，用于根据第二词语和第一有向无环图确定第二有向无环图；

目标路径确定模块260，用于根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。

在上述实施方式的基础上，目标语句获取模块210用于：

接收用户输入的目标文件；

获取目标文件中的多个语句；

依次将多个语句中的一个语句作为目标语句。

在上述实施方式的基础上，词语确定模块220用于：

根据字符位置确定目标字符；

根据目标字符和目标语句确定至少一个目标词语；

若目标词语记载于预设词典，则目标词语为第一词语；

相应的，前缀树确定模块230用于：

根据第一词语确定字符位置对应的前缀树。

在上述实施方式的基础上，词语确定模块220用于：

若目标字符未记载于预设词典，则将目标字符确定为第二词语。

在上述实施方式的基础上，词语确定模块220用于：

若目标字符未记载于预设词典，且与目标字符相邻的至少一个字符也未记载于预设词典，则根据目标字符和相邻的至少一个字符确定第二词语。

在上述实施方式的基础上，第二有向无环图确定模块250用于：

根据第二词语和第一有向无环图确定隐马尔可夫模型HMM。

在上述实施方式的基础上，目标路径确定模块260用于：

根据维特比Viterbi算法，计算隐马尔可夫模型HMM的目标路径。

本发明实施例提供的语句分词装置，目标语句获取模块210能够获取目标语句；词语确定模块220根据预设词典和目标语句确定记载于预设词典的第一词语和未记载于预设词典的第二词语，前缀树确定模块230根据第一词语确定前缀树；第一有向无环图确定模块240根据前缀树确定第一有向无环图；第二有向无环图确定模块250根据第二词语和第一有向无环图确定第二有向无环图；目标路径确定模块260根据第二有向无环图确定目标路径，目标路径用于表示目标语句的分词方式。相对于目前无法准确的进行语句分词，分词准确性低的问题，本发明实施例能够基于预设词典从目标语句中确定记载于预设词典的第一词语，根据第一词语确定前缀树，并根据前缀树确定第一有向无环图。使用目标语句中预设词典未记载的第二词语对第一有向无环图进行优化，得到包含第一词语和第二词语的第二有向无环图，利用第二有向无环图计算得到的目标路径即可表示目标语句的分词方式，目标路径可以为第二有向无环图的优选路径，进而得到优选的分词方式，提高分词准确性。

本发明实施例所提供的语句分词装置可执行本发明任意实施例所提供的语句分词方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种计算机设备的结构示意图，如图3所示，该计算机设备包括处理器30、存储器31、输入装置32和输出装置33；计算机设备中处理器30的数量可以是一个或多个，图3中以一个处理器30为例；计算机设备中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语句分词方法对应的程序指令/模块(例如，目标语句获取模块210、词语确定模块220、前缀树确定模块230、第一有向无环图确定模块240、第二有向无环图确定模块250以及目标路径确定模块260)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的语句分词方法。

存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种语句分词方法，该方法包括：

获取目标语句；

根据前缀树确定第一有向无环图；

根据第二词语和第一有向无环图确定第二有向无环图；

在上述实施方式的基础上，根据目标文件确定目标语句，包括：

接收用户输入的目标文件；

获取目标文件中的多个语句；

依次将多个语句中的一个语句作为目标语句。

在上述实施方式的基础上，根据预设词典和目标语句确定第一词语，包括：

根据字符位置确定目标字符；

根据目标字符和目标语句确定至少一个目标词语；

若目标词语记载于预设词典，则目标词语为第一词语；

相应的，根据第一词语确定前缀树，包括：

根据第一词语确定字符位置对应的前缀树。

在上述实施方式的基础上，在根据字符位置确定目标字符之后，还包括：

在上述实施方式的基础上，若目标字符未记载于预设词典，则将目标字符确定为第二词语，包括：

在上述实施方式的基础上，根据第二词语和第一有向无环图确定第二有向无环图，包括：

根据第二词语和第一有向无环图确定隐马尔可夫模型HMM。

在上述实施方式的基础上，根据第二有向无环图确定目标路径，包括：

根据维特比Viterbi算法，计算隐马尔可夫模型HMM的目标路径。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的语句分词方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语句分词方法，其特征在于，包括：

获取目标语句；

根据预设词典和所述目标语句确定第一词语和第二词语，根据所述第一词语确定前缀树，所述第一词语为所述目标语句中记载于所述预设词典的词语，所述第二词语为未记载于所述预设词典的词语；

根据所述前缀树确定第一有向无环图；

根据所述第二词语和所述第一有向无环图确定第二有向无环图；

根据第二有向无环图确定目标路径，所述目标路径用于表示所述目标语句的分词方式。

2.根据权利要求1所述的方法，其特征在于，所述根据目标文件确定目标语句，包括：

接收用户输入的目标文件；

获取所述目标文件中的多个语句；

依次将所述多个语句中的一个语句作为目标语句。

3.根据权利要求1所述的方法，其特征在于，所述根据预设词典和所述目标语句确定第一词语，包括：

根据字符位置确定目标字符；

根据所述目标字符和所述目标语句确定至少一个目标词语；

若所述目标词语记载于预设词典，则所述目标词语为第一词语；

相应的，所述根据所述第一词语确定前缀树，包括：

根据所述第一词语确定所述字符位置对应的前缀树。

4.根据权利要求3所述的方法，其特征在于，在根据字符位置确定目标字符之后，还包括：

若所述目标字符未记载于所述预设词典，则将所述目标字符确定为第二词语。

5.根据权利要求4所述的方法，其特征在于，所述若所述目标字符未记载于所述预设词典，则将所述目标字符确定为第二词语，包括：

若所述目标字符未记载于所述预设词典，且与所述目标字符相邻的至少一个字符也未记载于所述预设词典，则根据所述目标字符和所述相邻的至少一个字符确定第二词语。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二词语和所述第一有向无环图确定第二有向无环图，包括：

根据所述第二词语和所述第一有向无环图确定隐马尔可夫模型HMM。

7.根据权利要求6所述的方法，其特征在于，所述根据第二有向无环图确定目标路径，包括：

根据维特比Viterbi算法，计算所述隐马尔可夫模型HMM的目标路径。

8.一种语句分词装置，其特征在于，包括：

目标语句获取模块，用于获取目标语句；

词语确定模块，用于根据预设词典和所述目标语句确定第一词语和第二词语，所述第一词语为所述目标语句中记载于所述预设词典的词语，所述第二词语为未记载于所述预设词典的词语；

前缀树确定模块，用于根据所述第一词语确定前缀树，

第一有向无环图确定模块，用于根据所述前缀树确定第一有向无环图；

第二有向无环图确定模块，用于根据所述第二词语和所述第一有向无环图确定第二有向无环图；

目标路径确定模块，用于根据第二有向无环图确定目标路径，所述目标路径用于表示所述目标语句的分词方式。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的语句分词方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语句分词方法。