CN114492426B - 子词切分方法、模型训练方法、装置和电子设备 - Google Patents

子词切分方法、模型训练方法、装置和电子设备 Download PDF

Info

Publication number
CN114492426B
CN114492426B CN202111656289.9A CN202111656289A CN114492426B CN 114492426 B CN114492426 B CN 114492426B CN 202111656289 A CN202111656289 A CN 202111656289A CN 114492426 B CN114492426 B CN 114492426B
Authority
CN
China
Prior art keywords
state
probability
candidate
target
text sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111656289.9A
Other languages
English (en)
Other versions
CN114492426A (zh
Inventor
柴业坤
王硕寰
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111656289.9A priority Critical patent/CN114492426B/zh
Publication of CN114492426A publication Critical patent/CN114492426A/zh
Application granted granted Critical
Publication of CN114492426B publication Critical patent/CN114492426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种子词切分方法、模型训练方法、装置和电子设备,涉及人工智能技术领域,尤其涉及自然语言处理、深度学习技术领域。具体实现方案为:获取待切分的文本序列,其中,文本序列包括多个元素;获取初始状态概率、观测概率和状态转移概率,其中,候选状态用于表征元素是否为切分边界;根据初始状态概率、观测概率和状态转移概率,从候选状态中确定元素的目标状态;根据元素的目标状态,对文本序列进行切分,得到多个子词。由此,可考虑到元素的上下文和相邻元素之间的转移关系实现子词切分,可消除相关子词切分技术中相邻元素之间的独立性假设,适用于任意语言或领域的文本序列的子词切分,泛化性较好。

Description

子词切分方法、模型训练方法、装置和电子设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种子词切分方法、模型训练方法、装置、电子设备、存储介质和计算机程序产品。
背景技术
目前,随着人工智能技术的发展,语言模型在语音识别、语音交互、语音合成等领域得到了广泛应用,比如,同声传译场景中,可通过语言模型将演讲者发出的语音翻译成设定语言类别的文本,以及合成设定语言类别的语音,并通过设备播放合成的语音。语言模型需要词表进行训练,词表大多基于子词切分方法得到,然而,相关技术中的子词切分方法存在泛化性差的问题。
发明内容
本公开提供了一种子词切分方法、模型训练方法、装置、电子设备、存储介质和计算机程序产品。
根据本公开的一方面,提供了一种子词切分方法,包括:获取待切分的文本序列,其中,所述文本序列包括多个元素;获取每个候选状态下的初始状态概率、每个所述候选状态下的每个所述元素的观测概率、任意相邻两个所述元素的所述候选状态之间的状态转移概率,其中,所述候选状态用于表征所述元素是否为切分边界;根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态;根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,其中,所述子词包括至少一个所述元素。
根据本公开的另一方面,提供了一种模型训练方法,包括:获取样本文本序列,其中,所述样本文本序列包括多个样本元素;根据所述样本文本序列训练概率图模型,对所述概率图模型的模型参数进行更新,其中,所述概率图模型用于输出每个候选状态下的训练初始状态概率、每个所述候选状态下的每个所述样本元素的训练观测概率、任意相邻两个所述样本元素的所述候选状态之间的训练状态转移概率,其中,所述候选状态用于表征所述样本元素是否为切分边界;在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的所述概率图模型进行训练,直至满足所述模型训练结束条件,生成训练好的所述概率图模型。
根据本公开的另一方面,提供了一种子词切分装置,包括:第一获取模块,用于获取待切分的文本序列,其中,所述文本序列包括多个元素;第二获取模块,用于获取每个候选状态下的初始状态概率、每个所述候选状态下的每个所述元素的观测概率、任意相邻两个所述元素的所述候选状态之间的状态转移概率,其中,所述候选状态用于表征所述元素是否为切分边界;确定模块,用于根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态;切分模块,用于根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,其中,所述子词包括至少一个所述元素。
根据本公开的另一方面,提供了一种模型训练装置,包括:获取模块,用于获取样本文本序列,其中,所述样本文本序列包括多个样本元素;训练模块,用于根据所述样本文本序列训练概率图模型,对所述概率图模型的模型参数进行更新,其中,所述概率图模型用于输出每个候选状态下的训练初始状态概率、每个所述候选状态下的每个所述样本元素的训练观测概率、任意相邻两个所述样本元素的所述候选状态之间的训练状态转移概率,其中,所述候选状态用于表征所述样本元素是否为切分边界;所述训练模块,还用于在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的所述概率图模型进行训练,直至满足所述模型训练结束条件,生成训练好的所述概率图模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行子词切分方法,或者执行模型训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行子词切分方法,或者执行模型训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现子词切分方法的步骤,或者实现模型训练方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的子词切分方法的流程示意图;
图2是根据本公开第二实施例的子词切分方法中的状态路径的示意图;
图3是根据本公开第三实施例的子词切分方法的流程示意图;
图4是根据本公开第四实施例的子词切分方法的流程示意图;
图5是根据本公开第五实施例的子词切分方法的流程示意图;
图6是根据本公开第六实施例的子词切分方法中的状态路径的示意图;
图7是根据本公开第一实施例的模型训练方法的流程示意图;
图8是根据本公开第一实施例的子词切分装置的框图;
图9是根据本公开第二实施例的模型训练装置的框图;
图10是用来实现本公开实施例的子词切分方法和/或模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
NLU(Natural Language Processing,自然语言处理)是研究能有效地实现自然语言通信的计算机***,特别是其中的软件***的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。
DL(Deep Learning,深度学习)是ML(Machine Learning,机器学习)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。
图1是根据本公开第一实施例的子词切分方法的流程示意图。
如图1所示,本公开第一实施例的子词切分方法,包括:
S101,获取待切分的文本序列,其中,文本序列包括多个元素。
需要说明的是,本公开实施例的子词切分方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
本公开的实施例中,可获取待切分的文本序列,其中,文本序列包括多个元素。应说明的是,对文本序列的获取方式不做过多限定,比如,可对文本进行编码得到文本序列。对文本的语言类型、是否需要空格进行分隔等均不做过多限定,比如,文本包括但不限于中文、日文、英文、韩文等。对文本序列包括的元素数量不做过多限定,比如,文本序列可包括10个元素。对元素的数据量不做过多限定,比如,元素的数据量可为一个字节。
在一种实施方式中,元素可由至少一个数字组成,比如,元素可由0和/或1的数字组成。比如,元素的数据量为一个字节时,元素可为10100101。
例如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,其中,n为正整数,其中,元素x1=11100100,x2=10111000,x3=10111000,其余元素的取值这里不再赘述。
S102,获取每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,其中,候选状态用于表征元素是否为切分边界。
本公开的实施例中,候选状态可自行设定,候选状态用于表征元素是否为切分边界。应说明的是,对候选状态的类别、数量等均不做过多限定。
本公开的实施例中,可获取每个候选状态下的初始状态概率。比如,初始状态概率可为虚拟起始元素和文本序列中的第一个元素之间的状态转移概率,虚拟起始元素位于所述第一个元素之前。可以理解的是,不同候选状态下的初始状态概率可能不同。
本公开的实施例中,可获取每个候选状态下的每个元素的观测概率。可以理解的是,每个候选状态下的不同元素的观测概率可能不同,不同候选状态下的同一元素的观测概率可能不同。
比如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,候选状态包括B、I时,可获取候选状态B下的x1、x2、x3至xn的观测概率,以及候选状态I下的x1、x2、x3至xn的观测概率。
本公开的实施例中,可获取任意相邻两个元素的候选状态之间的状态转移概率。比如,状态转移概率可为相邻两个元素中位置靠前的第一元素的候选状态转移至位置靠后的第二元素的候选状态之间的状态转移概率。
本公开的实施例中,状态转移概率包括任意两个候选状态之间的状态转移概率,比如,候选状态的数量为2时,状态转移概率的数量为4,例如,候选状态包括B、I时,状态转移概率包括候选状态B转移到候选状态B的状态转移概率、候选状态B转移到候选状态I的状态转移概率、候选状态I转移到候选状态B的状态转移概率、候选状态I转移到候选状态I的状态转移概率。以此类推,候选状态的数量为3时,状态转移概率的数量为9,这里不再赘述。
例如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,可获取x1的候选状态转移至x2的候选状态的状态转移概率,可获取x2的候选状态转移至x3的候选状态的状态转移概率,这里不再赘述。
S103,根据初始状态概率、观测概率和状态转移概率,从候选状态中确定元素的目标状态。
在一种实施方式中,根据初始状态概率、观测概率和状态转移概率,从候选状态中确定元素的目标状态,可包括将初始状态概率、观测概率和状态转移概率输入至Viterbi(维特比)算法,由维特比算法输出元素的目标状态。
在一种实施方式中,根据初始状态概率、观测概率和状态转移概率,从候选状态中确定元素的目标状态,可包括根据文本序列中的每个元素的每个候选状态,生成每个第一节点至每个第二节点之间的状态路径,其中,状态路径包括多个节点,节点用于表示候选状态,第一节点用于表示文本序列中的第一个元素的候选状态,第二节点用于表示文本序列中的最后一个元素的候选状态,根据初始状态概率、观测概率和状态转移概率,确定每条状态路径的路径概率,将路径概率最大的状态路径中的候选状态确定为目标状态。
比如,如图2所示,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,每个元素对应两个候选状态B、I,则文本序列A可对应2n个节点,例如,x1对应的节点分别为C1 1、C1 2,x2对应的节点分别为C2 1、C2 2,x3对应的节点分别为C3 1、C3 2,以此类推,xn对应的节点分别为Cn 1、Cn 2。其中,C1 1、C2 1至Cn 1分别用于表示候选状态B,C1 2、C2 2至Cn 2分别用于表示候选状态I,第一节点包括C1 1、C1 2,第二节点包括Cn 1、Cn 2
继续以图2为例,生成每个第一节点(C1 1、C1 2)至每个第二节点(Cn 1、Cn 2)之间的状态路径共有2n条,可根据初始状态概率、观测概率和状态转移概率,确定每条状态路径的路径概率,将路径概率最大的状态路径中的候选状态确定为目标状态。
S104,根据元素的目标状态,对文本序列进行切分,得到多个子词,其中,子词包括至少一个元素。
需要说明的是,对文本序列切分后得到的子词数量不做过多限定,对子词包括的元素数量不做过多限定。比如,子词可包括1个、2个、5个等元素。
在一种实施方式中,根据元素的目标状态,对文本序列进行切分,得到多个子词,可包括根据元素的目标状态确定切分位置,按照切分位置对文本序列进行切分,得到多个子词。可以理解的是,可在每个切分位置对文本序列进行一次切分。
在一种实施方式中,根据元素的目标状态,对文本序列进行切分,得到多个子词,可包括获取文本序列的切分结果,将切分结果中位置连续的至少一个元素进行拼接,得到一个子词。
比如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,其中,元素x1=11100100,x2=10111000,若根据x1、x2、x3至xn的目标状态确定的切分位置包括x3,则可将切分结果中位置连续的x1、x2进行拼接,得到子词d=1110010010111000。
综上,根据本公开实施例的子词切分方法,可根据每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,从候选状态中确定元素的目标状态,并根据元素的目标状态,对文本序列进行切分,得到多个子词,其中,候选状态用于表征元素是否为切分边界。由此,可考虑到元素的上下文和相邻元素之间的转移关系实现子词切分,可消除相关子词切分技术中相邻元素之间的独立性假设,适用于任意语言或领域的文本序列的子词切分,泛化性较好。
图3是根据本公开第三实施例的子词切分方法的流程示意图。
如图3所示,本公开第三实施例的子词切分方法,包括:
S301,获取待切分的文本序列,其中,文本序列包括多个元素。
在一种实施方式中,获取待切分的文本序列,可包括获取文本,按照通用编码策略对文本进行编码,得到编码文本,根据元素的数据量对编码文本进行切分,得到多个元素,根据多个元素,生成文本序列。由此,该方法可采用通用编码策略生成文本序列,适用于任意语言类型、是否需要空格进行分隔等情况,泛化性较好。
需要说明的是,通用编码策略指的是适用于任意语言类型、是否需要空格进行分隔等情况。对通用编码策略的类别不做过多限定,比如,通用编码策略可为字符级别的编码策略,有助于避免产生未登录词的问题。比如,通用编码策略可为UTF-8(8-bit UnicodeTransformation Format,8比特通用编码转化格式),此时字符集仅包括256个码点,可有效避免词表的数据量过大的问题,可保证词表的数据量适中。
需要说明的是,对元素的数据量不做过多限定,比如,元素的数据量可为一个字节,此时文本序列为字节序列。
S302,将文本序列输入至训练好的概率图模型,由概率图模型对文本序列进行状态预测,以输出每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,其中,候选状态用于表征元素是否为切分边界。
本公开的实施例中,概率图模型可自行设定,概率图模型的输入为文本序列,输出为每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率。应说明的是,对概率图模型的类别不做过多限定,比如,概率图模型包括但不限于HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(Conditional Random Fields,条件随机场)等。
S303,根据初始状态概率、观测概率和状态转移概率,从候选状态中确定元素的目标状态。
步骤S303的相关内容可参见上述实施例,这里不再赘述。
S304,将目标状态为第一候选状态的元素确定为切分边界。
S305,按照切分边界对文本序列进行切分,得到多个子词。
本公开的实施例中,候选状态包括用于表征元素为切分边界的第一候选状态,以及用于表征元素为非切分边界的第二候选状态。
应说明的是,对切分边界的数量不做过多限定。
在一种实施方式中,将目标状态为第一候选状态的元素确定为切分边界,可包括将目标状态为第一候选状态的元素的前端确定为切分边界。
比如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,其中,元素x1=11100100,x2=10111000,x3=10111000,x1、x2、x3对应的目标状态分别为第一候选状态B、第二候选状态I、第一候选状态B,则可将x1、x3的前端确定为切分边界,并按照上述切分边界对文本序列A进行切分,得到多个子词。
在一种实施方式中,得到多个子词之后,还包括将得到的多个子词添加到词表中,对添加后的词表进行剪枝,得到目标词表。应说明的是,对剪枝方式不做过多限定,比如,可采用Unigram方法对词表进行剪枝。由此,该方法中可将得到的多个子词添加到词表中,可基于文本序列的子词切分结果实现词表的扩充,还可对添加后的词表进行剪枝,得到目标词表,可避免目标词表的数据量过大。
综上,根据本公开实施例的子词切分方法,可基于概率图模型实现初始状态概率、观测概率和状态转移概率的自动获取,还可将目标状态为第一候选状态的元素确定为切分边界,按照切分边界对文本序列进行切分,得到多个子词。
图4是根据本公开第四实施例的子词切分方法的流程示意图。
如图4所示,本公开第四实施例的子词切分方法,包括:
S401,获取待切分的文本序列,其中,文本序列包括多个元素。
S402,获取每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,其中,候选状态用于表征元素是否为切分边界。
步骤S401-S402的相关内容可参见上述实施例,这里不再赘述。
S403,将文本序列中的第一个元素的目标状态确定为第一候选状态。
S404,从文本序列中的第二个元素开始,将第二个元素确定为待检测元素,并根据初始状态概率、文本序列中位于待检测元素之前的元素以及待检测元素对应的观测概率和状态转移概率,从候选状态中确定待检测元素的目标状态。
S405,将待检测元素的下一个元素更新为待检测元素,直至遍历到文本序列中的最后一个元素。
本公开的实施例中,候选状态包括用于表征元素为切分边界的第一候选状态,以及用于表征元素为非切分边界的第二候选状态。
本公开的实施例中,可从文本序列中的第二个元素开始,依次向后遍历文本序列中的元素,每遍历一次可将当前遍历到的元素确定为待检测元素,并确定待检测元素的目标状态,直至遍历到文本序列中的最后一个元素。
例如,文本序列A={x1,x2,x3……xn},文本序列A包括n个元素,分别为x1、x2、x3至xn,候选状态包括用于表征元素为切分边界的第一候选状态B,以及用于表征元素为非切分边界的第二候选状态I。
可将x1的目标状态确定为第一候选状态B,并从x2开始,将x2确定为待检测元素,并根据初始状态概率,以及x1、x2对应的观测概率和状态转移概率,从候选状态中确定x2的目标状态。
进一步地,可将x3更新为待检测元素,根据初始状态概率,以及x1、x2、x3对应的观测概率和状态转移概率,从候选状态中确定x3的目标状态。
以此类推,可遍历到xn,将xn更新为待检测元素,根据初始状态概率,以及x1、x2至xn-1对应的观测概率和状态转移概率,从候选状态中确定xn的目标状态。
S406,根据元素的目标状态,对文本序列进行切分,得到多个子词,其中,子词包括至少一个元素。
步骤S406的相关内容可参见上述实施例,这里不再赘述。
综上,根据本公开实施例的子词切分方法,可将文本序列中的第一个元素的目标状态确定为第一候选状态,从文本序列中的第二个元素开始,将第二个元素确定为待检测元素,并根据初始状态概率、文本序列中位于待检测元素之前的元素以及待检测元素对应的观测概率和状态转移概率,从候选状态中确定待检测元素的目标状态,将待检测元素的下一个元素更新为待检测元素,直至遍历到文本序列中的最后一个元素。由此,可考虑到元素的上文和相邻元素之间的转移关系,以确定元素的目标状态。
图5是根据本公开第五实施例的子词切分方法的流程示意图。
如图5所示,本公开第五实施例的子词切分方法,包括:
S501,获取待切分的文本序列,其中,文本序列包括多个元素。
S502,获取每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,其中,候选状态用于表征元素是否为切分边界。
S503,将文本序列中的第一个元素的目标状态确定为第一候选状态。
S504,从文本序列中的第二个元素开始,将第二个元素确定为待检测元素。
步骤S501-S504的相关内容可参见上述实施例,这里不再赘述。
S505,获取包括位置连续的多个目标元素的文本序列单元,其中,文本序列单元的第一个目标元素的目标状态为第一候选状态,第二个目标元素至倒数第二个目标元素的目标状态为第二候选状态,最后一个目标元素为待检测元素。
本公开的实施例中,文本序列单元包括位置连续的多个目标元素,其中,第一个目标元素的目标状态为第一候选状态,第二个目标元素至倒数第二个目标元素的目标状态为第二候选状态,即第一个目标元素为位于待检测元素之前,距离待检测元素最近且目标状态为第一候选状态的元素,文本序列单元中第一个目标元素以外,且位于待检测元素之前的目标元素的目标状态均为第二候选状态。
需要说明的是,对文本序列单元包括的目标元素的数量不做过多限定。在一种实施方式中,文本序列单元至少包括两个目标元素,比如,文本序列单元包括第一个目标元素和待检测元素,其中,第一个目标元素的目标状态为第一候选状态。
比如,文本序列A={x1,x2,x3……xn},x1、x2的目标状态分别为第一候选状态B、第二候选状态I,待检测元素为x3,则可获取文本序列单元E={x1,x2,x3};或者,x1、x2的目标状态均为第一候选状态B,待检测元素为x3,则可获取文本序列单元E={x2,x3}。
S506,根据文本序列单元中的第一个目标元素至倒数第二个目标元素的目标状态,以及待检测元素的每个候选状态,生成状态路径。
本公开的实施例中,生成的状态路径的数量为2。
比如,如图6所示,文本序列单元E={x1,x2,x3,x4},文本序列单元E包括4个元素,分别为x1、x2、x3、x4,其中,x1、x2、x3的目标状态分别为第一候选状态B、第二候选状态I、第二候选状态I,x4对应两个候选状态B、I,则文本序列单元E可对应5个节点,例如,x1对应的节点为C1 1,x2对应的节点为C2 2,x3对应的节点为C3 2,x4对应的节点分别为C4 1、C4 2。其中,C1 1、C4 1分别用于表示候选状态B,C2 2、C3 2、C4 2分别用于表示候选状态I。
继续以图6为例,生成的状态路径包括L1、L2(图中未示出),其中,状态路径L1包括节点C1 1、C2 2、C3 2、C4 1,状态路径L2包括节点C1 1、C2 2、C3 2、C4 2
S507,根据初始状态概率、目标元素对应的观测概率和状态转移概率,确定状态路径的路径概率。
步骤S507的相关内容可参见上述实施例,这里不再赘述。
S508,获取路径概率最大的目标状态路径,并将目标状态路径中的待检测元素的候选状态确定为待检测元素的目标状态。
继续以图6为例,可确定状态路径L1、L2的路径概率,若路径概率最大的目标状态路径为L1,则可将目标状态路径L1中的x4的候选状态(即为第一候选状态B)确定为x4的目标状态,即可将x4的目标状态确定为第一候选状态B。
或者,若路径概率最大的目标状态路径为L2,则可将目标状态路径L2中的x4的候选状态(即为第二候选状态I)确定为x4的目标状态,即可将x4的目标状态确定为第二候选状态I。
在一种实施方式中,在目标状态路径的路径概率小于设定阈值的情况下,表明此时目标状态路径的路径概率较小,可将待检测元素的目标状态确定为第一候选状态,即在目标状态路径的路径概率小于设定阈值的情况下,可直接将待检测元素的目标状态确定为第一候选状态,可避免子词的数据量过大的情况。
S509,将待检测元素的下一个元素更新为待检测元素,直至遍历到文本序列中的最后一个元素。
S510,根据元素的目标状态,对文本序列进行切分,得到多个子词,其中,子词包括至少一个元素。
步骤S509-S510的相关内容可参见上述实施例,这里不再赘述。
综上,根据本公开实施例的子词切分方法,可获取文本序列单元,文本序列单元的第一个目标元素的目标状态为第一候选状态,第二个目标元素至倒数第二个目标元素的目标状态为第二候选状态,最后一个目标元素为待检测元素,基于文本序列单元中的目标元素的目标状态和候选状态,生成状态路径,进而确定待检测元素的目标状态。
图7是根据本公开第一实施例的模型训练方法的流程示意图。
如图7所示,本公开第一实施例的模型训练方法,包括:
S701,获取样本文本序列,其中,样本文本序列包括多个样本元素。
需要说明的是,本公开实施例的子词切分方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
本公开的实施例中,可获取大量的样本文本序列。应说明的是,对样本文本序列的获取方式不做过多限定,比如,可对样本文本进行编码得到样本文本序列。对样本文本的语言类型、是否需要空格进行分隔等均不做过多限定,比如,样本文本包括但不限于中文、日文、英文、韩文等。
在一种实施方式中,获取样本文本序列,可包括获取样本文本,按照通用编码策略对样本文本进行编码,得到编码样本文本,根据元素的数据量对编码样本文本进行切分,得到多个样本元素,根据多个样本元素,生成样本文本序列。由此,该方法可采用通用编码策略生成样本文本序列,适用于任意语言类型、是否需要空格进行分隔等情况,泛化性较好。
步骤S701的相关内容可参见上述实施例,这里不再赘述。
S702,根据样本文本序列训练概率图模型,对概率图模型的模型参数进行更新,其中,概率图模型用于输出每个候选状态下的训练初始状态概率、每个候选状态下的每个样本元素的训练观测概率、任意相邻两个样本元素的候选状态之间的训练状态转移概率,其中,候选状态用于表征样本元素是否为切分边界。
需要说明的是,对概率图模型的训练策略不做过多限定,比如,训练策略可为EM(Expectation-maximization,期望最大化)算法。
本公开的实施例中,概率图模型可自行设定,训练过程中概率图模型的输入为样本文本序列,输出为每个候选状态下的训练初始状态概率、每个候选状态下的每个样本元素的训练观测概率、任意相邻两个样本元素的候选状态之间的训练状态转移概率。应说明的是,对概率图模型的类别不做过多限定,比如,概率图模型包括但不限于HMM(HiddenMarkov Model,隐马尔可夫模型)、CRF(Conditional Random Fields,条件随机场)等。
在一种实施方式中,在概率图模型为HMM的情况下,模型参数包括初始状态概率π、状态转移概率矩阵A、观测概率矩阵B。
在一种实施方式中,在概率图模型为CRF的情况下,可根据样本文本序列,以及样本文本序列中每个样本元素的样本目标状态,训练概率图模型,对概率图模型的模型参数进行更新。
S703,在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的概率图模型进行训练,直至满足模型训练结束条件,生成训练好的概率图模型。
本公开的实施例中,模型训练结束条件可自行设定,这里不做过多限定,比如,模型训练结束条件包括但不限于模型训练次数达到设定次数,模型精度达到设定精度等。应说明的是,对设定次数、设定精度均不做过多限定。
综上,根据本公开实施例的模型训练方法,可基于样本文本序列对概率图模型进行训练,概率图模型用于输出每个候选状态下的训练初始状态概率、每个候选状态下的每个样本元素的训练观测概率、任意相邻两个样本元素的候选状态之间的训练状态转移概率,其中,候选状态用于表征样本元素是否为切分边界,可将概率图模型应用于子词切分场景。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种子词切分装置,用于实现上述的子词切分方法。
图8是根据本公开第一实施例的子词切分装置的框图。
如图8所示,本公开实施例的子词切分装置800,包括:第一获取模块801、第二获取模块802、确定模块803和切分模块804。
第一获取模块801用于获取待切分的文本序列,其中,所述文本序列包括多个元素;
第二获取模块802用于获取每个候选状态下的初始状态概率、每个所述候选状态下的每个所述元素的观测概率、任意相邻两个所述元素的所述候选状态之间的状态转移概率,其中,所述候选状态用于表征所述元素是否为切分边界;
确定模块803用于根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态;
切分模块804用于根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,其中,所述子词包括至少一个所述元素。
在本公开的一个实施例中,所述第二获取模块802还用于:将所述文本序列输入至训练好的概率图模型,由所述概率图模型对所述文本序列进行状态预测,以输出所述初始状态概率、所述观测概率和所述状态转移概率。
在本公开的一个实施例中,所述候选状态包括用于表征所述元素为切分边界的第一候选状态,以及用于表征所述元素为非切分边界的第二候选状态。
在本公开的一个实施例中,所述切分模块804还用于:将所述目标状态为所述第一候选状态的所述元素确定为切分边界;按照所述切分边界对所述文本序列进行切分,得到多个所述子词。
在本公开的一个实施例中,所述确定模块803还用于:将所述文本序列中的第一个元素的所述目标状态确定为所述第一候选状态;从所述文本序列中的第二个元素开始,将所述第二个元素确定为待检测元素,并根据所述初始状态概率、所述文本序列中位于所述待检测元素之前的所述元素以及所述待检测元素对应的所述观测概率和所述状态转移概率,从所述候选状态中确定所述待检测元素的所述目标状态;将所述待检测元素的下一个元素更新为所述待检测元素,直至遍历到所述文本序列中的最后一个元素。
在本公开的一个实施例中,所述确定模块803还用于:获取包括位置连续的多个目标元素的文本序列单元,其中,所述文本序列单元的第一个所述目标元素的所述目标状态为所述第一候选状态,第二个所述目标元素至倒数第二个所述目标元素的所述目标状态为所述第二候选状态,最后一个所述目标元素为所述待检测元素;根据所述文本序列单元中的第一个所述目标元素至倒数第二个所述目标元素的所述目标状态,以及所述待检测元素的每个所述候选状态,生成状态路径;根据所述初始状态概率、所述目标元素对应的所述观测概率和所述状态转移概率,确定所述状态路径的路径概率;获取所述路径概率最大的目标状态路径,并将所述目标状态路径中的所述待检测元素的所述候选状态确定为所述待检测元素的所述目标状态。
在本公开的一个实施例中,所述确定模块803还用于:在所述目标状态路径的所述路径概率小于设定阈值的情况下,将所述待检测元素的所述目标状态确定为所述第一候选状态。
在本公开的一个实施例中,所述第一获取模块801还用于:获取文本;按照通用编码策略对所述文本进行编码,得到编码文本;根据所述元素的数据量对所述编码文本进行切分,得到多个所述元素;根据多个所述元素,生成所述文本序列。
在本公开的一个实施例中,所述数据量为一个字节。
在本公开的一个实施例中,所述切分模块804还用于:将得到的多个所述子词添加到词表中;对添加后的所述词表进行剪枝,得到目标词表。
综上,本公开实施例的子词切分装置,可根据每个候选状态下的初始状态概率、每个候选状态下的每个元素的观测概率、任意相邻两个元素的候选状态之间的状态转移概率,从候选状态中确定元素的目标状态,并根据元素的目标状态,对文本序列进行切分,得到多个子词,其中,候选状态用于表征元素是否为切分边界。由此,可考虑到元素的上下文和相邻元素之间的转移关系实现子词切分,可消除相关子词切分技术中相邻元素之间的独立性假设,适用于任意语言或领域的文本序列的子词切分,泛化性较好。
根据本公开的实施例,本公开还提供了一种模型训练装置,用于实现上述的模型训练方法。
图9是根据本公开第一实施例的模型训练装置的框图。
如图9所示,本公开实施例的模型训练装置900,包括:获取模块901和训练模块902。
获取模块901用于获取样本文本序列,其中,所述样本文本序列包括多个样本元素;
训练模块902用于根据所述样本文本序列训练概率图模型,对所述概率图模型的模型参数进行更新,其中,所述概率图模型用于输出每个候选状态下的训练初始状态概率、每个所述候选状态下的每个所述样本元素的训练观测概率、任意相邻两个所述样本元素的所述候选状态之间的训练状态转移概率,其中,所述候选状态用于表征所述样本元素是否为切分边界;
所述训练模块902还用于在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的所述概率图模型进行训练,直至满足所述模型训练结束条件,生成训练好的所述概率图模型。
综上,本公开实施例的模型训练装置,可基于样本文本序列对概率图模型进行训练,概率图模型用于输出每个候选状态下的训练初始状态概率、每个候选状态下的每个样本元素的训练观测概率、任意相邻两个样本元素的候选状态之间的训练状态转移概率,其中,候选状态用于表征样本元素是否为切分边界,可将概率图模型应用于子词切分场景。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图1至图6所述的子词切分方法,和/或图7所述的模型训练方法。例如,在一些实施例中,子词切分方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的子词切分方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行子词切分方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开上述实施例所述的子词切分方法的步骤,或者实现本公开上述实施例所述的模型训练方法的步骤。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种子词切分方法,包括:
获取待切分的文本序列,其中,所述文本序列包括多个元素;
将所述文本序列输入至训练好的概率图模型,得到每个候选状态下的初始状态概率、每个所述候选状态下的每个所述元素的观测概率、任意相邻两个所述元素的所述候选状态之间的状态转移概率,其中,所述候选状态包括用于表征所述元素为切分边界的第一候选状态,以及用于表征所述元素为非切分边界的第二候选状态;
根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态;
根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,其中,所述子词包括至少一个所述元素;
其中,所述获取待切分的文本序列,包括:
获取文本;
按照通用编码策略对所述文本进行编码,得到编码文本,所述通用编码策略为字符级别的编码策略;
根据所述元素的数据量对所述编码文本进行切分,得到多个所述元素,所述元素的数据量为一个字节;
根据多个所述元素,生成所述文本序列,所述文本序列为字节序列;
其中,所述根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态,包括:
将所述文本序列中的第一个元素的所述目标状态确定为所述第一候选状态;
从所述文本序列中的第二个元素开始,将所述第二个元素确定为待检测元素;
获取包括位置连续的多个目标元素的文本序列单元,其中,所述文本序列单元的第一个所述目标元素的所述目标状态为所述第一候选状态,第二个所述目标元素至倒数第二个所述目标元素的所述目标状态为所述第二候选状态,最后一个所述目标元素为所述待检测元素;
根据所述文本序列单元中的第一个所述目标元素至倒数第二个所述目标元素的所述目标状态,以及所述待检测元素的每个所述候选状态,生成状态路径;
根据所述初始状态概率、所述目标元素对应的所述观测概率和所述状态转移概率,确定所述状态路径的路径概率;
获取所述路径概率最大的目标状态路径,并将所述目标状态路径中的所述待检测元素的所述候选状态确定为所述待检测元素的所述目标状态;
将所述待检测元素的下一个元素更新为所述待检测元素,直至遍历到所述文本序列中的最后一个元素。
2.根据权利要求1所述的方法,其中,所述根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,包括:
将所述目标状态为所述第一候选状态的所述元素确定为切分边界;
按照所述切分边界对所述文本序列进行切分,得到多个所述子词。
3.根据权利要求1所述的方法,其中,所述方法还包括:
在所述目标状态路径的所述路径概率小于设定阈值的情况下,将所述待检测元素的所述目标状态确定为所述第一候选状态。
4.根据权利要求1所述的方法,其中,所述数据量为一个字节。
5.根据权利要求1-3任一项所述的方法,其中,所述得到多个子词之后,还包括:
将得到的多个所述子词添加到词表中;
对添加后的所述词表进行剪枝,得到目标词表。
6.一种模型训练方法,包括:
获取样本文本序列,其中,所述样本文本序列包括多个样本元素;
根据所述样本文本序列训练概率图模型,对所述概率图模型的模型参数进行更新,其中,所述概率图模型用于输出每个候选状态下的训练初始状态概率、每个所述候选状态下的每个所述样本元素的训练观测概率、任意相邻两个所述样本元素的所述候选状态之间的训练状态转移概率,其中,所述候选状态包括用于表征所述元素为切分边界的第一候选状态,以及用于表征所述元素为非切分边界的第二候选状态;
在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的所述概率图模型进行训练,直至满足所述模型训练结束条件,生成训练好的所述概率图模型,其中,所述概率图模型用以执行如权利要求1所述的子词切分方法;
其中,所述获取样本文本序列,包括:
获取文本;
按照通用编码策略对所述文本进行编码,得到编码文本,所述通用编码策略为字符级别的编码策略;
根据所述元素的数据量对所述编码文本进行切分,得到多个所述元素,所述元素的数据量为一个字节;
根据多个所述元素,生成所述样本文本序列,所述文本序列为字节序列。
7.一种子词切分装置,包括:
第一获取模块,用于获取待切分的文本序列,其中,所述文本序列包括多个元素;
第二获取模块,用于将所述文本序列输入至训练好的概率图模型,得到每个候选状态下的初始状态概率、每个所述候选状态下的每个所述元素的观测概率、任意相邻两个所述元素的所述候选状态之间的状态转移概率,其中,所述候选状态包括用于表征所述元素为切分边界的第一候选状态,以及用于表征所述元素为非切分边界的第二候选状态;
确定模块,用于根据所述初始状态概率、所述观测概率和所述状态转移概率,从所述候选状态中确定所述元素的目标状态;
切分模块,用于根据所述元素的所述目标状态,对所述文本序列进行切分,得到多个子词,其中,所述子词包括至少一个所述元素;
其中,所述第一获取模块,还用于:
获取文本;
按照通用编码策略对所述文本进行编码,得到编码文本,所述通用编码策略为字符级别的编码策略;
根据所述元素的数据量对所述编码文本进行切分,得到多个所述元素,所述元素的数据量为一个字节;
根据多个所述元素,生成所述文本序列,所述文本序列为字节序列;
中,所述确定模块,还用于:
将所述文本序列中的第一个元素的所述目标状态确定为所述第一候选状态;
从所述文本序列中的第二个元素开始,将所述第二个元素确定为待检测元素;
获取包括位置连续的多个目标元素的文本序列单元,其中,所述文本序列单元的第一个所述目标元素的所述目标状态为所述第一候选状态,第二个所述目标元素至倒数第二个所述目标元素的所述目标状态为所述第二候选状态,最后一个所述目标元素为所述待检测元素;
根据所述文本序列单元中的第一个所述目标元素至倒数第二个所述目标元素的所述目标状态,以及所述待检测元素的每个所述候选状态,生成状态路径;
根据所述初始状态概率、所述目标元素对应的所述观测概率和所述状态转移概率,确定所述状态路径的路径概率;
获取所述路径概率最大的目标状态路径,并将所述目标状态路径中的所述待检测元素的所述候选状态确定为所述待检测元素的所述目标状态;
将所述待检测元素的下一个元素更新为所述待检测元素,直至遍历到所述文本序列中的最后一个元素。
8.根据权利要求7所述的装置,其中,所述切分模块,还用于:
将所述目标状态为所述第一候选状态的所述元素确定为切分边界;
按照所述切分边界对所述文本序列进行切分,得到多个所述子词。
9.根据权利要求7所述的装置,其中,所述确定模块,还用于:
在所述目标状态路径的所述路径概率小于设定阈值的情况下,将所述待检测元素的所述目标状态确定为所述第一候选状态。
10.根据权利要求7所述的装置,其中,所述数据量为一个字节。
11.根据权利要求7-9任一项所述的装置,其中,所述切分模块,还用于:
将得到的多个所述子词添加到词表中;
对添加后的所述词表进行剪枝,得到目标词表。
12.一种模型训练装置,包括:
获取模块,用于获取样本文本序列,其中,所述样本文本序列包括多个样本元素;
训练模块,用于根据所述样本文本序列训练概率图模型,对所述概率图模型的模型参数进行更新,其中,所述概率图模型用于输出每个候选状态下的训练初始状态概率、每个所述候选状态下的每个所述样本元素的训练观测概率、任意相邻两个所述样本元素的所述候选状态之间的训练状态转移概率,其中,所述候选状态包括用于表征所述元素为切分边界的第一候选状态,以及用于表征所述元素为非切分边界的第二候选状态;
所述训练模块,还用于在未满足模型训练结束条件的情况下,返回采用下一个样本文本序列继续对更新后的所述概率图模型进行训练,直至满足所述模型训练结束条件,生成训练好的所述概率图模型,其中,所述概率图模型用以执行如权利要求1所述的子词切分方法;
其中,所述获取模块,还用于:
获取文本;
按照通用编码策略对所述文本进行编码,得到编码文本,所述通用编码策略为字符级别的编码策略;
根据所述元素的数据量对所述编码文本进行切分,得到多个所述元素;
根据多个所述元素,生成所述样本文本序列。
13. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任一项所述的子词切分方法,或者执行如权利要求6所述的模型训练方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如权利要求1-5中任一项所述的子词切分方法,或者执行如权利要求6所述的模型训练方法。
CN202111656289.9A 2021-12-30 2021-12-30 子词切分方法、模型训练方法、装置和电子设备 Active CN114492426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111656289.9A CN114492426B (zh) 2021-12-30 2021-12-30 子词切分方法、模型训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111656289.9A CN114492426B (zh) 2021-12-30 2021-12-30 子词切分方法、模型训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114492426A CN114492426A (zh) 2022-05-13
CN114492426B true CN114492426B (zh) 2023-04-07

Family

ID=81508530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111656289.9A Active CN114492426B (zh) 2021-12-30 2021-12-30 子词切分方法、模型训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114492426B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861667B (zh) * 2022-05-16 2023-04-28 中电金信软件有限公司 一种命名实体标签识别方法及装置
CN115130472B (zh) * 2022-08-31 2023-02-21 北京澜舟科技有限公司 一种基于bpe的子词分割方法、***及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103441806A (zh) * 2013-07-30 2013-12-11 长春理工大学 认知无线电的纯不连续马尔可夫过程频谱感知方法
CN104900059A (zh) * 2015-05-26 2015-09-09 大连理工大学 一种利用隐马尔可夫地图匹配算法增强手机基站定位精度的方法
CN106569997A (zh) * 2016-10-19 2017-04-19 中国科学院信息工程研究所 一种基于隐式马尔科夫模型的科技类复合短语识别方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN113724698A (zh) * 2021-09-01 2021-11-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875743B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Acoustic signature building for a speaker from multiple sessions
CN108509423A (zh) * 2018-04-04 2018-09-07 福州大学 一种基于二阶hmm的中标网页命名实体抽取方法
CN108647208A (zh) * 2018-05-09 2018-10-12 上海应用技术大学 一种基于中文的新型分词方法
CN108959262B (zh) * 2018-07-09 2022-07-26 鼎富智能科技有限公司 一种命名实体识别方法及装置
CN109710759B (zh) * 2018-12-17 2021-06-08 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN112528645A (zh) * 2019-09-02 2021-03-19 株式会社Ntt都科摩 文本处理方法、装置、电子设备和计算机可读存储介质
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112380855B (zh) * 2020-11-20 2024-03-08 北京百度网讯科技有限公司 确定语句通顺度的方法、确定概率预测模型的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103441806A (zh) * 2013-07-30 2013-12-11 长春理工大学 认知无线电的纯不连续马尔可夫过程频谱感知方法
CN104900059A (zh) * 2015-05-26 2015-09-09 大连理工大学 一种利用隐马尔可夫地图匹配算法增强手机基站定位精度的方法
CN106569997A (zh) * 2016-10-19 2017-04-19 中国科学院信息工程研究所 一种基于隐式马尔科夫模型的科技类复合短语识别方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN113724698A (zh) * 2021-09-01 2021-11-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fei Wang."Statistic Chinese New Word Recognition by Combing Supervised and Unsupervised Learning".《2019 IEEE Intl Conf on Parallel &Distributed Processing with Applications, Big Data &Cloud Computing, Sustainable Computing &Communications, Social Computing &Networking 》.2020,第1239-1243页. *

Also Published As

Publication number Publication date
CN114492426A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114492426B (zh) 子词切分方法、模型训练方法、装置和电子设备
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN113674732B (zh) 语音置信度检测方法、装置、电子设备和存储介质
CN112307188B (zh) 对话生成方法、***、电子设备和可读存储介质
CN113407698B (zh) 意图识别模型的训练与意图识别的方法、装置
CN112786108B (zh) 分子理解模型的训练方法、装置、设备和介质
CN112861548A (zh) 自然语言生成及模型的训练方法、装置、设备和存储介质
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN113641829A (zh) 图神经网络的训练与知识图谱的补全方法、装置
CN114861637A (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN113160820A (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
CN112487813A (zh) 命名实体识别方法及***、电子设备及存储介质
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN113869046B (zh) 一种自然语言文本的处理方法、装置、设备及存储介质
CN113889087B (zh) 语音识别及模型建立方法、装置、设备和存储介质
CN113408303B (zh) 翻译模型的训练与翻译方法、装置
CN113553833B (zh) 文本纠错的方法、装置及电子设备
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN111695350B (zh) 一种文本的分词方法及分词装置
CN114239559A (zh) 文本纠错和文本纠错模型的生成方法、装置、设备和介质
CN113689866A (zh) 一种语音转换模型的训练方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant