CN109902154A - 信息处理方法、装置、服务设备及计算机可读存储介质 - Google Patents

信息处理方法、装置、服务设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109902154A
CN109902154A CN201811464550.3A CN201811464550A CN109902154A CN 109902154 A CN109902154 A CN 109902154A CN 201811464550 A CN201811464550 A CN 201811464550A CN 109902154 A CN109902154 A CN 109902154A
Authority
CN
China
Prior art keywords
text
arbiter
text information
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811464550.3A
Other languages
English (en)
Inventor
吴斌
蒋欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201811464550.3A priority Critical patent/CN109902154A/zh
Priority to PCT/CN2019/091387 priority patent/WO2020107864A1/zh
Publication of CN109902154A publication Critical patent/CN109902154A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种信息处理方法、实现该方法的装置、服务设备和计算机可读存储介质。文本信息中的各个词的词权重可以用于评估该词在文本信息中的重要程度,但是采用当前方法计算得到的词的词权重与包含该词的文本信息之间的关联度较低,该词权重并不能准确地反映该词在该文本信息中的重要程度,使得词权重的准确度较低。采用本申请实施例,通过调用文本分析模型对文本信息进行分析识别,可以基于文本分析模型的输出结果确定文本信息的各个特征词的词权重值,即特征词的词权重值与对文本信息进行分析识别得到的输出结果之间的关联度较高,从而可以有效提高特征词的词权重值的准确度。

Description

信息处理方法、装置、服务设备及计算机可读存储介质
技术领域
本申请涉及机器学习领域,具体涉及一种信息处理方法、装置、服务设备及计算机可读存储介质。
背景技术
文本信息中的各个词的词权重可以用于评估该词在文本信息中的重要程度,应用于搜索***、问答***或者其他***时,通过为文本信息中的词设置恰当的词权重,可以获得更加准确的处理结果。
目前,主要采用词频-逆文本频率指数(Term Frequency–Inverse DocumentFrequency,TF-IDF)计算词权重,TF-IDF算法的主要思想是:若某个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为该词具有很好的类别区分能力,即该词的词权重较高。TF-IDF算法的缺陷在于词的词权重主要由文档集合中包含该词的文档数目所决定,该词的词权重与包含该词的文本信息之间的关联度较低,采用当前做法获得的词权重并不能准确地反映该词在该文本信息中的重要程度,使得词权重的准确度较低。因此,如何提高词权重的准确度成为一个亟待解决的技术问题。
发明内容
本申请实施例提供了一种信息处理方法、实现该方法的装置、服务设备及计算机可读存储介质,可以基于对文本信息进行分析识别得到的输出结果,确定文本信息中的特征词的词权重值,使得文本信息的特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,有利于提高特征词的词权重值的准确度。
第一方面,本申请实施例提供了一种信息处理方法,该方法包括:获取文本信息;调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果;根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值;并基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值。
在该技术方案中,基于对文本信息进行分析识别得到的输出结果,确定文本信息中的各个特征词的词权重值,可以使得文本信息的各个特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,即使得文本信息的各个特征词的词权重值与文本信息对应的真实用户意图之间的关联度较高,通过这种方式,可以提高特征词的词权重值的准确度。
在一种实现方式中,文本分析模型包括判别器,文本分析模型是通过判别器对文本信息进行分析识别的;根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值的具体实施方式可以为:根据输出结果从文本分析模型包括的判别器中确定出目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。
在该技术方案中,根据文本分析模型的输出结果从文本分析模型包括的判别器中确定出目标判别器,而非从文本分析模型中随机确定出目标判别器,可以提高根据目标判别器确定出的特征词的词权重值的准确度。
在一种实现方式中,前述文本分析模型可以为分类模型,文本分析模型可以包括多个判别器,每一个判别器对应一个分类类别;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将与文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,目标分类类别是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的。
在该技术方案中,目标分类类别可以用于表征文本信息的真实用户意图,通过将目标分类类别对应的判别器确定为目标判别器,进而基于目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息中的各个特征词的词权重值,有利于提高词权重值的准确度。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器进行分析识别的识别结果可以为一个概率值,前述输出结果可以包括目标概率值,目标概率值可以为文本分析模型的各个判别器输出的概率值中的最大概率值;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将输出目标概率值的判别器确定为目标判别器。
在该技术方案中,通过将输出最大概率值的判别器确实为目标判别器,可以提高确定出的目标判别器的准确度。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器可以对应一个标识;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将与文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,目标标识是根据文本分析模型的各个判别器对文本信息进行分析识别后得到的识别结果确定的。
在一种实现方式中,基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值的具体实施方式可以为:将针对文本信息中的各个特征词所使用的特征权重值作为文本信息中的相应特征词的词权重值。
在该技术方案中,通过将针对文本信息中的各个特征词所使用的特征权重值直接作为文本信息中的相应特征词的词权重值,可以提高确定词权重值的效率。
在一种实现方式中,文本分析模型包括的各个判别器可以用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值可以不同。
在该技术方案中,文本分析模型的判别器是通过特征权重值对不同分类类别的文本信息进行分析识别的,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值不同,使得文本分析模型的不同判别器根据不同的特征权重值可以准确识别出文本信息所属的分类类别。
在一种实现方式中,基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值的具体实施方式可以为:对文本信息进行分词处理,得到该文本信息的各个特征词;将该文本信息的各个特征词作为文本分析模型的输入,得到文本分析模型的输出结果。
在该技术方案中,仅需将文本信息的各个特征词输入文本分析模型,即可得到文本分析模型的输出结果,进而基于输出结果得到文本信息的各个特征词的词权重值,过程简单高效,当文本信息的特征词的数量为多个时,仅需调用一次文本分析模型,即可得到文本信息的各个特征词的词权重值。
在一种实现方式中,该方法还可以包括:获取训练样本数据,训练样本数据包括历史文本信息和标注信息;并基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型。
在一种实现方式中,前述文本信息可以为查询信息,历史文本信息可以为历史查询信息,标注信息可以是根据对历史查询信息查询得到的查询结果的用户操作数据确定的。
在该技术方案中,历史查询信息是用户以往输入的真实查询信息,用户操作数据是根据用户的真实操作得到的数据,即该文本分析模型是基于真实的用户反馈数据训练得到的,当该信息处理方法应用于搜索***时,可以使得文本分析模型对查询信息进行分析识别得到的输出结果更加符合该查询信息对应的真实用户意图,进一步的,基于该输出结果得到的特征词的词权重值,可以更加客观地反映用户的真实搜索需求。
在一种实现方式中,对历史查询信息查询得到的查询结果的数量可以为多个,用户操作数据可以包括对历史查询信息查询得到的查询结果及每个查询结果的选择次数,以及每个查询结果所属的分类类别;基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型的具体实施方式可以为:将历史查询信息作为训练数据输入到预设模型中,得到训练结果;根据该训练结果和标注信息对预设模型进行参数优化,以得到前述文本分析模型,标注信息可以为根据前述用户操作数据确定的第一分类类别;其中,第一分类类别可以为对历史查询信息查询得到的查询结果中选择次数最多的查询结果所属的分类类别,或者,在第一分类类别下的查询结果被选择的选择次数之和最大。
在该技术方案中,可以自动检测对历史查询信息查询得到的每个查询结果的选择次数,并将查询结果中选择次数最多的查询结果所属的分类类别作为标注信息,即可以自动获取训练数据和标注信息,而无需人工标注,可以有效降低模型的训练成本;另外,服务设备可以自动优化模型,从而有效提高预测准确率。
在一种实现方式中,基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值之后,该方法还可以包括:基于文本信息和该文本信息的各个特征词的词权重值进行信息处理。
在该技术方案中,基于文本信息和该文本信息的各个特征词的词权重值进行信息处理,可以得到更加符合用户意图的信息处理结果。
在一种实现方式中,该文本信息可以为查询信息,基于该文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式可以为:基于该文本信息和该文本信息的各个特征词的词权重值,搜索得到该文本信息的第一查询结果,并输出第一查询结果;或者,基于该文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式可以为:根据文本信息搜索得到第二查询结果,并基于该文本信息的各个特征词的词权重值,对第二查询结果进行排序,输出排序后的第二查询结果。
在该技术方案中,当该信息处理方法应用于搜索***时,基于特征词的词权重值进行搜索,可以有效提高搜索召回的第一查询结果的准确率,并且可以使得第一查询结果更加符合用户搜索需求;另外,基于文本信息的各个特征词的词权重值,对第二查询结果进行排序,可以将更符合用户搜索需求的第二查询结果排在前面展示给用户,可以有效提高搜索效果。
在一种实现方式中,基于该文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式可以为:基于该文本信息的各个特征词的词权重值,在该文本信息的特征词中,确定出核心词和/或无效词。
在该技术方案中,当该信息处理方法应用于搜索***时,核心词是最能代表文本信息对应的真实用户意图的特征词,相较于基于文本信息的所有特征词进行搜索,基于核心词进行搜索可以避免其他特征词对查询结果造成影响,而导致召回的查询结果不符合文本信息对应的真实用户意图,有利于提高搜索效果;另外,确定无效词之后,可以基于文本信息的特征词中除无效词以外的其他特征词进行搜索,通过基于文本信息的特征词中除无效词以外的其他特征词进行搜索,可以减少无效内容的召回,并提高召回内容的准确率。
第二方面,本申请实施例提供了一种信息处理装置,该装置具有实现第一方面所述的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,本申请实施例提供一种服务设备,该服务设备包括存储器和处理器,存储器中存储有程序指令,处理器通过总线与存储器连接,处理器调用存储器中存储的程序指令以使服务设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,用于储存为第二方面所述的信息处理装置所用的计算机程序指令,其包含用于执行上述第一方面所涉及的程序。
第五方面,本申请实施例提供一种计算机程序产品,该程序产品包括程序,所述程序被执行时实现上述第一方面所述的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例公开的一种通信***的架构示意图;
图2是本申请实施例公开的一种信息处理方法的流程示意图;
图3是本申请实施例公开的另一种信息处理方法的流程示意图;
图3a是本申请实施例公开的一种获取目标分类类别的场景示意图;
图3b是本申请实施例公开的一种获取目标概率值的场景示意图;
图3c是本申请实施例公开的一种获取目标标识的场景示意图;
图4是本申请实施例公开的又一种信息处理方法的流程示意图;
图5是本申请实施例公开的一种信息处理装置的结构示意图;
图6是本申请实施例公开的一种服务设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例公开的一种信息处理方法,下面首先对本申请实施例适用的通信***进行描述。
请参见图1,图1是本申请实施例公开的一种通信***的架构示意图。如图1所示,该通信***包括终端设备101、服务设备102和多个数据服务器103。其中,该终端设备101可以是用户设备(user equipment,UE)、远程终端、移动终端、无线通信设备或用户装置等。用户可以通过终端设备101的输入设备在终端设备101显示的搜索框中输入查询语(例如家庭儿歌视频),然后点击搜索按钮,以便终端设备101检测到搜索按钮被点击时,通过网络将查询语发送给服务设备102(步骤S101);服务设备102可以用于对查询语进行分析识别,并基于分析识别的结果获得查询语的各个特征词的词权重值,进而基于各个特征词的词权重值从多个数据服务器103中获取搜索结果(步骤S102);然后将搜索得到的搜索结果发送给终端设备101,以便终端设备101在显示屏中输出搜索结果,以供用户根据自身需要进行选择。在一种实现方式中,服务设备102可以由处理器、存储器和网络接口组成,服务设备102可以是终端设备或者服务器,应用在本申请实施例中,服务设备102可以为搜索引擎服务器。
在一种实现方式中,图1中由服务设备102执行的步骤,可以由终端设备101替代执行,即终端设备101可以对查询语进行分析识别,并基于分析识别的结果获得查询语的各个特征词的词权重值,然后基于各个特征词的词权重值从多个数据服务器103中获取搜索结果。同理,在一种实现方式中,图1中由终端设备101执行的步骤,可以由服务设备102替代执行,即图1中服务设备102接收到的查询语,可以是服务设备102根据用户的输入操作得到的。
可以理解的是,本申请实施例描述的通信***是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于图1所示的通信***的架构示意图,请参见图2,图2是本申请实施例提供的一种信息处理方法的流程示意图,该方法可以应用于搜索***或者问答***,该方法可以包括但不限于如下步骤:
步骤S201:服务设备获取文本信息。其中,文本信息可以是一个词,也可以是由多个词组成的句子。在一种实现方式中,当图2所示方法应用于搜索***时,该文本信息可以是用户在查询搜索时输入的查询语,该查询语可以是以文本方式输入的,也可以是以语音方式输入的,当查询语以语音方式输入时,需要将语音格式的查询语转换为文本格式。在一种实现方式中,当图2所示方法应用于问答***时,该文本信息可以是用户在询问时输入的问题,该问题可以是以文本方式输入的,也可以是以语音方式输入的,当问题以语音方式输入时,需要将语音格式的问题转换为文本格式。本申请实施例以文本信息为查询语为例进行说明。在一种实现方式中,文本信息可以是用户在终端设备中输入,并由该终端设备发送给服务设备的,或者,该文本信息也可以是用户在服务设备中输入的,本申请实施例对此不作限定。在一种实现方式中,服务设备可以是终端设备或者服务器。
步骤S202:服务设备调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果。其中,该文本分析模型可以是机器学习模型中的分类模型或者回归模型。当该文本分析模型为分类模型时,该文本分析模型可以对应一个或多个分类类别。当该文本分析模型对应一个分类类别时,该文本分析模型可以用于识别该文本信息的真实用户意图是否属于该文本分析模型对应的分类类别,并且该文本分析模型的输出结果可以用于指示是否根据文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息的各个特征词的词权重值。在一种实现方式中,文本分析模型可以是基于大量真实的历史文本信息,以及输入历史文本信息的实际使用者反馈的分类类别训练得到的,因此,该文本分析模型可以用于识别该文本信息的真实用户意图。例如,当历史文本信息为用户在查询搜索时输入的查询语时,针对该查询语进行搜索可以得到查询结果,该用户作为实际使用者反馈的分类类别可以是该用户选择的查询结果所属的类别。若文本分析模型识别出该文本信息的真实用户意图属于该文本分析模型对应的分类类别,则文本分析模型的输出结果用于指示根据文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息的各个特征词的词权重值。例如,当该文本分析模型对应的分类类别为“儿歌类”,且文本信息为查询语“家庭儿歌视频”时,文本分析模型识别出“家庭儿歌视频”的真实用户意图属于“儿歌类”,此时,该文本分析模型的输出结果用于指示根据文本分析模型在分析识别时针对“家庭儿歌视频”中的各个特征词所使用的特征权重值确定“家庭儿歌视频”的各个特征词的词权重值。通过这种方式,可以使得文本信息的各个特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,即使得文本信息的各个特征词的词权重值与文本信息对应的真实用户意图之间的关联度较高,通过这种方式,可以提高特征词的词权重值的准确度。
在一种实现方式中,文本分析模型可以对应多个分类类别,并且文本分析模型可以包括多个判别器,其中,每一个判别器可以对应一个分类类别,文本分析模型可以通过判别器对文本信息进行分析识别,并且每一个判别器可以通过不同的特征权重值对文本信息进行分析识别,此时,该文本分析模型可以用于识别文本信息的真实用户意图属于该文本分析模型包括的哪一个判别器对应的分类类别。若文本信息的真实用户意图属于判别器1对应的分类类别,则文本分析模型的输出结果可以用于指示根据判别器1在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息的各个特征词的词权重值,其中,判别器1为文本分析模型包括的其中一个判别器。
在一种实现方式中,当该文本分析模型为回归模型时,该文本分析模型可以对应一个分类类别,该文本分析模型可以用于分析出该文本信息的真实用户意图属于该文本分析模型对应的分类类别的概率,即该文本分析模型的输出结果可以是一个概率值,当该概率值大于第一预设概率值阈值时,服务设备可以获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值,并基于获取的各个的特征权重值确定该文本信息中的各个特征词的词权重值。其中,第一预设概率值阈值可以是服务设备默认设置的,也可以是服务设备根据用户的输入操作确定的,本申请实施例对此不作限定。
在一种实现方式中,服务设备调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果的具体实施方式可以为:服务设备对文本信息进行分词处理,得到该文本信息的各个特征词,并将该文本信息的各个特征词作为文本分析模型的输入,得到该文本分析模型的输出结果。通过这种方式,仅需将文本信息的各个特征词输入文本分析模型,即可得到文本分析模型的输出结果,进而基于输出结果得到文本信息的各个特征词的词权重值,过程简单高效,当文本信息的特征词的数量为多个时,仅需调用一次文本分析模型,即可得到文本信息的各个特征词的词权重值。在一种实现方式中,服务设备对文本信息进行分词处理,得到该文本信息的各个特征词的具体实施方式可以为:服务设备调用分词算法对文本信息进行分词处理,得到该文本信息的各个分词,并将得到的各个分词确定为该文本信息的各个特征词。在一种实现方式中,分词算法可以包括但不限于基于字符串匹配的分词算法(如正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等)、基于理解的分词算法和基于统计的分词算法,本申请实施例对此不作限定。
步骤S203:服务设备根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值。文本分析模型是使用文本信息中的各个特征词的特征权重值对文本信息进行分析识别的,若文本分析模型的输出结果指示根据文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值确定文本信息的各个特征词的词权重值,则服务设备可以获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值,并基于获取的各个特征权重值确定该文本信息中的各个特征词的词权重值。其中,文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值可以是在训练过程中确定的,也可以是根据经验值设置的,本申请实施例对此不作限定。
步骤S204:服务设备基于获取的各个特征权重值,确定该文本信息中的各个特征词的词权重值。具体的,服务设备可以将文本分析模型针对文本信息中的各个特征词所使用的特征权重值作为该文本信息中的相应特征词的词权重值。例如,当文本信息为“家庭儿歌视频”,且“家庭儿歌视频”中的各个特征词分别为“家庭”、“儿歌”和“视频”时,服务设备可以将文本分析模型在分析识别时针对特征词“家庭”、“儿歌”和“视频”所使用的特征权重值分别作为“家庭”、“儿歌”和“视频”的词权重值。机器学习模型的传统使用方法是将作为机器学习模型的文本分析模型所使用的特征权重值作为分析识别过程中的参数,然后将文本分析模型的输出结果作为最终结果,然而本申请实施例直接将文本分析模型的参数(即特征权重值)作为文本信息的特征词的词权重值,与机器学习模型的传统使用方法有本质区别。
在一种实现方式中,文本信息中的特征词的个数可以为一个或多个,每个特征词在文本分析模型中均对应有一个特征权重值,服务设备基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值的具体实施方式可以为:服务设备对获取的各个特征权重值进行归一化处理,并将各个归一化处理后的特征权重值作为相应特征词的词权重值。
可见,通过实施本申请实施例,基于对文本信息进行分析识别得到的输出结果,确定文本信息中的各个特征词的词权重值,可以使得文本信息的各个特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,即使得文本信息的各个特征词的词权重值与文本信息对应的真实用户意图之间的关联度较高,有利于提高特征词的词权重值的准确度。
请参见图3,图3是本申请实施例提供的另一种信息处理方法的流程示意图,该方法可以应用于搜索***或者问答***,该方法可以包括但不限于如下步骤:
步骤S301:服务设备获取文本信息。需要说明的是,步骤S301的执行过程可参见图2中步骤S201的具体描述,在此不赘述。
步骤S302:服务设备调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果,该文本分析模型包括判别器,该文本分析模型是通过判别器对文本信息进行分析识别的。具体的,文本分析模型可以包括一个或多个判别器,当文本分析模型包括一个判别器时,文本分析模型的输出结果可以用于指示是否将文本分析模型中的判别器确定为目标判别器;当文本分析模型包括多个判别器时,根据文本分析模型的输出结果,可以从文本分析模型中的多个判别器中确定出目标判别器。在一种实现方式中,文本分析模型可以为分类模型,文本分析模型中的每一个判别器可以对应一个分类类别,文本分析模型中的每一个判别器对文本信息进行分析识别的识别结果可以为一个概率值,该概率值可以用于表征该文本信息属于输出该概率值的判别器对应的分类类别的概率。
在一种实现方式中,当文本分析模型包括一个判别器时,文本分析模型的输出结果可以是文本分析模型中的判别器对文本信息进行分析识别得到的概率值,若该概率值大于第二预设概率值阈值,则服务设备可以将文本分析模型中的判别器确定为目标判别器。在一种实现方式中,第二预设概率值阈值可以是服务设备默认设置的,也可以是服务设备根据用户的输入操作确定的,本申请实施例对此不作限定。
在一种实现方式中,当文本分析模型包括多个判别器,且每一个判别器对应一个分类类别时,文本分析模型的输出结果可以包括目标分类类别,进一步的,服务设备可以基于分类类别与判别器之间的对应关系,将与目标分类类别对应的判别器确定为目标判别器。其中,文本分析模型中的不同判别器对应的分类类别不同,该目标分类类别可以是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的,且各个判别器对文本信息进行分析后得到的识别结果可以为一个概率值。以图3a所示的一种获取目标分类类别的场景示意图为例,当文本分析模型包括3个判别器(判别器1、判别器2和判别器3),判别器1、判别器2和判别器3分别与工具类、学习类和儿歌类对应,且3个判别器对文本信息“家庭儿歌视频”进行分析识别得到的概率值分别为0.1、0.2和0.95时,文本分析模型的输出结果可以包括与输出最大概率值0.95的判别器对应的类别,即目标分类类别可以为儿歌类,进一步的,服务设备可以将儿歌类对应的判别器3作为目标判别器。其中,目标分类类别可以用于表征文本信息的真实用户意图,通过将目标分类类别对应的判别器确定为目标判别器,进而基于目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息中的各个特征词的词权重值,有利于提高词权重值的准确度。
在一种实现方式中,当文本分析模型包括多个判别器时,文本分析模型的输出结果可以包括目标概率值,进一步的,服务设备可以将输出该目标概率值的判别器确定为目标判别器。其中,文本分析模型中的不同判别器对文本信息进行分析识别得到的概率值不同,目标概率值可以为各个判别器输出的概率值中的最大概率值。以图3b所示的一种获取目标概率值的场景示意图为例,当文本分析模型包括3个判别器(判别器1、判别器2和判别器3),且3个判别器对文本信息“家庭儿歌视频”进行分析识别得到的概率值分别为0.1、0.2和0.95时,文本分析模型的输出结果可以包括3个概率值中的最大概率值,即目标概率值可以为0.95,进一步的,服务设备可以将输出目标概率值0.95的判别器3作为目标判别器。通过将输出最大概率值的判别器确实为目标判别器,可以提高确定出的目标判别器的准确度。
在一种实现方式中,当文本分析模型包括多个判别器时,文本分析模型的输出结果可以包括目标标识,进一步的,服务设备可以将目标标识对应的判别器确定为目标判别器。其中,目标标识用于唯一标识一个判别器,该目标标识可以是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的,且各个判别器对文本信息进行分析后得到的识别结果可以为一个概率值。以图3c所示的一种获取目标标识的场景示意图为例,当文本分析模型包括3个判别器(判别器1、判别器2和判别器3),3个判别器的标识分别为标识1、标识2和标识3,且3个判别器对文本信息“家庭儿歌视频”进行分析识别得到的概率值分别为0.1、0.2和0.95时,文本分析模型的输出结果可以包括输出最大概率0.95的判别器的标识,即目标标识可以为标识3,进一步的,服务设备可以将标识3对应的判别器3作为目标判别器。
步骤S303:服务设备根据该输出结果从文本分析模型包括的判别器中确定出目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。具体的,若输出结果包括目标分类类别,则服务设备可以基于分类类别与判别器之间的对应关系,将与目标分类类别对应的判别器确定为目标判别器;若输出结果包括目标概率值,则服务设备可以根据各个判别器输出的概率值,将输出该目标概率值的判别器确定为目标判别器;若输出结果包括目标标识,则服务设备可以基于标识与判别器之间的对应关系,将目标标识对应的判别器确定为目标判别器。
在本申请实施例中,目标判别器是基于针对文本信息中的各个特征词所使用的特征权重值对该文本信息进行分析识别的,针对文本信息中的各个特征词所使用的特征权重值可以是目标判别器在训练过程中确定的。在一种实现方式中,当文本分析模型包括多个判别器时,不同判别器对文本信息进行分析识别时针对文本信息中的各个特征词所使用的特征权重值均可以不同,或者,不同判别器在对文本信息进行分析识别时针对文本信息中的部分特征词所使用的特征权重值可以不同,并且针对文本信息中的另一部分特征词所使用的特征权重值可以相同,本申请实施例对此不作限定。本申请实施例根据文本分析模型的输出结果从文本分析模型包括的判别器中确定出目标判别器,而非从文本分析模型中随机确定出目标判别器,有利于提高根据目标判别器确定出的特征词的词权重值的准确度。
步骤S304:服务设备将目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值作为文本信息中的相应特征词的词权重值。在一种实现方式中,服务设备可以将各个判别器在对文本信息进行分析识别时针对文本信息中的各个特征词所使用的特征权重值记录于数据库中,以便在确定出目标判别器之后,服务设备可以从数据库中提取出目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值,进而将提取出的各个特征权重值直接作为相应特征词的词权重值。通过将针对文本信息中的各个特征词所使用的特征权重值直接作为文本信息中的相应特征词的词权重值,可以提高确定词权重值的效率。
步骤S305:服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理。基于文本信息和该文本信息的各个特征词的词权重值进行信息处理,可以得到更加符合用户意图的信息处理结果。
在一种实现方式中,当图3所述方法应用于搜索***时,该文本信息可以为查询语,服务设备根据查询语中的各个特征词的词权重值对该查询语进行搜索,可以使得搜索召回的结果更加符合用户搜索需求。在一种实现方式中,当图3所述方法应用于问答***时,该文本信息可以为问题,服务设备根据问题中的各个特征词的词权重值对该问题进行搜索,可以得到更加符合用户意图的答案。
在一种实现方式中,文本信息可以为查询信息,服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式可以为:服务设备基于查询信息和该查询信息的各个特征词的词权重值,搜索得到该查询信息的第一查询结果,并输出第一查询结果。其中,第一查询结果可以是服务设备根据查询信息的各个特征词的词权重值对查询信息的特征词进行加权处理后搜索得到的,通过这种方式,当图3所述方法应用于搜索***时,可以有效提高搜索召回的第一查询结果的准确率,并且可以使得第一查询结果更加符合用户搜索需求。
在一种实现方式中,文本信息可以为查询信息,服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式还可以为:根据查询信息搜索得到第二查询结果,并基于查询信息的各个特征词的词权重值,对第二查询结果进行排序,输出排序后的第二查询结果。其中,第二查询结果可以是基于查询信息的各个特征词的词权重值进行搜索得到的,或者,若服务设备在根据查询信息进行搜索时,无法通过文本分析模型获取查询信息的各个特征词的词权重值,则第二查询结果可以是基于为查询信息中的各个特征词设置的默认权重值进行搜索得到的。在一种实现方式中,默认权重值可以是服务设备根据预先设定的经验值设置的,也可以是根据TF-IDF算法计算得到的词权重值,本申请实施例对此不作限定。服务设备在获取第二查询结果之后,基于查询信息的各个特征词的词权重值,对第二查询结果进行排序,可以优先输出更符合用户搜索需求的第二查询结果,即将更符合用户搜索需求的第二查询结果排在前面展示给用户,可以有效提高搜索效果。
在一种实现方式中,文本信息可以为查询信息,服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式还可以为:根据查询信息搜索得到第二查询结果,对查询信息的各个特征词的词权重值进行归一化处理,基于归一化之后的各个特征词的词权重值,对第二查询结果进行排序,并输出排序后的第二查询结果。例如,若查询信息包括的3个特征词分别为特征词1、特征词2和特征词3,且各自的词权重值分别为1.2、0.8和0.2时,归一化之后的特征词1、特征词2和特征词3的词权重值分别为:1.2/2.2、0.8/2.2和0.2/2.2。
在一种实现方式中,服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理的具体实施方式还可以为:基于文本信息的各个特征词的词权重值,在文本信息的特征词中,确定出核心词和/或无效词。具体的,当文本信息为查询信息时,服务设备可以在前述文本信息的特征词中,将权重值最大的特征词作为该文本信息的核心词,并基于核心词进行搜索。当图3所述方法应用于搜索***时,核心词是最能代表文本信息对应的真实用户意图的特征词,相较于基于文本信息的所有特征词进行搜索,基于核心词进行搜索可以避免其他特征词对查询结果造成影响,而导致召回的查询结果不符合文本信息对应的真实用户意图,有利于提高搜索效果。
在一种实现方式中,当文本信息为查询信息时,服务设备还可以在查询信息的特征词中,将权重值最大的特征词作为该查询信息的核心词,并获取该核心词的同义词,然后基于该核心词和同义词进行搜索。通过对核心词进行同义词扩展,然后基于核心词和核心词的同义词进行搜索,可以召回更多的查询结果,进而为用户提供更多的选择。例如,查询信息为“什么软件看美职篮好”,且“美职篮”为该查询信息的核心词时,通过扩展核心词的同义词,得到“NBA”,基于“美职篮”和“NBA”进行搜索,可以召回更多查询结果。在一种实现方式中,若基于核心词搜索召回的查询结果较少,则服务设备可以获取核心词的同义词,然后基于核心词和同义词再次进行搜索,并输出再次搜索后得到的查询结果。在一种实现方式中,服务设备可以预先存储有同义词数据库,服务设备可以通过查询同义词数据库获取核心词的同义词,若同义词数据库中不存在该核心词的同义词,则服务设备可以向云服务器请求获取该核心词的同义词。
在一种实现方式中,当文本信息为查询信息时,服务设备可以在查询信息的特征词中,将权重值小于预设权重值阈值的特征词确定为无效词。在一种实现方式中,服务设备确定无效词之后,可以基于查询信息的特征词中除无效词以外的其他特征词进行搜索,通过基于查询信息的特征词中除无效词以外的其他特征词进行搜索,可以减少无效内容的召回,并提高召回内容的准确率。其中,预设权重值阈值可以是服务设备默认设置的,也可以是服务设备根据用户的输入操作确定的,本申请实施例对此不作限定。
可见,通过实施本申请实施例,在文本分析模型包括的判别器中确定出目标判别器,进而将目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值作为文本信息的相应特征词的词权重值,可以提高特征词的词权重值的准确度。另外,基于文本信息和该文本信息的各个特征词的词权重值进行信息处理,可以得到更加符合用户意图的信息处理结果。
请参见图4,图4是本申请实施例提供的又一种信息处理方法的流程示意图,该方法可以应用于搜索***或者问答***,该方法可以包括但不限于如下步骤:
步骤S401:服务设备获取文本信息。
需要说明的是,步骤S401的执行过程可参见图2中步骤S201的具体描述,在此不赘述。
步骤S402:服务设备调用文本分析模型,通过文本分析模型中的各个判别器对文本信息进行分析识别,并获取文本分析模型输出的目标分类类别,其中,该文本分析模型为分类模型,该文本分析模型包括多个判别器,每一个判别器对应一个分类类别。每一个判别器进行分析识别的识别结果为一个概率值,每一个判别器输出的概率值可以用于表征该文本信息属于输出该概率值的判别器对应的分类类别的概率。在一种实现方式中,服务设备可以确定文本分析模型中的各个判别器输出的概率值中的最大概率值,并将输出该最大概率值的判别器对应的分类类别作为目标分类类别,其中,目标分类类别可以用于表征文本信息的真实用户意图。通过将输出最大概率值的判别器对应的分类类别作为文本信息的真实用户意图,可以提高确定出的真实用户意图的准确度。
在一种实现方式中,判别器是通过文本信息中的各个特征词的特征权重值对该文本信息进行分析识别的,不同判别器对同一文本信息进行分析识别时针对文本信息中的各个特征词所使用的特征权重值均可以不同,或者,不同判别器在对同一文本信息进行分析识别时针对文本信息中的部分特征词所使用的特征权重值可以不同,并且针对文本信息中的另一部分特征词所使用的特征权重值可以相同,因此,不同判别器对同一文本信息进行分析识别得到的概率值不同。在一种实现方式中,文本分析模型中的不同判别器对应的分类类别不同。
在一种实现方式中,文本分析模型可以是基于训练样本数据训练得到的。具体的,服务设备训练得到文本分析模型的具体实施方式可以为:服务设备获取训练样本数据,该训练样本数据包括历史文本信息和标注信息,并基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型。
其中,预设模型是还未经过训练的模型。在一种实现方式中,当图4所示方法应用于搜索***时,该历史文本信息可以是用户以往在查询搜索时输入的查询语(即历史查询语),标注信息可以是根据对该历史查询语搜索得到的搜索结果所属的分类类别确定的。例如,对该历史查询语搜索得到的搜索结果的数量为3个,并且用户选择了其中的1个搜索结果,则标注信息为用户选择的搜索结果所属的分类类别。在一种实现方式中,当图4所示方法应用于问答***时,该历史文本信息可以是用户以往在询问时输入的问题(即历史问题),标注信息可以是根据对该历史问题搜索得到的答案所属的分类类别确定的。例如,对该历史问题搜索得到的答案的数量为3个,并且用户选择了其中的1个答案,则标注信息为用户选择的答案所属的分类类别。在一种实现方式中,预设模型可以为文本信息中的各个特征词设置初始特征权重值,服务设备可以基于历史文本信息和标注信息,对预设模型为文本信息中的各个特征词设置的初始特征权重值进行优化,以得到前述文本分析模型。
在一种实现方式中,当文本信息为查询信息时,前述历史文本信息可以为历史查询信息,前述标注信息可以是根据对历史查询信息查询得到的查询结果的用户操作数据确定的,服务设备可以获取历史查询信息和对历史查询信息查询得到的查询结果的用户操作数据,并根据对历史查询信息查询得到的查询结果的用户操作数据自动确定标注信息,并基于历史查询信息和标注信息,对预设模型进行训练,得到前述文本分析模型,其中,历史查询信息是用户以往输入的真实查询信息,用户操作数据是输入真实查询信息之后根据用户的真实操作得到的数据,即该用户操作数据可以是根据用户反馈的数据得到的,换言之,该文本分析模型是基于真实的用户反馈数据训练得到的。通过这种方式,当图4所示方法应用于搜索***时,可以使得文本分析模型对查询信息进行分析识别得到的目标分类类别更加符合该查询信息对应的真实用户意图,进一步的,基于该目标分类类别得到的各个特征词的词权重值,可以更加客观地反映用户的真实搜索需求。
在一种实现方式中,服务设备可以将接收到的所有查询信息(包括历史查询信息和当前查询信息)存储至日志文件,相应的,服务设备可以通过查询日志文件,得到大量历史查询信息。服务设备对历史查询信息进行搜索,可以得到一个或多个搜索结果,用户可以在得到的所有搜索结果中选择自身需要的搜索结果,并且不同用户在输入同一历史查询信息之后,针对得到的相同搜索结果,可以从中选择相同或者不同的搜索结果。在一种实现方式中,服务设备可以将被用户选择的搜索结果确定为对该历史查询信息查询得到的查询结果,并且对该历史查询信息查询得到的查询结果的数量可以为多个。
具体的,对该历史查询信息查询得到的查询结果的用户操作数据可以包括:对该历史查询信息查询得到的查询结果及每个查询结果的选择次数、以及每个查询结果所属的分类类别。其中,每个查询结果的选择次数可以是通过统计每个查询结果被用户点击浏览、下载或者进行其他操作的次数得到的。在一种实现方式中,服务设备中可以预先存储有对该历史查询信息查询得到的每个查询结果所属的分类类别,例如,在某视频服务器中存储了大量的视频内容,其中,视频服务器在存储每个视频内容时,会为每个视频内容设置相应的分类类别,以便后续用户搜索时,可以基于视频内容的分类类别搜索得到更加符合用户需求的视频内容。需要说明的是,上述举例并非穷举,在应用下载服务器、电商服务器或者其他服务器中均会设置并存储各个内容的分类类别;另外,在问答对话***中,也可以将历史用户问题作为历史查询信息,并将用户输入该历史用户问题之后,用户选择的操作所属的类别作为该历史用户问题对应的分类类别,用户选择的操作所属的类别可以用于表征用户输入该历史用户问题的真正意图。例如,在问答对话***中,若用户输入的历史用户问题为“如何关闭相机的闪光灯”,并且输入该历史用户问题之后问答对话***提供的两个选项分别为相机设置和***设置,且用户选择了相机设置,即表明用户输入该历史用户问题的真正意图在于进行相机参数设置。
在一种实现方式中,预设模型可以是多分类模型,并且该预设模型可以是one vsrest模式的多分类模型,具体实现中,该预设模型可以为支持向量机(Support VectorMachine,SVM)、线性SVM、逻辑回归(Logistic Regression,LR)、梯度提升决策树(GradientBoosting Decision Tree,GBDT)、随机森林(Random Forest,RF)或稀疏树(Sparse Tree,ST)等模型,本申请实施例对此不作限定。
在一种实现方式中,服务设备基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型的具体实施方式可以为:服务设备将历史查询信息作为训练数据输入到预设模型中,得到训练结果,并根据该训练结果和标注信息对预设模型进行参数优化,以得到文本分析模型,其中,标注信息可以为根据用户操作数据确定的第一分类类别。具体的,服务设备将历史查询信息作为训练数据输入到预设模型中,以便预设模型对历史查询信息对应的真实用户意图进行预测,并将预测得到的预测类别作为训练结果。若预测类别和第一分类类别不一致,则表明预测类别不准确,需要对预设模型进行参数优化,使得优化后的预设模型对历史查询信息的真实用户意图进行预测时,得到的预测类别与第一分类类别一致。
其中,第一分类类别可以为对该历史查询信息查询得到的查询结果中选择次数最多的查询结果所属的分类类别,或者,在第一分类类别下的查询结果被选择的选择次数之和最大。服务设备将被用户选择的搜索结果确定为对该历史查询信息查询得到的查询结果时,服务设备还可以自动计算属于同一分类类别的所有查询结果的选择次数之和,进而比较属于不同分类类别的所有查询结果的选择次数之和,并得到次数和的最大值,然后将次数和的最大值对应的分类类别确定为第一分类类别,第一分类类别可以用于表征前述历史查询信息对应的真实用户意图。例如,若用户输入查询信息1,并对查询信息1进行搜索得到了10个搜索结果,其中,仅有3个搜索结果被用户选择,即该3个搜索结果为对查询信息1查询得到的查询结果,该3个查询结果被选择的选择次数及其所属的分类类别如表1所示。由表1可知,在类别1下,被选择的所有查询结果为查询结果1和查询结果3,在类别2下,被选择的所有查询结果为查询结果2。相较于类别2,在类别1下的查询结果(即查询结果1和查询结果3)被选择的选择次数之和最大,此时,可以将类别1确定为第一分类类别,并可以认为用户输入查询信息1的真实用户意图在于获取分类类别为类别1的内容。由此可知,服务设备可以自动确定第一分类类别,而无需人工标注第一分类类别,有利于降低模型训练成本,并且还可以避免因标注者的主观性使得人工标注得到的第一分类类别不能准确反映用户输入查询信息的真实用户意图。
表1查询结果的选择次数及其所属的分类类别
查询结果标识 选择次数(次) 所属的分类类别
查询结果1 100 类别1
查询结果2 30 类别2
查询结果3 8 类别1
在一种实现方式中,预设模型可以包括多个初始判别器,前述训练结果可以是预设模型中的初始判别器对历史查询信息进行分析识别得到的。在一种实现方式中,服务设备根据前述训练结果和标注信息对预设模型进行参数优化的具体实施方式可以为:根据该训练结果和第一分类类别对预设模型中的初始判别器所使用的初始特征权重值进行优化。
具体的,前述训练结果可以是预设模型根据各个初始判别器对历史查询信息进行分析识别得到的识别结果确定的,每个初始判别器可以是根据为历史查询信息的各个特征词设置的初始特征权重值,对该历史查询信息进行分析识别的,每个初始判别器进行分析识别得到的识别结果可以为一个概率值,该概率值可以表征该历史查询信息对应的真实用户意图为输出该概率值的初始判别器对应的分类类别的概率,前述训练结果可以为输出最大概率值的初始判别器对应的分类类别。
在一种实现方式中,若前述训练结果(即预测类别)与第一分类类别不同,则服务设备可以对预设模型中的部分初始判别器所使用的初始特征权重值进行优化。例如,服务设备可以对目标初始判别器为历史查询信息的各个特征词设置的初始特征权重值进行修改,其中,目标初始判别器与预测类别相对应,并且基于修改后的初始特征权重值,预设模型对历史查询信息进行分析识别得到的分类类别与第一分类类别相同。在一种实现方式中,若前述预测类别与第一分类类别不同,则服务设备也可以对预设模型中的全部初始判别器所使用的初始特征权重值进行优化,本申请实施例对此不作限定。
在本申请实施例中,服务设备可以自动获取训练数据和标注信息,并自动完成模型训练,而不用人工标注数据,有利于降低模型训练成本。另外,服务设备可以自动优化模型,从而有效提高预测准确率。
在一种实现方式中,在训练得到文本分析模型之后,服务设备可以获取测试样本数据,测试样本数据与前述训练样本数据包括的数据相同,即测试样本数据包括大量历史查询信息和每个历史查询信息的类别,值得注意的是,在训练文本分析模型时,测试样本数据中的历史查询信息并未作为训练数据输入至预设模型中。服务设备获取测试样本数据之后,可以调用文本分析模型对测试样本数据中的每个历史查询信息进行分析识别;并将文本分析模型输出的目标分类类别和测试样本数据中对应的历史查询信息的类别进行比较,若文本分析模型输出的目标分类类别和测试样本数据中对应的历史查询信息的类别不同,则预测错误,若文本分析模型输出的目标分类类别和测试样本数据中对应的历史查询信息的类别相同,则预测正确,从而统计得到预测准确率;若预测准确率小于预设准确率阈值,则服务设备可以对文本分析模型进行参数优化,使得优化后的文本分析模型对测试样本数据进行预测得到的预测准确率大于或等于预设准确率阈值。通过基于预测准确率进行模型调优,可以确保文本分析模型的准确率,进一步的,有利于提高特征词的词权重值的准确度。在一种实现方式中,预设准确率阈值可以是服务设备默认设置的,也可以是服务设备根据用户的输入操作确定的,本申请实施例对此不作限定。
步骤S403:服务设备基于分类类别与判别器之间的对应关系,将目标分类类别对应的判别器作为目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。其中,目标判别器可以为输出前述最大概率值的判别器。
在一种实现方式中,文本分析模型中的各个判别器均是使用为文本信息中的各个特征词设置的特征权重值,对文本信息进行分析识别的,各个判别器使用的特征权重值是各个判别器在训练过程中确定的。在一种实现方式中,不同判别器在分析识别时对文本信息中的各个特征词使用的特征权重值均可以不同。在一种实现方式中,文本分析模型包括的各个判别器可以用于识别不同分类类别的文本信息,换言之,当文本分析模型中的判别器用于识别属于该判别器对应的分类类别的文本信息时,该判别器输出的概率值相较文本分析模型中的其他判别器对该文本信息进行分析识别得到的概率值要大。例如,当文本分析模型包括两个判别器(如第一判别器和第二判别器),且第一判别器用于识别“视频类”的文本信息,第二判别器用于识别“儿歌类”的文本信息时,当文本信息为“家庭儿歌视频”,且“家庭儿歌视频”的意图类别为“儿歌类”时,第二判别器对“家庭儿歌视频”进行分析识别后输出的概率值将大于第一判别器对“家庭儿歌视频”进行分析识别后输出的概率值;当文本信息为“视频广告跳过”,且“视频广告跳过”的意图类别为“视频类”时,第一判别器对“视频广告跳过”进行分析识别后输出的概率值将大于第二判别器对“视频广告跳过”进行分析识别后输出的概率值。
在一种实现方式中,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值不同,由于文本分析模型的判别器是通过特征权重值对不同分类类别的文本信息进行分析识别的,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值不同,使得文本分析模型的不同判别器根据不同的特征权重值可以准确识别出文本信息所属的分类类别。具体的,服务设备调用文本分析模型对文本信息进行分析识别后,可以得到目标分类类别,也即该文本信息的意图类别,若文本分析模型输出的目标分类类别不同,则服务设备确定的目标判别器不同,由于各个判别器在对文本信息进行分析识别时针对文本信息中的各个特征词所使用的特征权重值均不相同。因此,服务设备基于文本分析模型输出的目标分类类别确定文本信息中的各个特征词的词权重值,可以使得同一特征词在属于不同意图类别的文本信息中时确定出的词权重值不同,采用该词权重值可以得到更加符合用户搜索需求的搜索结果。
例如,当文本信息为查询语时,基于实验数据可以得出:特征词为“视频”或者“皮肤”,且该特征词在属于不同意图类别(即分类类别)的查询语中时,该特征词对于用户真正需要获取的内容的重要度不同,特征词“视频”和“皮肤”在属于不同意图类别的查询语中时确定出的词权重值分别如表2和表3所示。
表2特征词“视频”在属于不同意图类别的查询语中时确定出的词权重值
表3特征词“皮肤”在属于不同意图类别的查询语中时确定出的词权重值
由表2可知,4个查询语中虽然均包括特征词“视频”,但是4个查询语所属的意图类别是不同的,且特征词“视频”在属于不同意图类别的查询语中时,得到的词权重值不同。且仅在查询语为“视频广告跳过”时,即所属的意图类别为视频类时,特征词“视频”的词权重值最高。若不能识别查询语的意图类别,将使得特征词在属于不同意图类别的查询语中时,具有相同的词权重值。例如,若输入的查询语为“家庭儿歌视频”时,得到的特征词“视频”的词权重值与特征词“视频”在查询语“视频广告跳过”中时的词权重值相同,为0.726,此时,特征词“视频”的词权重值远远大于查询语“家庭儿歌视频”中的其他特征词的词权重值,这将导致输入查询语“家庭儿歌视频”搜索得到的结果大部分为视频类的应用程序,并且由于视频类的应用程序数量较多,而儿歌类的应用程序数量较少,因此很容易将视频类应用程序排在前面展现给用户,使得用户输入查询语“家庭儿歌视频”却不能获取真正需要的儿歌类应用程序。基于表3可以得出与表2一致的结论。
可见,调用文本分析模型,以便通过文本分析模型中的各个判别器对文本信息进行分析识别,可以得到该文本信息的真实意图类别,进而获取在该意图类别下该文本信息中的各个特征词的词权重值,可以提高特征词的词权重值的准确度,基于该特征词的词权重值对文本信息进行搜索,可以得到更加符合用户真实需求的搜索结果。
步骤S404:服务设备将目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值确定为文本信息中的相应特征词的词权重值。文本分析模型的各个判别器是通过特征权重值对文本信息进行分析识别的,通过不同的特征权重值可以将文本信息分类为不同的类别,各个判别器是通过特征权重来区分属于不同分类类别的文本信息的。通过将目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值确定为文本信息的相应特征词的词权重值,可以使得采用该词权重值对文本信息进行搜索时,可以过滤掉不属于目标分类类别的搜索结果,进而得到属于目标分类类别的搜索结果,也即得到真正符合用户搜索需求的搜索结果。
在一种实现方式中,各个判别器使用的特征权重值可以是各个判别器在训练过程中确定的。在训练过程中,服务设备可以获取大量的历史查询信息,然后对各个历史查询信息进行分词处理,得到各个历史查询信息的特征词,所有历史查询信息的特征词可以组成特征词词典。服务设备可以将特征词词典中的每一个特征词作为一维特征,在确定训练数据时,服务设备可以获取查询信息中的每个特征词的编码,然后根据该查询信息的所有特征词的编码组合,得到该查询信息的特征向量,并将特征向量输入至预设模型进行训练。预设模型中的初始判别器预先为特征词词典中的每一维特征设置了初始特征权重值,初始判别器可以基于为查询信息中的各个特征词设置的初始特征权重值对查询信息进行分析识别。在一种实现方式中,服务设备还可以为特征词词典中的每个词设置唯一的特征标识,在确定训练数据时,服务设备可以基于特征词词典,得到历史查询信息中的每个特征词的特征标识,然后将历史查询信息中的每个特征词的特征标识作为训练数据输入至预设模型进行训练。预设模型中的初始判别器预先为特征词词典中的每一个特征标识设置了初始特征权重值,初始判别器可以基于为查询信息中的各个特征词设置的初始特征权重值对查询信息进行分析识别。通过将查询信息的每个特征词直接作为特征,不用人工设计特征,可以有效降低模型的训练成本。
在一种实现方式中,服务设备基于目标判别器在分析识别时针对查询信息中的各个特征词所使用的特征权重值,确定查询信息中的各个特征词的词权重值的具体实施方式可以为:服务设备判断查询信息的各个特征词是否存在于特征词词典中,若查询信息的第一特征词存在于特征词词典,则获取目标判别器在分析识别时针对第一特征词所使用的特征权重值,并将该特征权重值确定为第一特征词的词权重值;若查询信息的第二特征词不存在于特征词词典,则获取默认值或者第二特征词的逆文本频率指数,并将默认值或者第二特征词的逆文本频率指数确定为第二特征词的词权重值。其中,默认值可以是由服务设备默认设置的,也可以是服务设备根据预先设定的经验值设置的,本申请实施例对此不作限定。需要说明的是,当文本信息为查询信息时,由于查询信息包括的词较少,因此查询信息中的各个特征词在查询信息中的出现频率基本相同,因此词频对于区分不同特征词在查询信息中的重要程度没有帮助,所以当查询信息的第二特征词不存在于特征词词典时,服务设备可以将第二特征词的逆文本频率指数确定为第二特征词的词权重值。
步骤S405:服务设备基于文本信息和该文本信息的各个特征词的词权重值进行信息处理。
为了了解采用图4所述方法得到的词权重值的应用效果,以图4所述方法应用于搜索***,并且文本信息为查询语进行说明,将基于IDF方法得到的词权重作为对比,对查询语的搜索效果进行了测试,基于图4所述方法得到的词权重值和基于IDF方法得到的词权重值对查询语进行搜索得到的查询结果可以如表4所示。
查询语为“熊出没碰碰汽车”时,用户真正需要的是与熊出没相关的应用程序,由表4可知,基于图4所述方法得到的词权重值对查询语进行搜索得到的查询结果为与熊出没相关的应用程序,然而,基于IDF方法得到的词权重值对查询语进行搜索得到的查询结果为与碰碰相关的应用程序。因此,采用本申请实施例提出的方法可以有效提高查询结果的准确度。
表4基于图4所述方法得到的词权重值和基于IDF方法得到的词权重值对查询语进行搜索得到的查询结果
可见,通过实施本申请实施例,不仅可以确定文本信息的真实意图类别,还可以获取在文本信息的真实意图类别下,文本信息的各个特征词的词权重值,基于获取的各个词权重值和文本信息进行信息处理,可以得到更加符合用户需求的信息处理结果。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图5,图5是本申请实施例提供的一种信息处理装置的结构示意图,信息处理装置50用于执行图2-图4对应的方法实施例中服务设备所执行的步骤,信息处理装置50可以包括:
获取模块501,用于获取文本信息;
分析模块502,用于调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果;
获取模块501,还用于根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值;
确定模块503,用于基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值。
在一种实现方式中,文本分析模型可以包括判别器,文本分析模型是通过判别器对文本信息进行分析识别的;获取模块501具体用于根据输出结果从文本分析模型包括的判别器中确定出目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。
在一种实现方式中,文本分析模型可以为分类模型,文本分析模型可以包括多个判别器,每一个判别器可以对应一个分类类别,获取模块501用于根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体用于将与文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,目标分类类别是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器进行分析识别的识别结果可以为一个概率值,前述输出结果可以包括目标概率值,目标概率值可以为文本分析模型的各个判别器输出的概率值中的最大概率值;获取模块501用于根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体用于将输出目标概率值的判别器确定为目标判别器。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器可以对应一个标识;获取模块501用于根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体用于将与文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,目标标识是根据文本分析模型的各个判别器对文本信息进行分析识别后得到的识别结果确定的。
在一种实现方式中,确定模块503用于基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值时,具体用于将针对文本信息中的各个特征词所使用的特征权重值作为文本信息中的相应特征词的词权重值。
在一种实现方式中,文本分析模型包括的各个判别器可以用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值不同。
在一种实现方式中,分析模块502具体用于对文本信息进行分词处理,得到文本信息的各个特征词;并将文本信息的各个特征词作为文本分析模型的输入,得到文本分析模型的输出结果。
在一种实现方式中,信息处理装置50还可以包括训练模块504,用于获取训练样本数据,训练样本数据包括历史文本信息和标注信息;并基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型。
需要说明的是,图5对应的实施例中未提及的内容以及各个模块执行步骤的具体实现方式可参见图2-图4所示实施例以及前述内容,这里不再赘述。
在一种实现方式中,图5中的各个模块所实现的相关功能可以结合处理器与网络接口来实现。参见图6,图6是本申请实施例提供的一种服务设备的结构示意图,该服务设备60可以包括网络接口601、处理器602和存储器603,网络接口601、处理器602和存储器603可以通过一条或多条通信总线相互连接,也可以通过其它方式相连接。图6所示的第一处理模块501、第二处理模块502、第三处理模块503和第四处理模块504所实现的相关功能可以通过同一个处理器602来实现,也可以通过多个不同的处理器602来实现。
网络接口601可以用于发送数据和/或信令,以及接收数据和/或信令。应用在本申请实施例中,网络接口601可以用于获取文本信息。
处理器602被配置为执行图2-图4所述方法中服务设备相应的功能。该处理器602可以包括一个或多个处理器,例如该处理器602可以是一个或多个中央处理器(centralprocessing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。在处理器602是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器603用于存储程序代码等。存储器603可以包括易失性存储器(volatilememory),例如随机存取存储器(random access memory,RAM);存储器603也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器603还可以包括上述种类的存储器的组合。
处理器602可以调用存储器603中存储的程序代码以执行以下操作:
获取文本信息;
调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果;
根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值;
基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值。
在一种实现方式中,文本分析模型可以包括判别器,文本分析模型是通过判别器对文本信息进行分析识别的;处理器602执行根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值时,具体可以执行以下操作:根据输出结果从文本分析模型包括的判别器中确定出目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。
在一种实现方式中,前述文本分析模型可以为分类模型,文本分析模型可以包括多个判别器,每一个判别器对应一个分类类别;处理器602执行根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体可以执行以下操作:将与文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,目标分类类别是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器进行分析识别的识别结果可以为一个概率值,前述输出结果可以包括目标概率值,目标概率值可以为文本分析模型的各个判别器输出的概率值中的最大概率值;处理器602执行根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体可以执行以下操作:将输出目标概率值的判别器确定为目标判别器。
在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器可以对应一个标识;处理器602执行根据输出结果从文本分析模型包括的判别器中确定出目标判别器时,具体可以执行以下操作:将与文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,目标标识是根据文本分析模型的各个判别器对文本信息进行分析识别后得到的识别结果确定的。
在一种实现方式中,处理器602执行基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值时,具体可以执行以下操作:将针对文本信息中的各个特征词所使用的特征权重值作为文本信息中的相应特征词的词权重值。
在一种实现方式中,文本分析模型包括的各个判别器可以用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值可以不同。
在一种实现方式中,处理器602执行基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值时,具体可以执行以下操作:对文本信息进行分词处理,得到该文本信息的各个特征词;将该文本信息的各个特征词作为文本分析模型的输入,得到文本分析模型的输出结果。
在一种实现方式中,处理器602还可以执行以下操作:获取训练样本数据,训练样本数据包括历史文本信息和标注信息;并基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型。
进一步地,处理器602还可以执行图2-图4所示实施例中服务设备对应的操作,具体可参见方法实施例中的描述,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,可以用于存储图5所示实施例中信息处理装置所用的计算机软件指令,其包含用于执行上述实施例中为服务设备所设计的程序。
上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。
本申请实施例还提供一种计算机程序产品,该计算机产品被计算设备运行时,可以执行上述图2-图4实施例中为服务设备所设计的方法。
在本申请实施例中还提供一种芯片,包括处理器和存储器,该存储器用包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,该计算机程序用于实现上述方法实施例中的方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种信息处理方法,其特征在于,所述方法包括:
获取文本信息;
调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果;
根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值;
基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值。
2.根据权利要求1所述的方法,其特征在于,所述文本分析模型包括判别器,所述文本分析模型是通过所述判别器对所述文本信息进行分析识别的;所述根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值,包括:
根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,并获取所述目标判别器在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值。
3.根据权利要求2所述的方法,其特征在于,所述文本分析模型为分类模型,所述文本分析模型包括多个判别器,每一个判别器对应一个分类类别;
所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:
将与所述文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,所述目标分类类别是根据所述文本分析模型的各个判别器对所述文本信息进行分析后得到的识别结果确定的。
4.根据权利要求2所述的方法,其特征在于,所述文本分析模型包括多个判别器,每一个判别器进行分析识别的识别结果为一个概率值,所述输出结果包括目标概率值,所述目标概率值为所述文本分析模型的各个判别器输出的概率值中的最大概率值;
所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:
将输出所述目标概率值的判别器确定为目标判别器。
5.根据权利要求2所述的方法,其特征在于,所述文本分析模型包括多个判别器,每一个判别器对应一个标识;
所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:
将与所述文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,所述目标标识是根据所述文本分析模型的各个判别器对所述文本信息进行分析识别后得到的识别结果确定的。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值,包括:
将所述针对所述文本信息中的各个特征词所使用的特征权重值作为所述文本信息中的相应特征词的词权重值。
7.根据权利要求3所述的方法,其特征在于,所述文本分析模型包括的各个判别器用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在所述文本分析模型包括的不同判别器中的特征权重值不同。
8.根据权利要求1~5任一项所述的方法,其特征在于,所述调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果,包括:
对所述文本信息进行分词处理,得到所述文本信息的各个特征词;
将所述文本信息的各个特征词作为所述文本分析模型的输入,得到所述文本分析模型的输出结果。
9.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括:
获取训练样本数据,所述训练样本数据包括历史文本信息和标注信息;
基于所述历史文本信息和所述标注信息,对预设模型进行训练,得到所述文本分析模型。
10.一种信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取文本信息;
分析模块,用于调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果;
所述获取模块,还用于根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值;
确定模块,用于基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值。
11.根据权利要求10所述的装置,其特征在于,所述文本分析模型包括判别器,所述文本分析模型是通过所述判别器对所述文本信息进行分析识别的;
所述获取模块具体用于根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,并获取所述目标判别器在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值。
12.根据权利要求11所述的装置,其特征在于,所述文本分析模型为分类模型,所述文本分析模型包括多个判别器,每一个判别器对应一个分类类别;
所述获取模块用于根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器时,具体用于将与所述文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,所述目标分类类别是根据所述文本分析模型的各个判别器对所述文本信息进行分析后得到的识别结果确定的。
13.根据权利要求11所述的装置,其特征在于,所述文本分析模型包括多个判别器,每一个判别器进行分析识别的识别结果为一个概率值,所述输出结果包括目标概率值,所述目标概率值为所述文本分析模型的各个判别器输出的概率值中的最大概率值;
所述获取模块用于根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器时,具体用于将输出所述目标概率值的判别器确定为目标判别器。
14.根据权利要求11所述的装置,其特征在于,所述文本分析模型包括多个判别器,每一个判别器对应一个标识;
所述获取模块用于根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器时,具体用于将与所述文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,所述目标标识是根据所述文本分析模型的各个判别器对所述文本信息进行分析识别后得到的识别结果确定的。
15.根据权利要求10~14任一项所述的装置,其特征在于,
所述确定模块用于基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值时,具体用于将所述针对所述文本信息中的各个特征词所使用的特征权重值作为所述文本信息中的相应特征词的词权重值。
16.根据权利要求12所述的装置,其特征在于,所述文本分析模型包括的各个判别器用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在所述文本分析模型包括的不同判别器中的特征权重值不同。
17.根据权利要求10~14任一项所述的装置,其特征在于,
所述分析模块具体用于对所述文本信息进行分词处理,得到所述文本信息的各个特征词;并将所述文本信息的各个特征词作为所述文本分析模型的输入,得到所述文本分析模型的输出结果。
18.根据权利要求10~14任一项所述的装置,其特征在于,所述装置还包括训练模块;
所述训练模块,用于获取训练样本数据,所述训练样本数据包括历史文本信息和标注信息;并基于所述历史文本信息和所述标注信息,对预设模型进行训练,得到所述文本分析模型。
19.一种服务设备,其特征在于,包括存储器和处理器,所述存储器中存储有程序指令,所述处理器通过总线与所述存储器连接,所述处理器执行所述存储器中存储的程序指令,以使所述服务设备执行如权利要求1~9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。
CN201811464550.3A 2018-11-30 2018-11-30 信息处理方法、装置、服务设备及计算机可读存储介质 Pending CN109902154A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811464550.3A CN109902154A (zh) 2018-11-30 2018-11-30 信息处理方法、装置、服务设备及计算机可读存储介质
PCT/CN2019/091387 WO2020107864A1 (zh) 2018-11-30 2019-06-14 信息处理方法、装置、服务设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811464550.3A CN109902154A (zh) 2018-11-30 2018-11-30 信息处理方法、装置、服务设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109902154A true CN109902154A (zh) 2019-06-18

Family

ID=66943324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811464550.3A Pending CN109902154A (zh) 2018-11-30 2018-11-30 信息处理方法、装置、服务设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109902154A (zh)
WO (1) WO2020107864A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413737A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110737773A (zh) * 2019-10-17 2020-01-31 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和***
CN111260435A (zh) * 2020-01-10 2020-06-09 京东数字科技控股有限公司 多因子权重赋值修正方法、装置、计算机设备和存储介质
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101385025A (zh) * 2005-12-22 2009-03-11 清晰传媒广告有限公司 通过分析内容确定上下文并且基于该上下文提供相关内容
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768B (zh) * 2008-08-05 2010-12-08 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、***及检索方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN104915356B (zh) * 2014-03-13 2018-12-07 ***通信集团上海有限公司 一种文本分类校正方法及装置
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385025A (zh) * 2005-12-22 2009-03-11 清晰传媒广告有限公司 通过分析内容确定上下文并且基于该上下文提供相关内容
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413737A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110413737B (zh) * 2019-07-29 2022-10-14 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110737773A (zh) * 2019-10-17 2020-01-31 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和***
CN110737773B (zh) * 2019-10-17 2022-06-10 中国联合网络通信集团有限公司 一种基于神经网络的信息分类方法和***
CN111260435A (zh) * 2020-01-10 2020-06-09 京东数字科技控股有限公司 多因子权重赋值修正方法、装置、计算机设备和存储介质
CN112667779A (zh) * 2020-12-30 2021-04-16 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN112667779B (zh) * 2020-12-30 2023-09-05 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020107864A1 (zh) 2020-06-04

Similar Documents

Publication Publication Date Title
US11989597B2 (en) Dataset connector and crawler to identify data lineage and segment data
CN107436875B (zh) 文本分类方法及装置
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
CN109902154A (zh) 信息处理方法、装置、服务设备及计算机可读存储介质
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
CA2829735C (en) Method and system for information modeling and applications thereof
WO2018151856A1 (en) Intelligent matching system with ontology-aided relation extraction
CN110119877B (zh) 一种目标员工的选取方法及设备
CN112889042A (zh) 机器学习中超参数的识别与应用
CN111144723A (zh) 人岗匹配推荐方法及***、存储介质
CN109492858B (zh) 基于机器学习的员工绩效预测方法及装置、设备、介质
US20220179884A1 (en) Label Determining Method, Apparatus, and System
CN104077407B (zh) 一种智能数据搜索***及方法
CN108416375B (zh) 工单分类方法及装置
US9111248B2 (en) Procurement system
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
CN111105209A (zh) 适用于人岗匹配推荐***的职位简历匹配方法及装置
US20130238375A1 (en) Evaluating email information and aggregating evaluation results
CN109739961A (zh) 一种人机语言交互方法及装置
CN117668205B (zh) 智慧物流客服处理方法、***、设备及存储介质
WO2020253353A1 (zh) 预设用户的资源获取资质生成方法及相关设备
CN107730021B (zh) 一种业务指标优化方法和装置
CN110991162A (zh) 基于浏览器的自然语言处理方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination