CN108038208A - 上下文信息识别模型的训练方法、装置和存储介质 - Google Patents

上下文信息识别模型的训练方法、装置和存储介质 Download PDF

Info

Publication number
CN108038208A
CN108038208A CN201711362223.2A CN201711362223A CN108038208A CN 108038208 A CN108038208 A CN 108038208A CN 201711362223 A CN201711362223 A CN 201711362223A CN 108038208 A CN108038208 A CN 108038208A
Authority
CN
China
Prior art keywords
mrow
session information
information
training
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711362223.2A
Other languages
English (en)
Other versions
CN108038208B (zh
Inventor
卢道和
郑德荣
张超
杨海军
钟伟
庞宇明
鲍志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201711362223.2A priority Critical patent/CN108038208B/zh
Publication of CN108038208A publication Critical patent/CN108038208A/zh
Application granted granted Critical
Publication of CN108038208B publication Critical patent/CN108038208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种上下文信息识别模型的训练方法,包括:获取会话信息和对会话信息进行人工标注的验证集;根据预设规则对会话信息进行预处理,并计算获得会话信息中的分类指标,分类指标包括:第一信息熵、词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类比例;根据计算获得的分类指标结合验证集训练SVM分类器;利用训练后的SVM分类器对会话信息中未标注的信息进行标注,生成数据集;将数据集作为GRU模型的输入,训练出识别会话信息中上下文信息的识别模型。本发明还公开了一种上下文信息识别模型的训练装置和存储介质。本发明能够提高会话信息中上下文信息的识别准确率和稳定性。

Description

上下文信息识别模型的训练方法、装置和存储介质
技术领域
本发明涉及信息处理领域,尤其涉及一种上下文信息识别模型的训练方法、装置和存储介质。
背景技术
近年来,随着互联网的飞速发展,信息资源正呈指数级增长。丰富的互联网信息资源给人们的生活带来了极大的便利,智能机器人也在各领域逐渐成熟发展。
然而目前智能机器人在进行对话过程中对于会话信息中的上下文的准确率和稳定性还比较低,因此,如何提高会话信息中上下文信息的识别准确率和稳定性,是本领域技术人员亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种上下文信息识别模型的训练方法、装置和存储介质,旨在提高会话信息中上下文信息的识别准确率和稳定性。
为实现上述目的,本发明提供一种上下文信息识别模型的训练方法,所述训练方法包括以下步骤:
获取会话信息和对所述会话信息进行人工标注的验证集;
根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;
根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器;
利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;
将所述数据集作为GRU模型的输入,训练出识别所述会话信息中上下文信息的识别模型。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据所述会话信息进行分词,获得所述会话信息中的词;
计算所述会话信息中每个词的分布概率,并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率,其中第一预设算法为:
pi表示所述会话信息中第i词的分布概率,P表示每个词的分布概率的集合,M(P)表示词的最大分布概率。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据第二预设算法计算所述会话信息中回答信息的第二信息熵;
根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵,其中第二预设算法为:
E(P)表示第二信息熵,entropy表示第一信息熵。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
对所述会话信息进行分析,获得所述会话信息中指示代词;
根据第三预设算法计算所述会话信息中指示代词所占的比例,其中第三预设算法为:
count表示计数,d表示指示代词,word表示所述会话信息中每个句子中的词,rate_d表示指示代词所占的比例。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度,并标准化至[0,1]之间,其中第四预设算法为:
An表示同一问题的第n个回答信息的长度,Ei(A)表示第i个问题的平均长度,Y表示归一化后的长度。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
确定所述会话信息所述的领域,并根据所述领域获取所述会话信息中的关键词;
根据第五预设算法计算关键词所在会话信息的比重,其中第五预设算法为:
k表示领域关键词,word表示句子中的词,rate_k表示比重。
可选地,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
统计所述会话信息中词性种类;
根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例,其中第六预设算法为:
j表示词性种类的数量,word表示句子中的词,rate_j表示每条会话信息中词性种类占所有词性种类的比例。
可选地,所述将所述数据集作为GRU的输入,训练出识别所述会话信息中上下文信息的识别模型GRU的步骤包括:
将所述数据集作转换为词向量为GRU模型的输入,对所述GRU模型进行训练;
利用双层前馈神经网络计算训练后的GRU模型的得分,并根据所述得分和所述数据集的标注计算最小平分差得到训练误差;
根据所述训练误差调整训练后的GRU模型,获得识别所述会话信息中上下文信息的识别模型。
可选地,所述训练方法还包括:
根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。
此外,为实现上述目的,本发明还提供一种上下文信息识别模型的训练装置,所述上下文信息识别模型的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述计算机可读存储介质上存储有上下文信息识别模型的训练程序,所述上下文信息识别模型的训练程序被处理器执行时实现如上所述的上下文信息识别模型的训练方法的步骤。
本发明通过获取会话信息,并人工对所述会话信息进行人工标注获得验证集;然后根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;然后根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例这六个分类指标结合验证集训练SVM分类器;利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;将所述数据集作为GRU模型的输入,从而训练出识别所述会话信息中上下文信息的识别模型,本发明从六个角度对会话信息进行计算,获得对应的指标数据,然后结合人工标注的验证集训练SVM分类器,从而提高SVM分类器的准确性,然后利用训练后的SVM分类器,给其他没有人工标注的数据进行标注,将标注后的数据用来训练GRU模型,该模型能用于识别所述会话信息中上下文信息,从而提高识别所述会话信息中上下文信息的识别模型的识别准确率和稳定性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明上下文信息识别模型的训练方法一实施例的流程示意图;
图3为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤的第一细化流程示意图;
图4为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤的第二细化流程示意图;
图5为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤的第三细化流程示意图;
图6为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤的第四细化流程示意图;
图7为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤的第五细化流程示意图;
图8为本发明实施例中将所述数据集作为GRU的输入,训练出识别所述会话信息中上下文信息的识别模型GRU的步骤的细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及上下文信息识别模型的训练应用程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的上下文信息识别模型的训练应用程序,并执行以下操作:
获取会话信息和对所述会话信息进行人工标注的验证集;
根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;
根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器;
利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;
将所述数据集作为GRU模型的输入,训练出识别所述会话信息中上下文信息的识别模型。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
根据所述会话信息进行分词,获得所述会话信息中的词;
计算所述会话信息中每个词的分布概率,并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率,其中第一预设算法为:
pi表示所述会话信息中第i词的分布概率,P表示每个词的分布概率的集合,M(P)表示词的最大分布概率。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
根据第二预设算法计算所述会话信息中回答信息的第二信息熵;
根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵,其中第二预设算法为:
E(P)表示第二信息熵,entropy表示第一信息熵。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
对所述会话信息进行分析,获得所述会话信息中指示代词;
根据第三预设算法计算所述会话信息中指示代词所占的比例,其中第三预设算法为:
count表示计数,d表示指示代词,word表示所述会话信息中每个句子中的词,rate_d表示指示代词所占的比例。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度,并标准化至[0,1]之间,其中第四预设算法为:
An表示同一问题的第n个回答信息的长度,Ei(A)表示第i个问题的平均长度,Y表示归一化后的长度。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
确定所述会话信息所述的领域,并根据所述领域获取所述会话信息中的关键词;
根据第五预设算法计算关键词所在会话信息的比重,其中第五预设算法为:
k表示领域关键词,word表示句子中的词,rate_k表示比重。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
统计所述会话信息中词性种类;
根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例,其中第六预设算法为:
j表示词性种类的数量,word表示句子中的词,rate_j表示每条会话信息中词性种类占所有词性种类的比例。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
将所述数据集作转换为词向量为GRU模型的输入,对所述GRU模型进行训练;
利用双层前馈神经网络计算训练后的GRU模型的得分,并根据所述得分和所述数据集的标注计算最小平分差得到训练误差;
根据所述训练误差调整训练后的GRU模型,获得识别所述会话信息中上下文信息的识别模型。
进一步地,处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序,还执行以下操作:
根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。
本发明上下文信息识别模型的训练装置的具体实施例与下述上下文信息识别模型的训练应用程序各实施例基本相同,在此不作赘述。
参照图2,图2为本发明上下文信息识别模型的训练方法一实施例的流程示意图,该上下文信息识别模型的训练方法包括:
步骤S10,获取会话信息和对所述会话信息进行人工标注的验证集;
步骤S20,根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;
本实施例中先从客服***提取会话信息,该客服***中会话信息包括用户提问信息和人工客服的回答信息,然后人工对获取到的会话信息进行标注预设条数的数据作为验证集,比如标注1000条数据作为验证集。
根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标,具体地,参阅图3,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤包括:
步骤S21,根据所述会话信息进行分词,获得所述会话信息中的词;
步骤S22,计算所述会话信息中每个词的分布概率,并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率。
本实施例中在获得会话信息后,对获得的会话信息进行分词,获得所有会话信息中的词,具体地,将所有会话信息按照主语、宾语、动词等进行分词,获得所有会话信息中的词,然后计算每个词的分布概率,记为pi。词的分布概率计算过程与现有技术类似此处不做过多赘述。然后根据计算获得的词分布概率作为第一预设算法作为输入计算得到词的最大分布概率,其中第一预设算法为:
pi表示所述会话信息中第i个词的分布概率,P表示每个词的分布概率的集合,M(P)表示词的最大分布概率。
进一步地,参阅图4,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
步骤S23,根据第二预设算法计算所述会话信息中回答信息的第二信息熵;
步骤S24,根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵。
进一步地,本实施例还根据第二预设算法计算获得该回合信息中回答信息的第二信息熵,然后根据获得的信息熵中最大信息熵和最小信息熵进行归一化,从而计算获得所述第一信息熵,其中第二预设算法为:
E(P)表示第二信息熵,entropy表示第一信息熵。
进一步地,参阅图5,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
步骤S25,对所述会话信息进行分析,获得所述会话信息中指示代词;
步骤S26,根据第三预设算法计算所述会话信息中指示代词所占的比例。
进一步地,本实施例在对会话信息进行分词后,还根据分词结果对会话信息进行分析,确定会话信息中的指示代词,当然具体实施中还可以先对会话信息进行分析直接获得其中的指示代词,然后根据第三预设算法计算会话信息中指示代词所占的比例,其中第三预设算法为:
count表示计数,d表示指示代词,word表示所述会话信息中每个句子中的词,rate_d表示指示代词所占的比例。
进一步地,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
步骤S27,根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度,并标准化至[0,1]之间;
进一步地,在客服服务***中,不同的人工客服在回答同一个问题时,采用的表述可能不同,因此本实施例中针对会话信息中同一问题对应的人工客服的多个回答信息使用第四预设算法进行计算,获得会话信息中同一问题的多个回答信息的平均长度,并将计算结果标准化至[0,1]之间,第四预设算法为:
An表示同一问题的第n个回答信息的长度,Ei(A)表示第i个问题的平均长度,Y表示归一化后的长度。
进一步地,参阅图6,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
步骤S28,确定所述会话信息所述的领域,并根据所述领域获取所述会话信息中的关键词;
步骤S29,根据第五预设算法计算关键词所在会话信息的比重。
进一步地,本实施例中针对不同领域设置有对应的关键词,本实施例先确定会话信息所属的领域,然后从会话信息中选择该领域对应的关键词,并根据第五预设算法计算选择关键词在会话信息中的比重,第五预设算法为:
k表示领域关键词,word表示句子中的词,rate_k表示比重。
进一步地,参阅图7,根据获得的会话信息根据预设规则对其进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
步骤S291,统计所述会话信息中词性种类;
步骤S292,根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例。
进一步地,本实施例中根据对会话信息的分析,确定会话信息中具有的词性种类,对词性种类进行统计,然后根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例,其中第六预设算法为:
j表示词性种类的数量,word表示句子中的词,rate_j表示每条会话信息中词性种类占所有词性种类的比例。
步骤S30,根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器;
根据步骤S20中计算获得的第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例,结合验证集训练SVM分类器,需要说明的是本实施例中训练SVM分类器的过程与现有的基本相同,仅在于输入的数据不同。
步骤S40,利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;
步骤S50,将所述数据集作为GRU模型的输入,训练出识别所述会话信息中上下文信息的识别模型。
根据步骤S30训练好的SVM分类器对所述会话信息中未标注的信息进行标注,生成对应的数据集,然后将生成的数据集作为GRU模型的输入,训练GRU,从而得到识别所述会话信息中上下文信息的识别模型。
步骤S60,根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。
在训练好识别所述会话信息中上下文信息的识别模型后,则可以使用该模型对会话信息进行识别,识别出会话信息中的上下文相关信息和上下文不相关信息。
进一步地,对于与上下文不相关的信息,直接利用用户输入的信息检索知识库并返回匹配答案。对于与上下文相关的信息,通过计算词频-逆向文件频率tf-idf从上下文中抽取5个关键词,与用户输入的信息一起作为检索项在知识库中检索以获得回答的候选集,然后对候选答案进行排序,把最佳答案返回给用户。识别出上下文不相关信息,在后续阶段能有效节省时间,提高工作效率;识别出上下文相关信息,能提高客服机器人的回答准确率。
本发明通过获取会话信息,并人工对所述会话信息进行人工标注获得验证集;然后根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;然后根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例这六个分类指标结合验证集训练SVM分类器;利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;将所述数据集作为GRU模型的输入,从而训练出识别所述会话信息中上下文信息的识别模型,本发明从六个角度对会话信息进行计算,获得对应的指标数据,然后结合人工标注的验证集训练SVM分类器,从而提高SVM分类器的准确性,然后利用训练后的SVM分类器,给其他没有人工标注的数据进行标注,将标注后的数据用来训练GRU模型,该模型能用于识别所述会话信息中上下文信息,从而提高识别所述会话信息中上下文信息的识别模型的识别准确率和稳定性。
进一步的,参照图8,图8为本发明上下文信息识别模型的训练方法另一实施例的流程示意图,基于上述实施例,该上下文信息识别模型的训练方法还包括:
步骤S51,将所述数据集作转换为词向量为GRU模型的输入,对所述GRU模型进行训练;
步骤S52,利用双层前馈神经网络计算训练后的GRU模型的得分,并根据所述得分和所述数据集的标注计算最小平分差得到训练误差;
步骤S53,根据所述训练误差调整训练后的GRU模型,获得识别所述会话信息中上下文信息的识别模型。
在本实施例中将用户输入的信息转换为词向量作为GRU的输入训练GRU
zt=σ(wz·[ht-1,xt])
rt=σ(wr·[ht-1,xt])
其中z是update gate,决定保留多少先前的信息;r是reset gate决定先前的信息如何结合当前的输入;h是单元的状态。
③利用双层前馈神经网络计算得分
s=b2+W2(tanh(b1+W1hn))
其中s是双层前馈神经网络计算出的分数,结合s和数据集的标注y计算最小平方差得到训练误差来调整GRU模型。
④设置阈值构建最终分类函数
其中g是s和阈值T构建的分类函数,相当于重新给数据贴标签。
此外,本发明实施例还提出一种上下文信息识别模型的训练装置,所述上下文信息识别模型的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上实施例所述的方法的步骤。
本发明上下文信息识别模型的训练装置的具体实施例与上述上下文信息识别模型的训练方法各实施例基本相同,在此不作赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有上下文信息识别模型的训练程序,所述上下文信息识别模型的训练程序被处理器执行时实现如上实施例所述的上下文信息识别模型的训练方法的步骤。
本发明计算机可读存储介质的具体实施例与上述上下文信息识别模型的训练方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种上下文信息识别模型的训练方法,其特征在于,所述训练方法包括以下步骤:
获取会话信息和对所述会话信息进行人工标注的验证集;
根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标,所述分类指标包括:所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例;
根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器;
利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注,生成数据集;
将所述数据集作为GRU模型的输入,训练出识别所述会话信息中上下文信息的识别模型。
2.如权利要求1所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据所述会话信息进行分词,获得所述会话信息中的词;
计算所述会话信息中每个词的分布概率,并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率,其中第一预设算法为:
<mrow> <mi>P</mi> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>p</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <msub> <mi>p</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>M</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>n</mi> </mrow> </munder> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow>
pi表示所述会话信息中第i词的分布概率,P表示每个词的分布概率的集合,M(P)表示词的最大分布概率。
3.如权利要求2所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据第二预设算法计算所述会话信息中回答信息的第二信息熵;
根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵,其中第二预设算法为:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
E(P)表示第二信息熵,entropy表示第一信息熵。
4.如权利要求1所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
对所述会话信息进行分析,获得所述会话信息中指示代词;
根据第三预设算法计算所述会话信息中指示代词所占的比例,其中第三预设算法为:
<mrow> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>_</mo> <mi>d</mi> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
count表示计数,d表示指示代词,word表示所述会话信息中每个句子中的词,rate_d表示指示代词所占的比例。
5.如权利要求1所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度,并标准化至[0,1]之间,其中第四预设算法为:
<mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>A</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>A</mi> <mn>2</mn> </msub> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msub> <mi>A</mi> <mi>n</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>,</mo> <mi>Y</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
An表示同一问题的第n个回答信息的长度,Ei(A)表示第i个问题的平均长度,Y表示归一化后的长度。
6.如权利要求1所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
确定所述会话信息所述的领域,并根据所述领域获取所述会话信息中的关键词;
根据第五预设算法计算关键词所在会话信息的比重,其中第五预设算法为:
<mrow> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>_</mo> <mi>k</mi> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
k表示领域关键词,word表示句子中的词,rate_k表示比重。
7.如权利要求1所述的训练方法,其特征在于,所述根据预设规则对所述会话信息进行预处理,并计算获得所述会话信息中的分类指标的步骤还包括:
统计所述会话信息中词性种类;
根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例,其中第六预设算法为:
<mrow> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>_</mo> <mi>j</mi> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
j表示词性种类的数量,word表示句子中的词,rate_j表示每条会话信息中词性种类占所有词性种类的比例。
8.如权利要求1所述的训练方法,其特征在于,所述将所述数据集作为GRU的输入,训练出识别所述会话信息中上下文信息的识别模型GRU的步骤包括:
将所述数据集作转换为词向量为GRU模型的输入,对所述GRU模型进行训练;
利用双层前馈神经网络计算训练后的GRU模型的得分,并根据所述得分和所述数据集的标注计算最小平分差得到训练误差;
根据所述训练误差调整训练后的GRU模型,获得识别所述会话信息中上下文信息的识别模型。
9.如权利要求1-8中任一项所述的训练方法,其特征在于,所述训练方法还包括:
根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。
10.一种上下文信息识别模型的训练装置,其特征在于,所述上下文信息识别模型的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有上下文信息识别模型的训练程序,所述上下文信息识别模型的训练程序被处理器执行时实现如权利要求1至9中任一项所述的上下文信息识别模型的训练方法的步骤。
CN201711362223.2A 2017-12-18 2017-12-18 上下文信息识别模型的训练方法、装置和存储介质 Active CN108038208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711362223.2A CN108038208B (zh) 2017-12-18 2017-12-18 上下文信息识别模型的训练方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711362223.2A CN108038208B (zh) 2017-12-18 2017-12-18 上下文信息识别模型的训练方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN108038208A true CN108038208A (zh) 2018-05-15
CN108038208B CN108038208B (zh) 2022-01-11

Family

ID=62099618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711362223.2A Active CN108038208B (zh) 2017-12-18 2017-12-18 上下文信息识别模型的训练方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN108038208B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629978A (zh) * 2018-06-07 2018-10-09 重庆邮电大学 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110457449A (zh) * 2019-07-05 2019-11-15 阿里巴巴集团控股有限公司 在线训练模型的方法、装置、设备及存储介质
CN111863009A (zh) * 2020-07-15 2020-10-30 苏州思必驰信息科技有限公司 上下文信息预测模型的训练方法及***
CN111883105A (zh) * 2020-07-15 2020-11-03 苏州思必驰信息科技有限公司 用于视频场景的上下文信息预测模型的训练方法及***
CN112765348A (zh) * 2021-01-08 2021-05-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN113434689A (zh) * 2021-08-25 2021-09-24 北京明略软件***有限公司 一种基于在线会话标注的模型训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类***
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和***
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN107273500A (zh) * 2017-06-16 2017-10-20 中国电子技术标准化研究院 文本分类器生成方法、文本分类方法、装置及计算机设备
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机***有限公司 一种关键词的识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类***
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和***
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN107273500A (zh) * 2017-06-16 2017-10-20 中国电子技术标准化研究院 文本分类器生成方法、文本分类方法、装置及计算机设备
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机***有限公司 一种关键词的识别方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629978A (zh) * 2018-06-07 2018-10-09 重庆邮电大学 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN108629978B (zh) * 2018-06-07 2020-12-22 重庆邮电大学 一种基于高维路网和循环神经网络的交通轨迹预测方法
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110457449A (zh) * 2019-07-05 2019-11-15 阿里巴巴集团控股有限公司 在线训练模型的方法、装置、设备及存储介质
CN111863009A (zh) * 2020-07-15 2020-10-30 苏州思必驰信息科技有限公司 上下文信息预测模型的训练方法及***
CN111883105A (zh) * 2020-07-15 2020-11-03 苏州思必驰信息科技有限公司 用于视频场景的上下文信息预测模型的训练方法及***
CN111883105B (zh) * 2020-07-15 2022-05-10 思必驰科技股份有限公司 用于视频场景的上下文信息预测模型的训练方法及***
CN111863009B (zh) * 2020-07-15 2022-07-26 思必驰科技股份有限公司 上下文信息预测模型的训练方法及***
CN112765348A (zh) * 2021-01-08 2021-05-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN112765348B (zh) * 2021-01-08 2023-04-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN113434689A (zh) * 2021-08-25 2021-09-24 北京明略软件***有限公司 一种基于在线会话标注的模型训练方法及装置

Also Published As

Publication number Publication date
CN108038208B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN108038208A (zh) 上下文信息识别模型的训练方法、装置和存储介质
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
US10657498B2 (en) Automated resume screening
CN108038209A (zh) 答案选择方法、装置和计算机可读存储介质
CN106557747B (zh) 识别保险单号码的方法及装置
CN110717023B (zh) 面试回答文本的分类方法及装置、电子设备、存储介质
CN109993057A (zh) 语义识别方法、装置、设备及计算机可读存储介质
CN110610193A (zh) 标注数据的处理方法及装置
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN104750674A (zh) 一种人机会话满意度预测方法及***
CN111339292A (zh) 文本分类网络的训练方法、***、设备及存储介质
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN113641767B (zh) 实体关系抽取方法、装置、设备及存储介质
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN111159404A (zh) 文本的分类方法及装置
CN111708890A (zh) 一种搜索词确定方法和相关装置
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN113449095A (zh) 一种面试数据分析方法和装置
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN117195046A (zh) 异常文本识别方法及相关设备
KR20230116143A (ko) 상담 유형 분류 시스템
CN109918651A (zh) 同义词性模板获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant