CN110119770B - 决策树模型构建方法、装置、电子设备及介质 - Google Patents

决策树模型构建方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN110119770B
CN110119770B CN201910349851.XA CN201910349851A CN110119770B CN 110119770 B CN110119770 B CN 110119770B CN 201910349851 A CN201910349851 A CN 201910349851A CN 110119770 B CN110119770 B CN 110119770B
Authority
CN
China
Prior art keywords
answer
answer text
word
text
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349851.XA
Other languages
English (en)
Other versions
CN110119770A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910349851.XA priority Critical patent/CN110119770B/zh
Publication of CN110119770A publication Critical patent/CN110119770A/zh
Application granted granted Critical
Publication of CN110119770B publication Critical patent/CN110119770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种决策树模型构建方法、装置、电子设备及介质,其中,该方法包括:利用训练文本构建词袋模型;根据所述词袋模型包括的各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据由所述关键词特征得到的所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。采用本申请,可以在提高评分预测精度的同时,保证模型的可解释性。

Description

决策树模型构建方法、装置、电子设备及介质
技术领域
本申请涉及深度学习领域,尤其涉及一种决策树模型构建方法、装置、电子设备及介质。
背景技术
随着科学技术的发展,为了省去人工评分的麻烦,智能评分***应运而生,并且在学校、企业等机构中得到了越来越广泛的应用。相关人员可以在智能评分***中人工制定相应规则,智能评分***能够采用该人工制定的规则进行答题评分,然而采用该方式实现的评分预测精度有限。为了提高评分预测精度,部分人员采用了逻辑回归的机器学习方法进行答题评分。虽然采用逻辑回归的机器学习方法能够实现更高的评分预测精度,但是采用此类方式得到的模型的可解释性较低。
发明内容
本申请实施例提供了一种决策树模型构建方法、装置、电子设备及介质,可以在提高评分预测精度的同时,保证模型的可解释性。
第一方面,本申请实施例提供了一种决策树模型构建方法,包括:
利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;
根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;
根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
可选地,所述建立第二决策树模型之后,所述方法还包括:
当需要对目标答题文本进行答题评分预测时,将所述目标答题文本作为所述第二决策树模型的输入数据;
通过所述第二决策树模型输出所述目标答题文本的评分结果信息。
可选地,所述根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,包括:
根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;
接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;
将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。
可选地,所述根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,包括:
将所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签输入第一初始决策树模型,以对所述第一初始决策树模型进行训练;
将训练后的第一初始决策树模型作为第一决策树模型。
可选地,所述根据所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,包括:
将所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;
将训练后的第二初始决策树模型作为第二决策树模型。
可选地,所述根据所述各答题文本的第二特征值以及为每个大文本设置的答题评分标签,建立第二决策树模型,包括:
确定所述各答题文本的长度;
根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型。
可选地,所述利用训练文本构建词袋模型,包括:
利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;
统计所述词典中的各词特征在所述各答题文本中是否出现;
根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
第二方面,本申请实施例提供了一种决策树模型构建装置,包括:
构建单元,用于利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;
所述构建单元,还用于根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
处理单元,用于根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;
所述构建单元,还用于根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
第三方面,本申请实施例提供了一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。
综上所述,电子设备可以利用训练文本构建词袋模型,并根据词袋模型以及为各答题文本设置的答题评分标签建立第一决策树模型,从而得到由第一决策树模型输出的各答题文本的词特征的重要程度值,以用于筛选出满足预设条件的关键词特征;电子设备可以根据由关键词特征得到的各答题文本的第二特征值,以及为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测,从而在提高了评分预测精度的同时,保证了模型的可解释性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种决策树模型构建方法的流程示意图;
图2是本申请实施例提供的另一种决策树模型构建方法的流程示意图;
图3是本申请实施例提供的一种决策树模型构建装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,为本申请实施例提供的一种决策树模型构建方法的流程示意图。该方法可以应用于电子设备中,该电子设备可以为终端或服务器。具体地,该方法可以包括:
S101、利用训练文本构建词袋模型。
其中,该词袋模型包括训练文本中各答题文本的第一特征值。该第一特征值可以为特征向量。该各答题文本的第一特征值是根据各答题文本的词特征的数值确定的。该数值是根据词特征在相应答题文本中是否出现确定的,或还可以是根据词特征在相应答题文本中出现的次数确定的,本发明实施例对此不做限定。
在一个实施例中,电子设备利用训练文本构建词袋模型,可以包括:电子设备利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;电子设备统计所述词典中的各词特征在所述各答题文本中是否出现;电子设备根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
例如,该训练文本包括答题文本1和答题文本2,其中答题文本1:中国的首都是北京,答题文本2:英国的首都是伦敦。利用该训练文本构建的词典包括:中国、英国、的、首都、是、北京、伦敦。利用0和1表示这7个词在答题文本1和答题文本2是否出现(出现则表示为1,未出现表示为0),并根据统计结果确定答题文本1的第一特征值为(1,0,1,1,1,1,0)、答题文本2的第一特征值为(0,1,1,1,1,0,1),生成包括答题文本1的第一特征值和答题文本2的第一特征值的词袋模型。
在一个实施例中,电子设备利用训练文本构建词袋模型,可以包括:电子设备利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;电子设备统计所述词典中的各词特征在所述各答题文本中是否出现;电子设备根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
除了可以采用上述方式生成词袋模型之外,还可以通过统计词典中的各词特征在各答题文本中出现的次数,以生成词袋模型。
在一个实施例中,电子设备利用训练文本构建词袋模型,还可以包括:电子设备利用训练文本构建词典,该词典包括训练文本中各答题文本的词特征(如词语1、词语2、词语N);统计词典中的各词特征在各答题文本中出现的次数,根据针对次数的统计结果确定各个答题文本的第一特征值,从而生成包括各答题文本的第一特征值的词袋模型。
两种统计方式的区别在于,例如某个词在答题文本3中出现了两次,那么通过第一种统计方式,针对该词得到的统计结果为1(表示该词在文本3中出现了),通过第二种统计方式,针对该词的统计结果为2(表示该词在文本3中出现了两次)。当然,除了采用次数,还可以采用频率的统计方式,本方案在此不做赘述。
在一个实施例中,电子设备利用训练文本构建词典,可以包括:电子设备对该训练文本进行预处理,得到词典。其中,该预处理过程包括但不限于分词、去除停用词等处理过程,本方案在此不做赘述。
S102、根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值。
在一个实施例中,电子设备根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,包括:电子设备将所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签输入第一初始决策树模型,以对所述第一初始决策树模型进行训练;电子设备将训练后的第一初始决策树模型作为第一决策树模型。例如,该第一决策树模型可以是最大深度为10,叶节点最小样本数为100的决策树模型。该答题评分标签可以是分值,如90分,或者可以是等级,如优良中差。
该第一决策树模型可以计算得到各答题文本的词特征的重要程度值,并输出各答题文本的词特征的重要程度值,其中,重要程度值越高表明对评分的影响较大。该重要程度值包括但不限于以数字、字母等形式体现。
其中,该第一决策树模型还可以按照重要程度值的高低,对该各答题文本的词特征按照由前到后的顺序排序后,输出排序后的各词特征。
其中,该第一决策树模型还可以输出针对各词特征的分类结果,例如,答的好与答的不好。
S103、根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值。
在一个实施例中,电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,包括:电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;电子设备将所述第一词特征确定为满足预设条件的关键词特征。
例如,电子设备输出1000个词特征的重要程度值,电子设备可以从这1000个词特征中筛选出重要程度值大于或等于预设值的500个词特征,并将这500个词特征确定为满足预设条件的关键词特征。
在一个实施例中,电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,包括:电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;电子设备接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;电子设备将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。其中,该第二词特征可以可解释性较低或贡献程度较低的词特征。
例如,电子设备输出1000个词特征的重要程度值,电子设备可以从这1000个词特征中筛选出重要程度值大于或等于预设值的500个词特征,并在接收到针对这500个词特征中可解释性较低的50个词特征的删除指令后,删除这50个词特征,并将剩下的450个词特征确定为满足预设条件的关键词特征。
在一个实施例中,电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,可以包括:电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出排序位于前预设数量个词特征;电子设备将所述排序位于前预设数量个词特征确定为满足预设条件的关键词特征。
电子设备输出1000个词特征的重要程度值,这1000个词特征为按照重要程度值的高低,由前到后的顺序排序后的词特征,电子设备可以从这1000个词特征中筛选出排序位于前500个的词特征,并将该排序位于前500个的词特征确定为满足预设条件的关键词特征。
在一个实施例中,电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,可以包括:电子设备根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出排序位于前预设数量个词特征;电子设备接收删除指令,根据删除指令从对所述排序位于前预设数量个词特征的中删除第三词特征,电子设备将执行了删除操作的前预设数量个词特征确定为满足预设条件的关键词特征。该第三词特征根据实际情况可以与第二词特征相同或不同。该第三词特征为可解释较低或贡献程度较低的词特征。
在一个实施例中,电子设备根据所述关键词特征得到所述各答题文本的第二特征值,可以包括:电子设备删除各答题文本的第一特征值中除关键词词特征之外的词特征的数值,以得到各答题文本的第二特征值。采用直接删除的方式,将提高建模速度,并减轻电子设备的工作量。
除了采用上述删除的方式,电子设备还可以重新进行统计。在一个实施例中,电子设备根据所述关键词特征得到所述各答题文本的第二特征值,可以包括:电子设备关键词特征在所述各答题文本中是否出现,并根据统计结果确定所述各答题文本的第二特征值。或,电子设备关键词特征在所述各答题文本出现的次数,并根据针对次数的统计结果确定所述各答题文本的第二特征值。
S104、根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
具体地,电子设备根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,可以包括:电子设备将所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;电子设备将训练后的第二初始决策树模型作为第二决策树模型。其中,该第二初始决策树模型可以与第一初始决策树模型不同。例如,该第二决策树模型可以是最大深度为5,叶节点最小样本数为100的决策树模型。
在一个实施例中,当需要对目标答题文本进行答题评分预测时,将所述目标答题文本作为所述第二决策树模型的输入数据;通过所述第二决策树模型输出所述目标答题文本的评分结果信息。其中,该目标答题文本可以为待预测的答题文本,例如可以为新的答题文本。该评分结果信息可以包括分值等信息。
可见,图1所示的实施例中,电子设备可以利用训练文本构建词袋模型,并根据词袋模型以及为各答题文本设置的答题评分标签建立第一决策树模型,从而得到由第一决策树模型输出的各答题文本的词特征的重要程度值,以用于筛选出满足预设条件的关键词特征;电子设备可以根据由关键词特征得到的各答题文本的第二特征值,以及为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测,从而在提高了评分预测精度的同时,保证了模型的可解释性。
请参阅图2,为本申请实施例提供的另一种决策树模型构建方法的流程示意图。具体地,该方法可以包括:
S201、利用训练文本构建词袋模型;
S202、根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
S203、根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值。
其中,步骤S201-S203可以参见图1实施例中的步骤S101-S103,本申请实施例在此不做赘述。
S204、确定所述各答题文本的长度;
S205、根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
本申请实施例中,电子设备除了可以直接根据各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型之外,还可以引入各答题文本的长度,来建立第二决策树模型。本申请实施例通过引入各答题文本的长度,可以有效地提高评分预测精度。
具体地,电子设备根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,包括,电子设备将所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;电子设备将训练后的第二初始决策树模型作为第二决策树模型。
可见,图2所示的实施例中,电子设备可以利用训练文本构建词袋模型,并根据词袋模型以及为各答题文本设置的答题评分标签建立第一决策树模型,从而得到由第一决策树模型输出的各答题文本的词特征的重要程度值,以用于筛选出满足预设条件的关键词特征;电子设备可以根据各答题文本的长度、由关键词特征得到的各答题文本的第二特征值,以及为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测,从而在提高了评分预测精度的同时,保证了模型的可解释性。
请参阅图3,为本申请实施例提供的一种决策树模型构建装置的结构示意图。其中,该装置可以应用于电子设备中。具体地,该装置可以包括:
构建单元31,用于利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;
构建单元31,还用于根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
处理单元32,用于根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;
构建单元31,还用于根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
在一种可选的实施方式中,处理单元32,还用于在建立第二决策树模型之后,当需要对目标答题文本进行答题评分预测时,将所述目标答题文本作为所述第二决策树模型的输入数据;通过所述第二决策树模型输出所述目标答题文本的评分结果信息。
在一种可选的实施方式中,处理单元32根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,具体为根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。
在一种可选的实施方式中,构建单元31根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,具体为将所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签输入第一初始决策树模型,以对所述第一初始决策树模型进行训练;将训练后的第一初始决策树模型作为第一决策树模型。
在一种可选的实施方式中,构建单元31根据所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,具体为将所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;将训练后的第二初始决策树模型作为第二决策树模型。
在一种可选的实施方式中,构建单元31根据所述各答题文本的第二特征值以及为每个大文本设置的答题评分标签,建立第二决策树模型,具体为确定所述各答题文本的长度;根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型。
在一种可选的实施方式中,构建单元31利用训练文本构建词袋模型,具体为利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;统计所述词典中的各词特征在所述各答题文本中是否出现;根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
可见,图3所示的实施例中,电子设备可以利用训练文本构建词袋模型,并根据词袋模型以及为各答题文本设置的答题评分标签建立第一决策树模型,从而得到由第一决策树模型输出的各答题文本的词特征的重要程度值,以用于筛选出满足预设条件的关键词特征;电子设备可以根据由关键词特征得到的各答题文本的第二特征值,以及为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测,从而在提高了评分预测精度的同时,保证了模型的可解释性。
请参阅图4,为本申请实施例提供的一种电子设备的结构示意图。其中,本实施例中所描述的电子设备可以包括:一个或多个处理器1000,一个或多个输入设备2000,一个或多个输出设备3000和存储器4000。处理器1000、输入设备2000、输出设备3000和存储器4000可以通过总线或其它方式连接。
输入设备2000、输出设备3000可以是标准的有线或无线通信接口。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器4000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器4000用于存储一组程序代码,输入设备2000、输出设备3000和处理器1000可以调用存储器4000中存储的程序代码。具体地:
处理器1000,用于利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测。
可选地,所述处理器1000,还用于在建立第二决策树模型之后,当需要对目标答题文本进行答题评分预测时,将所述目标答题文本作为所述第二决策树模型的输入数据;通过所述第二决策树模型输出所述目标答题文本的评分结果信息。
可选地,处理器1000根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,具体为根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;通过输入设备2000接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。
可选地,处理器1000根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,具体为将所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签输入第一初始决策树模型,以对所述第一初始决策树模型进行训练;将训练后的第一初始决策树模型作为第一决策树模型。
可选地,处理器1000根据所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,具体为将所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;将训练后的第二初始决策树模型作为第二决策树模型。
可选地,处理器1000根据所述各答题文本的第二特征值以及为每个大文本设置的答题评分标签,建立第二决策树模型,具体为确定所述各答题文本的长度;根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型。
可选地,处理器1000利用训练文本构建词袋模型,具体为利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;统计所述词典中的各词特征在所述各答题文本中是否出现;根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
具体实现中,本申请实施例中所描述的处理器1000、输入设备2000、输出设备3000可执行图1-图2实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (9)

1.一种决策树模型构建方法,其特征在于,包括:
利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;
根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;
根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测;
其中,所述根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,包括:
根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;
接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;所述第二词特征为可解释性低或贡献程度低的词特征;
将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。
2.根据权利要求1所述的方法,其特征在于,所述建立第二决策树模型之后,所述方法还包括:
当需要对目标答题文本进行答题评分预测时,将所述目标答题文本作为所述第二决策树模型的输入数据;
通过所述第二决策树模型输出所述目标答题文本的评分结果信息。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,包括:
将所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签输入第一初始决策树模型,以对所述第一初始决策树模型进行训练;
将训练后的第一初始决策树模型作为第一决策树模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型,包括:
将所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签输入第二初始决策树模型,以对所述第二初始决策树模型进行训练;
将训练后的第二初始决策树模型作为第二决策树模型。
5.根据权利要求1-2任意一项所述的方法,其特征在于,所述根据所述各答题文本的第二特征值以及为每个大文本设置的答题评分标签,建立第二决策树模型,包括:
确定所述各答题文本的长度;
根据所述各答题文本的长度、所述各答题文本的第二特征值以及为每个答题文本设置的答题评分标签,建立第二决策树模型。
6.根据权利要求1所述的方法,其特征在于,所述利用训练文本构建词袋模型,包括:
利用训练文本构建词典;所述词典包括所述训练文本中各答题文本的词特征;
统计所述词典中的各词特征在所述各答题文本中是否出现;
根据统计结果确定所述各答题文本的第一特征值,生成包括所述各答题文本的第一特征值的词袋模型。
7.一种决策树模型构建装置,其特征在于,包括:
构建单元,用于利用训练文本构建词袋模型;所述词袋模型包括训练文本中各答题文本的第一特征值;
所述构建单元,还用于根据所述各答题文本的第一特征值以及为每个答题文本设置的答题评分标签,建立第一决策树模型,并得到由所述第一决策树模型输出的所述各答题文本的词特征的重要程度值;
处理单元,用于根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,并根据所述关键词特征得到所述各答题文本的第二特征值;
所述构建单元,还用于根据所述各答题文本的第二特征值以及所述为每个答题文本设置的答题评分标签,建立第二决策树模型,以用于答题评分预测;
其中,所述处理单元根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出满足预设条件的关键词特征,具体用于:
根据所述各答题文本的词特征的重要程度值,从所述各答题文本的词特征中筛选出重要程度值大于或等于预设值的第一词特征;
接收删除指令,根据删除指令从所述第一词特征中删除第二词特征;所述第二词特征为可解释性低或贡献程度低的词特征;
将执行了删除操作的第一词特征,确定为满足预设条件的关键词特征。
8.一种电子设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201910349851.XA 2019-04-28 2019-04-28 决策树模型构建方法、装置、电子设备及介质 Active CN110119770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349851.XA CN110119770B (zh) 2019-04-28 2019-04-28 决策树模型构建方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349851.XA CN110119770B (zh) 2019-04-28 2019-04-28 决策树模型构建方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN110119770A CN110119770A (zh) 2019-08-13
CN110119770B true CN110119770B (zh) 2024-05-14

Family

ID=67521599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349851.XA Active CN110119770B (zh) 2019-04-28 2019-04-28 决策树模型构建方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN110119770B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395855A (zh) * 2020-12-03 2021-02-23 中国联合网络通信集团有限公司 基于评论的评价方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199913A1 (en) * 2014-01-10 2015-07-16 LightSide Labs, LLC Method and system for automated essay scoring using nominal classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置

Also Published As

Publication number Publication date
CN110119770A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN107220386A (zh) 信息推送方法和装置
CN110543552A (zh) 对话交互方法、装置及电子设备
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN112185348A (zh) 多语种语音识别方法、装置及电子设备
CN113392197B (zh) 问答推理方法、装置、存储介质及电子设备
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
CN110717019A (zh) 问答处理方法、问答***、电子设备及介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN113360711A (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN103164428A (zh) 确定微博与给定实体的相关性的方法和装置
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN113569559B (zh) 短文本实体情感分析方法、***、电子设备及存储介质
CN110119770B (zh) 决策树模型构建方法、装置、电子设备及介质
CN113515620A (zh) 电力设备技术标准文档排序方法、装置、电子设备和介质
CN113255365A (zh) 文本数据增强方法、装置、设备及计算机可读存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN111639494A (zh) 案件事理关系确定方法及***
CN114281983B (zh) 分层结构的文本分类方法、***、电子设备和存储介质
CN115587173A (zh) 一种对话文本预测方法、装置、设备、存储介质
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant