CN116975199A - 一种文本预测方法、装置、设备和存储介质 - Google Patents
一种文本预测方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116975199A CN116975199A CN202310361574.0A CN202310361574A CN116975199A CN 116975199 A CN116975199 A CN 116975199A CN 202310361574 A CN202310361574 A CN 202310361574A CN 116975199 A CN116975199 A CN 116975199A
- Authority
- CN
- China
- Prior art keywords
- sample
- text
- features
- category
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 158
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000012512 characterization method Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 133
- 238000012545 processing Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 40
- 239000013598 vector Substances 0.000 description 40
- 238000005516 engineering process Methods 0.000 description 30
- 239000011159 matrix material Substances 0.000 description 26
- 238000003058 natural language processing Methods 0.000 description 26
- 238000013528 artificial neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 25
- 101150116295 CAT2 gene Proteins 0.000 description 17
- 101100326920 Caenorhabditis elegans ctl-1 gene Proteins 0.000 description 17
- 101100126846 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) katG gene Proteins 0.000 description 17
- 101100494773 Caenorhabditis elegans ctl-2 gene Proteins 0.000 description 15
- 101100112369 Fasciola hepatica Cat-1 gene Proteins 0.000 description 15
- 101100005271 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cat-1 gene Proteins 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 238000007667 floating Methods 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 241001278112 Populus euphratica Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 244000309464 bull Species 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000010271 massa medicata fermentata Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种文本预测方法、装置、设备和存储介质,涉及人工智能技术领域,包括:提取待预测文本的综合语义特征,综合语义特征包括:待预测文本的文本内容和标题包含的各关键词的词特征,以及包含的各关键句的句特征;提取综合语义特征的上下文特征;上下文特征表征综合语义特征包含的各元素之间的关联关系,每个所述元素为词特征或句特征;基于所上下文特征表征的关联关系,对上下文特征进行分类处理,获得目标类目特征,目标类目特征表征待预测文本归属的文件分类;基于上下文特征和目标类目特征,获得融合特征,并基于融合特征,获得待预测文本的预测标签。该方法用以提高文本标签识别和提取的准确度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本预测方法、装置、设备和存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即,把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
而随着计算机技术的迅速发展,自然语言处理也已经被应用到生活的各方面,如,在新闻应用中,自然语言处理被应用到新闻上传发布后的新闻标签提取;在学术文章应用中,自然语言处理被应用到学术文章上传发布后的文章标签提取;在备忘录应用中,自然语言处理被应用到备忘笔记上传后的笔记标签提取等。
相关技术中,一般采用词袋模型的机器学习方法、word2vec的文本标签识别方法,或循环神经网络的文本标签识别方法等,但这些方式,仅采用上传文本的语义特征作为数据分析基础,对上传文本的标签进行识别和提取,使得标签识别的信息基础单一,识别准确性低。
因此,现在亟需重新设计一种文本预测方法,以及克服上述缺陷。
发明内容
本申请实施例提供一种文本预测方法、装置、设备和存储介质,用以提高文本标签识别和提取的准确度。
第一方面,本申请实施例提供一种文本预测方法,该方法包括:
提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
第二方面,本申请实施例提供一种文本预测装置,该装置包括:
提取单元,用于提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
所述提取单元,用于提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
分类单元,用于基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
预测单元,用于基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
可选的,所述提取单元具体用于:
从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;
将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;
将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。
可选的,所述提取单元具体用于:
对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;
提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。
可选的,所述提取单元具体用于:
将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;
提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。
可选的,所述分类单元具体用于,
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;
将所述子类目特征与所述上下文特征拼接,获得拼接特征;
基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;
将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。
可选的,所述装置是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
所述提取单元,用于基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
所述分类单元,用于基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
所述预测单元,用于基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
所述预测单元,用于基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
可选的,所述训练样本中还包含所述样本文本的浏览情况;则所述预测单元具体用于,
基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
可选的,所述提取单元具体用于,
基于所述样本语义特征,采用双向编码器提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;
其中,所述双向编码器是采用预设训练样本集合训练后获得的。
第三方面,本申请实施例提供的一种计算机设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述第一方面中任意一种文本预测方法。
第四方面,本申请实施例提供的一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在计算机设备上运行时,所述计算机程序用于使所述计算机设备执行上述第一方面中任意一种文本预测方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当计算机设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述计算机设备执行上述第一方面中任意一种文本预测方法。
本申请有益效果如下:
本申请实施例提供的文本预测方法、装置、计算机设备和存储介质,该文本预测方法在获得待预测文本后,提取待预测文本中文本内容和标题包含的各关键词的词特征,以及各关键句的句特征,得到综合语义特征。如此,使得综合语义特征既包含待预测文本中关键词的词特征,又包含关键句的句特征,即,综合语义特征中包含的待预测文本的文本信息全面,便于后续预测时,有较好的数据分析基础,以获得更准确的预测结果。进一步的,对综合语义特征的上下文特征进行提取,获得包含综合语义特征中词特征之间、句特征之间、词特征和句特征之间的关联关系,从而根据这种关联关系,对上下文特征进行分类处理,获得目标类目特征,至此,相比于相关技术中,仅上传文本的语义特征作为数据分析基础,以对上传文本的标签进行识别和提取,导致的标签识别的信息基础单一,识别准确性低的问题。本申请不仅以待预测文本的综合语义特征(关键词的词特征和关键句的句特征)作为数据待分析基础,以提高提取文本信息的全面性,提高预测结果的准确性,还获得可以表征待预测文本归属的文件分类的目标类目特征,则基于上下文特征和目标类目特征进行预测标签,可以考虑到标签与文本语义和文本类目的关联关系,提高标签识别的准确度。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种文本预测方法中标签识别模型方法的流程示意图;
图2为本申请实施例提供的一种训练样本示意图;
图3为本申请实施例提供的一种样本语义特征的方法流程示意图;
图4为本申请实施例提供的一种样本关键词和样本关键句提取示意图;
图5为本申请实施例提供的一种样本词特征序列获取方法的示意图;
图6为本申请实施例提供的一种样本词特征获取方法的示意图;
图7为本申请实施例提供的一种元素关联特征获取方法的示意图;
图8为本申请实施例提供的一种BERT模型示意图;
图9为本申请实施例提供的一种多头注意力机制示意图;
图10为本申请实施例提供的一种BERT模型示意图;
图11为本申请实施例提供的一种样本类目特征获取方法示意图;
图12为本申请实施例提供的一种多层感知机示意图;
图13为本申请实施例提供的一种样本类目特征获取方法示意图;
图14为本申请实施例提供的一种目标共现特征获取方法示意图;
图15为本申请实施例提供的一种标签识别模型示意图;
图16为本申请实施例提供的一种应用场景的一个可选的示意图;
图17为本申请实施例提供的一种文本预测方法的流程示意图;
图18为本申请实施例提供的一种综合语义特征提取方法的流程示意图;
图19为本申请实施例提供的一种标签识别模型示意图;
图20为本申请实施例提供的一种标签识别模型线上应用的方法的流程置示意图;
图21为本申请实施例提供的一种文本预测装置的装置示意图;
图22为应用本申请实施例的一种计算机设备的一个硬件组成结构示意图;
图23为应用本申请实施例的另一种计算机设备的一个硬件组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可以理解的是,在本申请的下述具体实施方式中,涉及到待预测文本、训练数据集合等相关的数据,当本申请的各实施例运用到具体产品或技术中时,需要获得相关许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,在需要获得相关的数据时,可以通过招募相关志愿者并签署志愿者授权数据的相关协议,进而可以使用这些志愿者的数据进行实施;或者,通过在已授权允许的组织内部范围内进行实施,通过采用组织内部成员的数据实施下述的实施方式来向内部成员进行相关推荐;或者,具体实施时所采用的相关数据均为模拟数据,例如可以是虚拟场景中产生的模拟数据。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
Transformer:是一种常用的自注意力(self-attention)神经网络模型结构,包含多层编码器(encoder)和解码器(decoder)。首先,模型需要对输入的序列进行一步embedding lookup(转换为计算机可识别的形式)操作,将输入的id序列转成embedding序列,输入到encoder层,encoder层使用self-attention机制处理完数据后把数据送给前馈神经网络,前馈神经网络的计算可以并行,得到的输出会输入到下一个encoder,encoder可以有多层。Encoder层之后是decoder层。Decoder利用mask机制屏蔽未来的信息,并对屏蔽的未来信息进行预测,通过预测的结果和真实信息之间的差异,对模型参数进行调整。其中,Decoder利用mask机制屏蔽未来信息的过程中,需要防止特征穿越。也就是对于一个序列,在t的时刻,模型decoder模块输出应该只能依赖于t时刻之前的输出,而不能依赖t之后的输出,在Mask机制中产生一个上三角矩阵,上三角的值全为0,把这个mask矩阵作用在每一个序列上,就可以起到屏蔽未来信息,防止特征穿越的作用。
自注意力机制(self-attention),用于让机器注意到整个输入中不同部分之间的相关性,自注意力机制解决的情况是:神经网络接收的输入是很多大小不一的向量,并且不同向量与向量之间有一定的关系,但是神经网络在实际训练的时候,无法充分发挥这些输入之间的关系而导致模型训练结果效果极差。比如,标签提取、机器翻译问题、词性标注问题、语义分析问题等。自注意力机制则可以针对全连接神经网络,对于多个相关的输入无法建立起相关性的这个问题,让机器注意到整个输入中不同部分之间的相关性。它的一种实现方法简单来说,就是有多个输入向量,分别对这多个输入向量,执行以下步骤:
自注意力机制中包含权重矩阵Wq、权重矩阵Wk、权重矩阵Wv,针对一个输入向量X1,分别计算X1*Wq=Q1、X1*Wk=K1,X1*Wv=V1,获取这一个输入向量分别与其他输入向量(X2、X3…Xn)的相关性,得到相关性矩阵QK1,对这一相关性矩阵做softmax操作或者relu操作,得到相关性表达矩阵QK1′,进一步,再根据输入向量的含义,获得Z1=QK1′*V1,如此,输出结果Z1中既包含这一输入向量X1本身的意义,又包含这一输入向量X1与其他各输入向量(X2、X3…Xn)之间的相关性。基于前述,可以理解的,自注意力机制的本质是通过非线性变换,把原始数据空间上的各输入向量(X1、X2…Xn)的输入矩阵X点位置,映射到新空间上的输出结果的输出矩阵点Z上。
前馈神经网络(feed forward neural network,FNN),简称前馈网络,是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层,也可以是多层,整个网络中无反馈,信号从输入层向输出层单向传播,经过每层网络提取不同的特征,最终输出结果。
激活函数(Activation Function),在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,决定了将上一层神经元发射给下一个神经元的内容。包括Softmax函数、Tanh函数和ReLU函数。
Tanh函数,是双曲函数中的一个,Tanh()为双曲正切,为神经网络中的饱和激活函数,可以减轻梯度消失现象。在数学中,双曲正切“Tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来。
Softmax函数:是一个在生物学中常见的S型函数,也称为S型生长曲线,为神经网络中的饱和激活函数,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。
ReLU函数(Rectified Linear Unit),意为修正线性单元,Relu激活函数是常用的神经激活函数,其实际为分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。ReLu函数具有稀疏性的优点,可以使稀疏后的模型能够更好地挖掘相关特征,拟合训练数据;在x>0区域上,不会出现梯度饱和、梯度消失的问题;计算复杂度低,不需要进行指数运算,只要一个阈值就可以得到激活值,缺点是输出不是0对称,由于小于0的时候ReLu激活函数值为0,梯度为0,所以存在一部分神经元永远不会得到更新。
BERT模型(基于Transformer的双向编码器表征):是一种利用了transformer网络结构的预训练语言模型。通过屏蔽(mask)序列中的部分id得到训练数据,模型利用双向序列信息预测当前被屏蔽的id,并构建被屏蔽的id的目标函数,来训练模型。BERT提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于单向语言模型,其能利用更全面的上下文信息。在海量的语料上预训练完BERT之后,便可以将其在各个自然语言处理任务上微调(fine-tuning),多个实验验证微调后的BERT能取得先进效果。
HMC(Hierarchical Multi-Classification)层级多分类:常见的文本标签识别任务中,标签是相同粒度的,属于同一标签层级,即不存在包含关系。而层级多分类则是一类特殊的文本标签识别任务,即标签之间存在层次结构关系,一般可以表示为树形或者无向图。在这类任务中,一条样本的标签会同时包括层次结构中的父标签和子标签。
一级类目:在一般的新闻业务中,一级类目是最粗粒度的标签体系,比如体育、财经、娱乐等。每个类目的内容之间不会有相互覆盖。体系具有一定的完备性,虽然不一定要求逻辑上的完备,但在内容的自然分布与用户兴趣分布上能够覆盖绝大部分情况。
二级类目:在一般新闻业务中,二级类目是适中粒度的标签体系,是对一级类目的更进一步细分,比如体育这一个一级类目下,有篮球、足球等二级类目。
中文分词:分词就是将连续的字符序列按照一定的语义拆分或组合成互相独立词语(跟英文中的单词word意义类似)序列的过程。在英文文章中,词语之间是以空格作为自然分界符的,而中文却没有空格,这种用于分割不同词语的字符。虽然英文的语言模型(language model)也会对词语进行裁剪,但是比中文简单很多。中文语言模型受分词任务性能的影响很大。
词袋模型(BoW,Bag-of-words model):是一个在自然语言处理和信息检索下被简化的表达模型。此模型下,一段文本(比如,一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序,文档中每个单词的出现都是独立的,将文档看作是若干个词汇的集合。
共现矩阵:对共现(Co-occurrence)次数的统计表就是共现矩阵;是用来显示不同词在语料中,共同出现次数的一个矩阵,它能描述两元组的关联关系。
边角案例(corner case):是指其操作参数在正常范围以外的问题或是情形,而且多半是几个环境变数,或是条件都在极端值的情形;在本申请实施例中特指不常见的文本形式或者不常见的标签。
本申请实施例的技术方案涉及人工智能、自然语言处理和机器学习技术,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理技术和机器学习技术。在本申请实施例提出的标签识别模型主要应用于对待预测文本进行标签提取。标签识别模型的训练和使用方法可以分为两部分,包括训练部分和应用部分;其中,训练部分涉及到自然语言技术和机器学习这一技术领域,在训练部分中,标签识别模型通过自然语言技术,对训练样本的样本文本内容和样本标题、样本类目、样本标签进行文本处理、语义理解等,并通过机器学习这一技术训练标签识别模型,采用预测结果与训练样本的样本标签的差异,通过优化算法不断调整模型参数,直至模型收敛,包括训练样本通过标签识别模型后,获得相应的模型内相关参数;应用部分涉及到自然语言技术和机器学习这一技术领域,在应用部分中,标签识别模型通过自然语言技术,对待预测文本中的文本内容和标题,进行文本处理、语义理解等,并通过机器学习这一技术,标签识别模型使用在训练部分训练得到的模型内相关参数,获得待预测文本输入标签识别模型后,得到的相应预测标签等。另外,还需要说明的是,本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练,在此不做具体限定,在本文中是以离线训练为例进行举例说明的。
下面对本申请实施例的设计思想进行简要介绍:
在相关的文本发布应用中,使用对象可以在移动终端的文本发布应用中编辑文本,并将文本上传至文本发布应用的服务器,服务器接收文本后,对文本分类存储,以便于接收到查阅对象移动终端发送的查阅请求时,返回并展示这一文本。其中,为保证查阅对象可以快速获得相关文本,则服务器会对上传的文本进行标签提取,将标签与文本相应保存,服务器在获得查阅请求中的查阅关键字时,可以将查阅关键字与文本对应的标签进行匹配,以返回匹配的文本至查阅对象的移动终端并展示。
相关技术中,为了提高标签识别的准确度,研发人员尝试了各种方式对文本分析,获得更精确的标签,目前包括:基于词袋模型的传统机器学习方法、基于word2vec方法、基于循环神经网络方法、基于生成式模型(使用transformer模型中的encoder模块建模文本序列,然后使用decoder模块生成具体的标签)方法等进行标签识别,这些方法中,词袋模型中词与词之间没有关联,忽略了上下文语义信息,word2vec没有考虑词与词之间的顺序关系,循环神经网络方法预测效果完全依赖前置分词任务的准确度,预测效果不稳定,生成式模型容易出现晦涩难懂的标签,且前述这些方法中,均仅基于文本的语义特征预测标签,所基于的数据分析基础单一,准确性低。
鉴于此,本申请实施例提供了一种文本预测方法、装置、计算机设备和存储介质,该文本预测方法在获得待预测文本后,提取待预测文本中文本内容和标题包含的各关键词的词特征,以及各关键句的句特征,得到综合语义特征。如此,使得综合语义特征中包含的待预测文本的文本信息全面,便于后续预测时,有较丰富的数据分析基础,以获得更准确的预测结果。进一步的,对综合语义特征的上下文特征进行提取,获得包含综合语义特征中词特征之间、句特征之间、词特征和句特征之间的关联关系,从而根据这种关联关系,对上下文特征进行分类处理,获得目标类目特征,至此,相比于相关技术中,仅上传文本的语义特征作为数据分析基础,以对上传文本的标签进行识别和提取,导致的标签识别的信息基础单一,识别准确性低的问题。本申请不仅以待预测文本的综合语义特征(关键词的词特征和关键句的句特征)作为数据待分析基础,以提高提取文本信息的全面性,提高预测结果的准确性,还获得可以表征待预测文本归属的文件分类的目标类目特征,进一步提高数据分析基础的丰富程度,在基于上下文特征和目标类目特征进行预测标签时,可以考虑到标签与文本语义和文本类目的关联关系,提高标签识别的准确度。
基于上述文本预测方法,本申请实施例提供了在一种文本预测方法,如图1所示,所述方法是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
步骤101、基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
在一种实施例中,训练样本集中的每个训练样本中包括样本文本、样本类目和样本标签,如图2所示,为本申请实施例提供的一种训练样本,其包含样本文本内容:“活一千年不死,死一千年不倒,倒一千年不朽”之美誉的胡杨,千百年来***…。样本标题:沙漠里的守护神-胡杨。样本标签:胡杨。样本类目:文学类。样本类目还可以包含一级类目(父类目)、二级类目(子类目),如,这一训练样本的一级类目为文学类,二级类目为散文,还可以包含三级类目为随笔杂文。需要说明的是,这里的训练样本仅为一种示例。训练样本可以是文学类文章、科学类文章、实事报道等类型的文本,这里对训练样本集合中包含的具体文本分类不做限制,可以根据需要设置。
在一种实施例中,训练样本的获取方式,可以通过人工标注的方式获取,但由于边角案例的问题,一些标签的训练样本的数据量比较小,容易被其它标签的训练样本淹没,为了保证标签识别模型预测结果的准确率,可以调整不同标签对应的训练样本的重要程度。换句话说,在训练中不同的标签的训练样本所占权重应该是不一样的。如此,才能保证标签识别模型可以准确的判断出各训练样本各自的标签。为了平衡分布值高的类目下的文本,与长尾分布的类目下的文本对训练的影响,最初构建训练样本集时,可以通过针对各类目下文本均匀采样、按文本分布值采样、完全随机采样三种方式收集数据,提交人工标注。其中,若标签识别模型上线后,可以会把不置信的数据发送到标注平台;如果标注平台有资源,会进行人工标注,这部分标注数据会增量更新到微调训练集。
另外,在训练样本标注时,为加快标注速度,可以根据相关标签识别模型(如,词袋模型、循环神经网络模型等)给出一些候选标签,然后,标注人员判断是否正确。标注人员会把挑选一些合适的标注1,显著不合适的标注0。如,一篇描述“绿化宣传”的文章,采用“NBA”做负样本肯定更简单,更不容易被混淆,而采用“植被种植”做负样本更容易被混淆。
除此之外,还有一些相关标签识别模型给出的候选标签介于中间状态未被标注。评估发现,这些未标注的数据大多都不适合相应的标签,是负向的信号。实验结果显示,丢弃这些未标注的数据,呈现效果反而变差,因此,本申请提出了一种新颖的利用未标注数据的方式,大部分标注为空(未标注)的标签都是负向的,如果直接默认成标注为0可能有误差,因为其可能包含正样本,可以通过调节超参数的方式,缓解这一部分产生的噪声。在训练时定义Random Soft Mask Loss如下:
其中,hp都是需要实验验证调节的超参数(hyper parameter),lossHMC为标签识别模型中对应层级类目的分类模型的损失函数,loss为标签识别模型的损失函数。
在一种实施例中,提取的训练样本中样本文本的样本语义特征,可以首先采用自然语言处理方法,对样本文本进行分词,获得各样本分词,进一步的,从各样本分词中确定出样本关键词。
在一种实施例中,样本关键词的获取方式可以包括词义分析方式、机器学习的方式等获取,如,词义分析方式可以采用SKE算法获取样本关键词,机器学习方法可以采用支持向量机、朴素贝叶斯等方式获取样本关键词,本申请中样本关键词的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
在一种实施例中,可以采用多种方法对样本文本进行样本关键句提取,如,将样本标题确认为样本关键句;可以将样本文本内容中样本关键词,所在句子确认为样本关键句;或者,可以将词频高于设定词频阈值的样本文本内容中样本关键词,所在句子确认为样本关键句;或者可以将样本文本内容中的句子中,包含的样本关键词数量超过设定数量阈值的这一句子作为样本关键句,或者可以将样本文本内容中设定段落中设定区域的句子作为样本关键句等等,这里对样本关键句的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
在一种实施例中,样本关键词的样本词特征和样本关键句的样本句特征的获取方式可以为:采用独热编码方式,将样本关键词和样本关键句分别编码,获得相应的样本词特征和样本句特征,或者,或者根据设定词嵌入表,设定词嵌入表中包含样本关键词和样本关键句分别对应的样本词特征和样本句特征,从而获得相应的样本词特征和样本句特征,也即,这里对样本关键词的样本词特征和样本关键句的样本句特征的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
在一种实施例中,可以采用BERT、循环神经网络等方式获取训练样本的样本语义特征。
在一种实施例中,提取样本语义特征的方法,如图3所示,包括:
步骤301、从所述样本文本中的样本文本内容和样本标题中,选取出各样本关键词,获得所述各样本关键词的样本词特征序列;具体包括:
对所述样本文本内容和所述样本标题进行分词处理,获取所述样本文本内容和所述样本标题包含的各样本分词,并基于所述各样本分词各自的词频,选取出所述设定数量的样本关键词;
提取各样本关键词各自的样本词特征,并基于所述各样本关键词在所述样本文本内容和所述样本标题中的顺序,获得各样本词特征对应的样本词特征序列。
在一种实施例中,对样本文本内容和样本标题进行分词处理,可以采用自然语言处理方法,获得各样本分词,如图4所示,将包含样本文本内容和样本标题的样本文本输入样本关键词提取模块,可以获得各样本分词,从而基于各样本分词提取样本关键词。
在一种实施例中,可以将样本标题和样本文本内容拼接为一个字符串,然后调用分词服务(可以采用自然语言处理方法)得到各样本分词的样本分词序列,提取样本关键词的方式可以为,针对各样本分词中的每个样本分词,获取样本分词在样本文本中的词频,以及语料库中,包含这一样本分词的文本数量,从而获得这个语料库中,包含样本分词的文本的情况,则可以根据这一样本分词的词频,以及语料库中,包含这一样本分词的文本的情况,确定样本关键词。
具体的,样本分词分数计算方法如下:
scorew=tf(w,d)*idf(w,D)
其中,
d是语料D中一个文本,w是文本d中的词语,fw,d表示文本d中w的词频。
N=|D|是语料D中的文本数量,|{d∈D,w∈d}|表示所有包含词语w的文本数量。
最后,通过样本分词分数倒排,选取前设定数量的样本分词作为样本关键词。
在一种实施例中,样本词特征可以采用样本词向量来表示,可以采用独热编码、或查找词嵌入表(其中记录有各种词语对应的向量表示)将样本关键词转换为一定长度的向量来表示,如图5所示,并将获得的各样本词特征按照样本关键词在样本文本中的顺序排列,获得样本词特征序列。
步骤302、将所述样本标题作为一个样本关键句,从所述样本文本内容选取出与所述样本标题匹配的至少一个样本关键句,获得各样本关键句的样本句特征序列;包括:
将所述样本标题作为一个样本关键句,以及对所述样本文本内容进行分句处理,获取所述样本文本内容的各样本分句,并从所述各样本分句中选取出与所述样本标题的相似度符合所述预设条件的至少一个样本关键句;其中,各样本关键句的字符长度和不超过所述设定长度;
提取各样本关键句各自的样本句特征,并基于所述各样本关键句在所述样本文本内容和所述样本标题中的顺序,获得各样本句特征对应的样本句特征序列。
在一种实施例中,将样本标题作为一个样本关键句,对样本文本内容进行分词处理,可以采用自然语言处理方法,获得各样本分句,如图4所示,将包含样本文本内容和样本标题的样本文本输入样本关键句提取模块,可以获得各样本分句,从而基于各样本分句提取样本关键句,之后,样本语义提取模块可以根据接收样本关键词提取模块输出的各样本关键词,以及样本关键句提取模块输出的各样本关键句,生成样本语义特征。
在一种实施例中,样本关键句提取模块在接收输入的样本文本后,可以先对样本文本进行文本预处理,包括:特殊符号处理、英文大小写转换以及繁简体字转换等,使得获得的样本文本中包含的字符都是有意义的字符,便于加快获取样本关键句的速度。
在一种实施例中,假设样本标题是长度为L1的字符串,样本文本内容是长度为L2的字符串(可以是经过文本预处理的样本标题和样本文本内容)。为了保证后续模型处理效率,或模型规模限制(如,若后续模型为BERT模型,且BERT模型可能对处理数据长度存在一定限制),可以将各样本关键句的字符长度和,与各样本关键词的字符长度和的和值限制在设定长度内。若设定长度为:MAX_SEQ_LENGTH3,则针对文本预处理之后的样本文本,获取样本关键句,若获得的各样本关键句的样本关键句序列的长度为L2’,且若样本关键句L1+L2’>MAX_SEQ_LENGTH3会对样本文本内容中的样本关键句进行截断,MAX_SEQ_LENGTH1+MAX_SEQ_LENGTH2(样本关键词序列的长度)=MAX_SEQ_LENGTH3。
具体方法是采用自然语言处理方法(如,采用‘。’或‘;’等符号作为句子隔断,获取样本分句),先将样本文本内容分成不同的样本分句,然后分别计算每个样本分句与样本标题的文本相似度,筛选文本相似度高的样本分句,直到达到MAX_SEQ_LENGTH1。首先对样本文本内容进行分句,如图6所示,每个样本分句用词序列表示:
sentenceids=[w1,w2,w3,…]
其中,w1,w2,w3分别表示句子中的词语。
然后,查询词嵌入表(其中包含各词语的向量),将每个句子的表示转成embedding序列:
sentenceemb=[embw1,embw2,embw3,...]
其中,embw1,为词w1的词向量(embw2,embw3同理分别为对应w2,w3的词向量),此处的向量可以采用浮点法的方式表示,如,词向量维度是100、200等维度的浮点向量。然后每个样本分句和样本标题的表示通过对sentenceemb进行平均池化得到:
sentence=AVERAGE(sentenceemb)
样本分句sentences和样本标题sentencetitle的相似度计算方法为:
其中,dot表示向量点积,norm为向量归一化。
另外,上述方法中,可以通过贪心方法逐步选取与样本标题相似度高的样本分句作为样本关键句,直到达到样本关键句序列的设定长度MAX_SEQ_LENGTH1。最后,将样本标题和筛选的样本关键句通过’[SEP]’拼接成一个字符串,采用词嵌入表,获得样本关键句的样本句特征,进一步获得样本句特征序列,样本句特征序列中的样本句特征顺序,可以根据对应的样本关键句在样本文本内容中的顺序确定。在一种示例中,MAX_SEQ_LENGTH3可以设为512,而embedding维度可以设为200。字符embedding按截断正太分布(truncated normalinitializer)的方式初始化,然后随着批量梯度下降更新参数。
步骤303、将所述样本词特征序列和所述样本句特征序列拼接,得到所述样本语义特征。
在一种实施例中,在获得样本语义特征后,如图7所示,还可以将样本语义特征输入上下文特征提取模块,提取出样本语义特征包含的多个元素之间的关联关系,获得元素关联特征。其中,上下文特征提取模块中可以采用BERT模型或者自回归语言模型等方式,提取出样本语义特征包含的多个元素之间的关联关系,获得元素关联特征。
在一种实施例中,上下文特征提取模块中采用BERT模型,将样本语义特征输入BERT模型,BERT模型可以如图8所示,BERT模型在接收样本语义特征D后,基于自注意力机制中的权重矩阵Wg、权重矩阵Wh、权重矩阵Wl,分别与样本语义特征相乘,得到文本权重特征G、文本权重特征H和文本权重特征L,将文本权重特征G和文本权重特征L相乘得到特征LG,再进一步,将特征LG与损坏矩阵MASK相乘得到损坏特征LG’,将文本权重特征H和损坏特征LG’相乘、重构,得到多个元素之间的关联关系,获得相应的元素关联特征S。其中,还可以通过前馈网络层元素关联特征S进行处理等,获取最终输出的元素关联特征。其中,损坏矩阵MASK为按照一定比例把句子中的token通过特殊的'[MASK]'代替,然后基于上下文预测被遮蔽掉的token。BERT最后一层的输出序列中,选择被遮蔽掉相应位置的隐向量,跟词嵌入表做矩阵乘法,然后经过SOFTMAX用了预测token。损坏矩阵MASK可以将15%的token被随机遮蔽掉。当然被遮蔽的token不一定都会被替换成'[MASK]',有10%概率会被替换成随机的token,另有10%的概率被替换成原来的token(即不遮蔽,模型需要预测最初的token)。
在一种实施例中,上下文特征提取模块中BERT模型中的注意力层可以是多头注意力机制,如图9所示,BERT模型中的多头注意力机制可以是如图9中的多个注意力层并行处理,最后将各注意力层的输出的各自的元素关联特征,做融合处理,得到输出的最终的元素关联特征。
在一种实施例中,BERT模型使用一个encoder模块把输入的embedding序列转换成表示(representation)序列。整个encoder由6、8、9等层(这里对堆叠的网络层数具体不做限制,可以根据需要设置)网络依次堆叠而成,每层由2个子层组成,如图10所示,第一个是多头注意力机制层,第二层是简单的前馈神经网络。每2个子层直接有残差模块和归一化模块,每层的输出为:
output=LayerNorm(x+Sublayer(x))
前一层的输出X作为后一层的输入,最后一层的输出即为encoder的最终输出。
在一种实施例中,上述图7、8、9、10中的BERT模型中,实际应用时的点积都是批量计算的(如,样本语义特征中实际中可能包含大量的样本句特征和样本词特征),因此可以把多个样本句特征和样本词特征的计算,打包成一次矩阵运算:
为了消除向量维度增大带来的影响,(使得权重矩阵Wg、和权重矩阵Wl的点积变大,因而,导致SOFTMAX到了梯度饱和区间,梯度变得非常小,模型无法训练),这里有一步除以的操作,相当于归一化,消除维度带来的影响。正因为自注意力机制将计算打包成矩阵运算,经过深度优化过的矩阵算子加持,其运行性能非常高。BERT可能并不是单单用一组自注意力参数,而是有多组。多组并行计算,结果可以拼接到一起作为输出。另外,BERT的输入,样本语义特征若长度小于设定长度时,可以采用无效数据补齐,同时可以采用无效数据位置矩阵记录无效数据位置,在BERT输出的结果中,根据无效数据位置矩阵,将无效数据消除。
基于上述各实施例,本申请实施例提供了一种元素关联特征的获取方法,所述基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征,包括:
基于所述样本语义特征,采用双向编码器提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;
其中,所述双向编码器是采用预设训练样本集合训练后获得的。
在一种实施例中,图7中的上下文特征提取模块为双向编码器BERT,则可以采用预设训练样本集合对BERT模型进行预训练,获得训练后的BERT模型,BERT模型中包含双向语言预训练模块和判别模块,双向语言预训练模块用于获取输入的训练样本对应的样本语义特征中各元素的关联关系,判别模块用于根据样本语义特征中各元素的关联关系判别训练样本中样本文本的文件分类。将训练后的BERT模型中的判别模块除去,将双向语言预训练模块耦合到标签识别模型中,作为上下文特征提取模块。如此,将训练完成的BERT模型中包含的双向语言预训练模块耦合到标签识别模型中,可以加快标签识别模型的训练速度。
步骤102、基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
在一种实施例中,如图11所示,上下文特征提取模块输出的元素关联特征输入到类目特征提取模块,类目特征提取模块可以基于多个元素之间的关联关系,对元素关联特征进行分类处理,获得样本类目特征,此处的类目特征提取模块可以采用决策树、随机森林、多层感知机(MLP)等方法。
在一种实施例中,若如图11所示的类目特征提取模块采用多层感知机(MLP),如图12所示,多层感知机层对元素关联特征中各特征处理,多层感知机层与层之间是全连接的,多层感知机最底层是输入层,中间是隐藏层(可以有一层或多层),最后是输出层。
在一种实施例中,类目特征提取模块可以包含第一类目特征提取模块和第二类目特征提取模块,如图13所示,其中,第一类目特征提取模块可以基于元素关联特征表征的关联关系,对元素关联特征进行第一分类处理,获得样本子类目特征,样本子类目特征表征样本文本归属的文件分类的样本子分类。第二类目特征提取模块可以将接收的样本子类目特征与元素关联特征拼接,获得样本拼接特征,基于这一样本拼接特征包含的关联关系和样本子分类,对拼接特征进行第二分类处理,获得样本父类目特征,样本父类目特征表征样本子分类的样本父分类,将样本父类目特征和样本子类目特征拼接,获得样本类目特征。
其中,第一类目特征提取模块,取BERT的输出经过分类网络,再经过SOFTMAX得到预测值:
outputcat2=MLP(outputBERT)
predcat2=SOFTMAX(outputcat2)
CEcat2=CrossEntropy(predcat2,labelcat2)
其中,outputBERT为元素关联特征,outputcat2为样本子类目特征,predcat2为SOFTMAX得到预测值,CEcat2为第一类目特征提取模块中多层感知机层的损失函数。
类似的,第二类目特征提取模块,先将outputcat2与outputBERT进行拼接,然后经过分类网络和SOFTMAX得到相应的预测值:
outputcat1=MLP(concat(outputcat2,outputBERT))
predcat1=SOFTMAX(outputcat1)
CEcat1=CrossEntropy(predcat1,labelcat1)
其中,outputcat1为样本父类目特征,predcat1为SOFTMAX得到相应的预测值,CEcat2为第二类目特征提取模块中多层感知机层的损失函数。
步骤103、基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
在一种实施例中,如图11所示的类目特征提取模块,以及图13所示的第一类目特征提取模块和第二类目特征提取模块,标签识别模型中还可以包含共现网络模块,如图14所示,共现网络模块可以是一组简单的前馈神经网络,将输入的样本类目和样本标签的类目标签对特征进行处理,获得目标共现特征。其中,类目标签对特征是根据共现记录中记录的类目和标签在同一文本出现的情况获得的。假若共现记录中记录类目标签共现的共现向量,如下表1所示:
表1
其中,向量11表示标签1和类目1的共现情况,同理,其它各向量分别表示对应的标签和类目的共现情况。需要说明的是,图11中的标签识别模型中还可以包含第三类目特征提取模块,用于获取样本子分类的样本子分类的特征,进而,最终获得的样本类目特征为样本父分类特征、样本子分类特征、样本子分类的样本子分类的特征拼接生成的,也就是说,这里对类目特征提取模块中具体包含的类目分类层级数量不做限制,可以是两层的父类目和子类目,还可以是三层的父类目、子类目、子类目的子类目。
基于上述各实施例,本申请实施例提供了一种目标共现特征的获取方法,所述训练样本中还包含所述样本文本的浏览情况;则所述基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,包括:
基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
在一种实施例中,训练样本中包含样本文本、样本标签和样本类目,还包含训练样本的浏览情况,这里的浏览情况可以是训练样本的文本的点击量、阅读量、收藏量等,或者点击量、阅读量、收藏量等项目的权重值。则可以针对训练样本集中所有的训练样本,获取所有训练样本中出现的类目标签对,针对每种类目标签对,汇总这种类目标签对对应的各训练样本的浏览情况,得到每种类目标签对的汇总浏览情况,汇总浏览情况可以是这种类目标签对对应的各训练样本的点击量、阅读量、收藏量等的和值,或者点击量的和值、阅读量的和值、收藏量的和值等,或者点击量、阅读量、收藏量等项目的权重值的和值,或者,还可以是汇总浏览情况可以是这种类目标签对对应的各训练样本的点击量、阅读量、收藏量等的加权平均,或者点击量的加权平均、阅读量的加权平均、收藏量的加权平均等,或者点击量、阅读量、收藏量等项目的权重值的加权平均等,这里对汇总浏览情况的计算方式具体不做限制。
在一种实施例中,共现网络模块可以获得样本标签和样本类目这一类目标签对的共现向量后,将这一类目标签对的汇总浏览情况(可以采用一组浮点型权重w表示)与这一类目标签对的共现向量embcooc相乘,得到的结果输入前馈神经网络。即,前馈神经网络的输入:inputcooc=w*embcooc。在一种示例中,embcooc的维度可以是200,还可以令其容量恰好等于类目总数,通过截断正太分布随机初始化。inputcooc输入到3层前馈网络层、6层前馈网络层、9层前馈网络层等,得到此共现网络模块的输出。
在一种实施例中,训练样本的浏览情况可以是文章在相应阅览软件的一年的文章热度数据,再结合文章的样本父类目、样本子类目和样本标签,可以得到[cat1(样本父类目),cat2(样本子类目),tag(样本标签),hot(热度值)]四元组数据,以样本父类目为例,从四元组数据中筛选出[cat1,tag,hot],然后分组统计:
cooccurancecat1=SUM(hot1)group by(cat1,tag)
类似的,可以得到cooccurancecat2,融合cooccurancecat1和cooccurancecat2即可得到共现数据。接下来进行归一化和平滑:
其中,epsilon是平滑超参数,设定为1e-6。共现网络模块的物理意义是某个标签只可能与一个或几个类目共现,通过预测类目的同时,标签识别模型会优先识别与类目相关的标签,从而形成有效约束,提升识别准确率。
步骤104、基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
在一种实施例中,本申请中标签识别模型可以包含两部分,如图15所示,第一部分包含样本关键词提取模块、样本关键句提取模块、样本语义提取模块、上下文特征提取模块、第一类目特征提取模块和第二类目特征提取模块,第二部分就是共现网络模块。拼接层接收样本子类目特征和样本父类目特征拼接为样本类目特征,并将样本类目特征与接收的目标共现特征和上下文特征提取模块输出的元素关联特征拼接,获得样本融合特征,将样本融合特征输入标签识别模块,进行最终的识别:
outputtag=MLP(concat(outputcat2,outputcat1,outputBERT,output_cooc))
predtag=SOFTMAX(outputtag)
CEtag=CrossEntropy(predtag,labeltag)
标签识别模型的损失函数为:
LossHMC=CEcat1+CEcat2+CEtag
其中,CEtag为标签识别模块的损失函数。
在一种实施例中,标签识别模块可以采用决策树、随机森林、多层感知机制等分类方式,这里对标签识别模块所采用的分类方法具体不做限制。
基于以上和方法流程和实施例获得的标签识别模型,可以应用到各种文本的标签预测中,以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图16所示,其为本申请实施例的应用场景示意图。该应用场景图中包括多个终端设备中的任一终端设备1610和多个服务器中的任一个服务器1620。
在本申请实施例中,终端设备1610包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有与文本发布业务相关的客户端,该客户端可以是软件(例如浏览器、通讯软件等),也可以是网页、小程序等,服务器1620则是与软件或是网页、小程序等相对应的后台服务端,或者是专门用于接收客户端发送的文本,并对文本进行标签预测的后台服务端,本申请不做具体限定。服务器1620可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的文本预测方法可以由计算机设备执行,该计算机设备可以为服务器1620或者终端设备1610,即,该方法可以由服务器1620或者终端设备1610单独执行,也可以由服务器1620和终端设备1610共同执行。比如由终端设备1610和服务器1620共同执行时,终端设备1610中客户端在上传待预测文本后,服务器1620接收待预测文本,并提取待预测文本中文本内容和标题包含的各关键词的词特征,以及各关键句的句特征综合语义特征,进一步,提取综合语义特征中各元素(每个元素为词特征或句特征)之间的关联关系,基于上下文特征表征的关联关系,对上下文特征进行分类处理,获得表征待预测文本归属的文件分类的目标类目特征,从而基于上下文特征和目标类目特征,获得融合特征,并基于融合特征,获得待预测文本的预测标签。还可以将待预测文本和预测标签,相应存储,如此,以在接收到终端设备1610或其它终端设备发送的查阅请求时,可以根据查阅请求中的查阅关键词匹配文本的标签,以获得匹配的文本,将文本返回至终端设备1610或其它终端设备。
服务器1620或者终端设备1610单独执行时,则服务器1620或者终端设备1610可以在被触发时(可以服务器1620或者终端设备1610定时被触发,或者被管理对象触发等,这里对触发条件具体不做限制),对存储的至少一个文本,针对每个文本,提取文本中文本内容和标题包含的各关键词的词特征,以及各关键句的句特征综合语义特征,进一步,提取综合语义特征中各元素(每个元素为词特征或句特征)之间的关联关系,基于上下文特征表征的关联关系,对上下文特征进行分类处理,获得表征文本归属的文件分类的目标类目特征,从而基于上下文特征和目标类目特征,获得融合特征,并基于融合特征,获得文本的预测标签。还可以将文本和预测标签,相应存储。
需要说明的是,图16所示只是举例说明,实际上终端设备和服务器的数量和通信方式均不受限制,在本申请实施例中不做具体限定。
此外,本申请实施例文本预测可应用于各种场景,如,新闻发布、小说发布、文献发布、‘心情’或‘说说’等场景。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文本预测方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图17所示,为本申请实施例提供的文本预测方法的流程示意图,这里是以服务器为执行主体为例进行举例说明的,该方法的具体实施流程如下:
步骤1701、提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
在一种实施例中,待预测文本可以是新闻、文献、小说或‘心情’、‘说说’等,这里对待预测文本具体不做限制。
在一种实施例中,待预测文本中包含文本内容和标题,如,《XX日报》的一篇新闻标题:《XX群体,破浪前行》,文本内容:X年X月X日,X国XX会议提出,十年前的XX目标,经广大人民的努力,已基本实现,其中…。又如,X度文库中文献中包含的标题:自然语言处理,文本内容:自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能。就是在机器语言和人类语言...。
在一种实施例中,可以采用BERT、循环神经网络等方法对待预测文本进行综合语义特征提取。
基于上述方法步骤1701,本申请实施例提供了一种综合语义特征提取方法,如图18所示,所述提取待预测文本的综合语义特征,包括:
步骤1801、从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;
在一种实施例中,可以采用多种方法对待预测文本的文本内容和标题进行关键词提取,此处提供多种示例用于说明关键词的获取方式:
示例一:采用语义分析的方式,在词典的帮助下,通过词法与句法分析进行自动分词、词性标注,使计算机能够理解多种信息片段、词汇间的语义关系,进而通过复杂计算来获得关键词。具体可以基于SKE算法,获取关键词,该算法运用词语语义相似度构建一个词语语义的相似性网络,再结合社会网络理论,使用居间密度词语语义的关键度,最后将词语语义关键度和词语的统计特征值加权来获得关键词。
示例二:采用机器学习的方式,通过对大量训练语料库进行训练,获得各项***参数和模型,再将模型应用于测试语料库来检验关键词提取效果。在训练集中,把关键词提取看作是有监督的分类问题。具体的,常用的模型有支持向量机、朴素贝叶斯、最大熵、决策树等。
示例三:采用复杂网络的方式,根据候选特征词(可能为关键词的词语)之间的关系,按照既定规则,构建一个复杂网络或者加权复杂网络模型,计算节点权重系数和介数来表示节点综合值,综合值大的即为关键词。其中,复杂网络(Complex Network),是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。特征为:小世界、集群即集聚程度的概念、幂律的度分布概念。
示例四:采用基于统计的方式,通过词语的统计信息来提取关键词,最常用的是词频-逆向文本频率(TF-IDF)指标和N-gram方法,这类方法只需统计相关词语的词频和使用过滤技巧,即可获得关键词。其中,TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,可以作为关键词,适合用来分类。N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(jointprobability)。
由上述示例可知,本申请中关键词的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
基于上述方法步骤1801,本申请实施例提供了一种词特征序列获取方法,步骤1801、所述从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列,包括:
对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;
提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。
在一种实施例中,可以将标题和文本内容拼接为一个字符串,然后调用分词服务(可以采用自然语言处理方法)得到各分词的分词序列,提取关键词的方式可以为,针对各分词中的每个分词,获取分词在待预测文本中的词频,以及语料库中,包含这一分词的文本数量,从而获得这个语料库中,包含分词的文本的情况,则可以根据这一分词的词频,以及语料库中,包含这一分词的文本的情况,确定关键词。
具体的,分词分数计算方法如下:
scorew=tf(w,d)*idf(w,D)
其中,
d是待预测文本,w是文本d中的分词,fw,d表示待预测文本d中w的词频。
N=|D|是语料D中的文本数量,|{d∈D,w∈d}|表示所有包含词语w的文本数量。
最后,通过分词分数倒排,选取前设定数量的分词作为关键词。
在一种实施例中,词特征可以采用词向量来表示,可以采用独热编码、或查找词嵌入表(其中记录有各种词语对应的向量表示)将关键词转换为一定长度的向量来表示,并将获得的各词特征按照关键词在待预测文本中的顺序排列,获得词特征序列。
步骤1802、将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;
在一种实施例中,可以采用多种方法对待预测文本的文本内容和标题进行关键句提取,如,可以将关键词所在句子确认为关键句,或者,可以将词频高于设定词频阈值的关键词所在句子确认为关键句,或者可以将句子中,包含的关键词数量超过设定数量阈值的这一句子作为关键句,或者可以将设定段落中设定区域的句子作为关键句等等,这里对关键句的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
在一种实施例中,关键词的词特征和关键句的句特征的获取方式可以为:采用独热编码方式,将关键词和关键句分别编码,获得相应的词特征和句特征,或者,或者根据设定词嵌入表,设定词嵌入表中包含关键词和关键句分别对应的词特征和句特征,从而获得相应的词特征和句特征,也即,这里对关键词的词特征和关键句的句特征的获取方式有多种,可以根据具体需要设置,这里具体不做限制。
基于上述方法流程步骤1802,本申请实施例提供了一种句特征序列获取方法,步骤1802、所述将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列,包括:
将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;
提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。
在一种实施例中,预设条件可以为相似度符合设定阈值的分句作为关键句,或者,预设条件还可以为相似度和至少一个关键句和标题这一关键句的关键句序列的长度阈值。
在一种实施例中,假设标题是长度为U1的字符串,文本内容是长度为U2的字符串(可以是经过文本预处理的标题和文本内容)。为了保证后续模型处理效率,或模型规模限制(如,若后续模型为BERT模型,且BERT模型可能对处理数据长度存在一定限制),可以将各关键句的字符长度和,与各关键词的字符长度和的和值限制在设定长度内。若设定长度为:MAX_SEQ_LENGTH3,则针对文本预处理之后的待预测文本,获取关键句,若获得的各关键句的关键句序列的长度为U2’,且若关键句U1+U2’>MAX_SEQ_LENGTH3会对文本内容中 的 关键 句 进 行 截 断 ,MAX_SEQ_LENGTH1 + MAX_SEQ_LENGTH2(关键词序列的长度)=MAX_SEQ_LENGTH3。
具体方法是采用自然语言处理方法(如,采用‘。’或‘;’等符号作为句子隔断,获取分句),先将文本内容分成不同的分句,然后分别计算每个分句与标题的文本相似度,筛选文本相似度高的分句,直到达到MAX_SEQ_LENGTH1。每个样本分句用词序列表示:
sentenceids=[Q1,Q2,Q3,…]
其中,Q1,Q2,Q3分别表示句子中的词语。
然后,查询词嵌入表(其中包含各词语的向量),将每个句子的表示转成embedding序列:
sentenceemb=[embQ1,embQ2,embQ3,...]
其中,embQ1,为词Q1的词向量(embQ2,embQ3同理分别为对应Q2,Q3的词向量),此处的向量可以采用浮点法的方式表示,如,词向量维度是100、200等维度的浮点向量。然后每个分句和标题的表示通过对sentenceemb进行平均池化得到:
sentence=AVERAGE(sentenceemb)
分句sentences和标题sentencetitle的相似度计算方法为:
其中,dot表示向量点积,norm为向量归一化。
另外,上述方法中,可以通过贪心方法逐步选取与标题相似度高的分句作为关键句,直到达到关键句序列的设定长度MAX_SEQ_LENGTH1。最后,将标题和筛选的关键句通过’[SEP]’拼接成一个字符串,采用词嵌入表,获得关键句的句特征,进一步获得句特征序列,句特征序列中的句特征顺序,可以根据对应的关键句在文本内容中的顺序确定。在一种示例中,MAX_SEQ_LENGTH3可以设为512,而embedding维度可以设为200。
步骤1803、将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。
步骤1702、提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
在一种实施例中,可以采用自回归语言模型,分别针对综合语义特征,进行正向回归语言模型和反向自回归语言模型,获得正向特征和反向特征,将正向特征和反向特征融合处理,或的上下文特征。
其中,自回归语言模型,通过将综合语义特征中设定位置的词特征或句特征损坏(mask),以打破原有的文本信息,让模型进行文本的文本重建,在重建过程中预测损坏的特征,在自回归语言模型中,一般只能根据上文预测下一个单词(正向自回归语言模型),或者反过来,只能根据下文预测前面一个单词(反向自回归语言模型),即,只考虑单侧的信息,则采用正向自回归语言模型和反向自回归语言模型,可以分别获得上文预测下文的正向特征,下文预测上文的反向特征,正向特征和反向特征的融合方式可以包括加和的方式、或拼接的方式等,这里对正向特征和反向特征的融合方式具体不做限制。另外,此处还提供一种典型的自回归语言模型GPT,GPT(Generative Pre-training Transformer,生成预训练转换器)。
在一种实施例中,可以采用BERT(双向编码器),模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息,随机遮掩一些词,并利用所有没被遮掩的词进行预测,则可以将综合语义特征作为BERT的输入,使得BERT对综合语义特征中词特征和句特征,或者词特征,或者句特征进行遮掩和预测,获得上下文特征。
步骤1703、基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
在一种实施例中,上下文特征表征的词特征和句特征、词特征和词特征、句特征和句特征之间的关联关系,可以用于获取待预测文本所归属的文件分类。为了便于理解,此处提供一种示例:
待预测文本1为:北京时间3月27日凌晨,在湖人主场108-118负于公牛一战,勒布朗-詹姆斯神奇火线复出。
待预测文本2为:詹姆斯是NBA的巨星,2012年的时候詹姆斯曾经创造了很多的奇迹,但是这一年给人记忆最深刻的就是詹姆斯在年会上面和自己交往十多年的女友求婚。
可知,在待预测文本1和待预测文本2中均出现詹姆斯这一人名,但是待预测文本1中主要叙事为詹姆斯在篮球运动中的复出事项,待预测文本2中主要叙事为詹姆斯的情感问题,若仅基于‘詹姆斯’这一词汇,无法确定待预测文本1和待预测文本2分别归属的文件分类,但若假设待预测文本1中的关键词为‘北京时间’、‘湖人’、‘公牛’、‘詹姆斯’、‘复出’,关键句为‘勒布朗-詹姆斯神奇火线复出’。则根据关键词、关键句之间的关联关系可以确定待预测文本1属于体育栏目的文本。若假设待预测文本2中的关键词为‘詹姆斯’、‘NBA’、‘交往’、‘女友’、‘求婚’,关键句为‘但是这一年给人记忆最深刻的就是詹姆斯在年会上面和自己交往十多年的女友求婚’,则根据关键词、关键句之间的关联关系可以确定待预测文本2属于娱乐栏目的文本。由此可知,分析上下文特征表征的关联关系,可以对上下文特征进行分类处理,获得目标类目特征,从而得到待预测文本归属的文件分类。
在一种实施例中,基于上下文特征表征的关联关系,可以采用决策树、随机森林、梯度提升树(Gradient Boosting Decision Tree,GBDT)、有向监督学习(eXtremeGradient Boosting,XGB)、多层感知机(MLP)等方法,对上下文特征进行分类处理,获取目标类目特征。其中,可以获得大量训练样本集合,获得训练样本集合中每个训练样本的上下文特征,相应的,将上下文特征输入决策树、随机森林、梯度提升树(Gradient BoostingDecision Tree,GBDT)、有向监督学习(eXtreme Gradient Boosting,XGB)、多层感知机(MLP)模型,得到训练后的模型,用于上下文特征提取。
步骤1704、基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
在一种实施例中,将上下文特征和目标类目特征进行相应的融合处理,获得融合特征的方式可以包括:将上下文特征和目标类目特征进行拼接处理、乘积处理或加和处理等,此处对融合处理的方式可以根据需要设置,具体不做限制。
在一种实施例中,基于融合特征,获得待预测文本的预测标签的方式可以采用决策树、随机森林、梯度提升树(Gradient Boosting Decision Tree,GBDT)、有向监督学习(eXtreme Gradient Boosting,XGB)、多层感知机(MLP)等方法。
上述方法,可以使得综合语义特征既包含待预测文本中关键词的词特征,又包含关键句的句特征,即,综合语义特征中包含的待预测文本的文本信息全面,便于后续预测时,有较好的数据分析基础,以获得更准确的预测结果。进一步的,对综合语义特征的上下文特征进行提取,获得包含综合语义特征中词特征之间、句特征之间、词特征和句特征之间的关联关系,从而根据这种关联关系,对上下文特征进行分类处理,获得目标类目特征,至此,相比于相关技术中,仅上传文本的语义特征作为数据分析基础,以对上传文本的标签进行识别和提取,导致的标签识别的信息基础单一,识别准确性低的问题。本申请不仅以待预测文本的综合语义特征(关键词的词特征和关键句的句特征)作为数据待分析基础,以提高提取文本信息的全面性,提高预测结果的准确性,还获得可以表征待预测文本归属的文件分类的目标类目特征,则基于上下文特征和目标类目特征进行预测标签,可以考虑到标签与文本语义和文本类目的关联关系,提高标签识别的准确度。
基于上述图17中的方法流程,本申请实施例提供了一种目标类目特征的获取方法,步骤1703,所述基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,包括:
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;
将所述子类目特征与所述上下文特征拼接,获得拼接特征;
基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;
将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。
在一种实施例中,基于上述图15中的标签识别模型,此处提供了又一种标签识别模型,如图19所示,标签识别模型中包含两部分,第一部分包含关键词提取模块、关键句提取模块、综合语义提取模块、上下文提取模块、第一类目特征提取模块、第二类目特征提取模块,则在待预测文本输入标签识别模块后,标签识别模块通过关键词提取模块,提取待预测文本中的各关键词,通过关键句提取模块,提取待预测文本中的各关键句,将各关键词的关键词序列(关键词序列中的各关键词排序,可以按照各关键词在待预测文本中的顺序确定),以及各关键句的关键句序列(关键句序列中的各关键句排序,可以按照各关键句在待预测文本中的顺序确定)输入综合语义提取模块,通过综合语义提取模块获得综合语义特征,将综合语义特征输入上下文特征提取模块,获得上下文特征,将上下文特征输入第一类目特征提取模块,获得子类目特征,将子类目特征和上下文特征输入第二类目特征提取模块,获得父类目特征。
标签识别模型中的第二部分为共现网络模块,在标签识别模型的应用中,共现网络模块中包含设定共现特征。
则最终将第一部分获得的父类目特征和子类目特征拼接得到目标类目特征,并将目标类目特征、上下文特征和第二部分的设定共现特征融合(包括拼接,或做加和等相应计算的融合方式),将融合得到的融合特征输入标签识别模块,获得预测标签。
基于上述各方法流程和实施例,这里提供了一种标签识别模型线上应用的方法,如图20所示,包括:
步骤2001、终端设备将使用对象发布的待预测文本发送至后端服务器审核服务,对待预测文本中的标题和文本内容中的基础信息进行审核,保证待预测文本中标题和文本内容符合要求,并根据待预测文本生成调用请求。
步骤2002、采用上述方法中的标签识别服务接收调用请求,并采用标签识别模型预测调用请求中的待预测文本,获取预测标签。
需要说明的是,这里后台服务器还可以将待预测文本发送至下游任务,如,将待预测文本发送至其它合作发布平台,或,发送至其它共享对象的终端设备等。
步骤2003、标签识别服务将待预测文本id、预测标签等相关信息发送到数据收集平台。
步骤2004、数据收集平台会生成一些数据(如,待预测文本发布时间、发布对象(发布终端设备的使用对象)等相关信息),同时,标签识别服务还会根据标签识别模型的预测标签和相关数据计算预测分数,按预测分数计算置信度,如果置信度较低,就会把待预测文本发给标注平台,进行人工标注。
步骤2005、标签识别服务将预测标签和预测分数返回给审核服务,供下游任务使用。
第二方面,本申请实施例提供一种文本预测装置2100,如图21所示,该装置2100包括:
提取单元2101,用于提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
所述提取单元2101,用于提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
分类单元2102,用于基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
预测单元2103,用于基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
可选的,所述提取单元2101具体用于:
从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;
将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;
将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。
可选的,所述提取单元2101具体用于:
对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;
提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。
可选的,所述提取单元2101具体用于:
将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;
提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。
可选的,所述分类单元2102具体用于,
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;
将所述子类目特征与所述上下文特征拼接,获得拼接特征;
基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;
将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。
可选的,所述装置2100是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
所述提取单元2101,用于基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
所述分类单元2102,用于基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
所述预测单元2103,用于基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
所述预测单元2103,用于基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
可选的,所述训练样本中还包含所述样本文本的浏览情况;则所述预测单元2103具体用于,
基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
可选的,所述提取单元2101具体用于,
基于所述样本语义特征,采用双向编码器提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;
其中,所述双向编码器是采用预设训练样本集合训练后获得的。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备。在一种实施例中,该计算机设备可以是服务器,如图16所示的服务器1620。在该实施例中,计算机设备的结构可以如图22所示,包括存储器2201,通讯模块2203以及一个或多个处理器2202。
存储器2201,用于存储处理器2202执行的计算机程序。存储器2201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器2201可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器2201也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器2201是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器2201可以是上述存储器的组合。
处理器2202,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器2202,用于调用存储器2201中存储的计算机程序时实现上述文本预测方法。
通讯模块2203用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器2201、通讯模块2203和处理器2202之间的具体连接介质。本申请实施例在图22中以存储器2201和处理器2202之间通过总线2204连接,总线2204在图22中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线2204可以分为地址总线、数据总线、控制总线等。为便于描述,图22中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器2201中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的模型训练方法或文本预测方法。处理器2202用于执行上述的模型训练方法或文本预测方法,如图1或图3或图17或图18所示。
在另一种实施例中,计算机设备也可以是其他计算机设备,如图16所示的终端设备1610。在该实施例中,计算机设备的结构可以如图23所示,包括:通信组件2310、存储器2320、显示单元2330、摄像头2340、传感器2350、音频电路2360、蓝牙模块2370、处理器2380等部件。
通信组件2310用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,计算机设备通过WiFi模块可以帮助用户收发信息。
存储器2320可用于存储软件程序及数据。处理器2380通过运行存储在存储器2320的软件程序或数据,从而执行终端设备1610的各种功能以及数据处理。存储器2320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器2320存储有使得终端设备1610能运行的操作***。本申请中存储器2320可以存储操作***及各种应用程序,还可以存储执行本申请实施例中的模型训练方法或文本预测方法的计算机程序。
显示单元2330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备1610的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元2330可以包括设置在终端设备1610正面的显示屏2332。其中,显示屏2332可以采用液晶显示器、发光二极管等形式来配置。显示单元2330可以用于显示本申请实施例中的模型训练用户界面或文本预测用户界面等。
显示单元2330还可用于接收输入的数字或字符信息,产生与终端设备1610的用户设置以及功能控制有关的信号输入,具体地,显示单元2330可以包括设置在终端设备1610正面的触控屏2331,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏2331可以覆盖在显示屏2332之上,也可以将触控屏2331与显示屏2332集成而实现终端设备1610的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元2330可以显示应用程序以及对应的操作步骤。
摄像头2340可用于捕获静态图像,用户可以将摄像头2340拍摄的图像通过应用发布评论。摄像头2340可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器2380转换成数字图像信号。
终端设备还可以包括至少一种传感器2350,比如加速度传感器2351、距离传感器2352、指纹传感器2353、温度传感器2354。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路2360、扬声器2361、传声器2362可提供用户与终端设备1610之间的音频接口。音频电路2360可将接收到的音频数据转换后的电信号,传输到扬声器2361,由扬声器2361转换为声音信号输出。终端设备1610还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器2362将收集的声音信号转换为电信号,由音频电路2360接收后转换为音频数据,再将音频数据输出至通信组件2310以发送给比如另一终端设备1610,或者将音频数据输出至存储器2320以便进一步处理。
蓝牙模块2370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块2370与同样具备蓝牙模块的可穿戴计算机设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器2380是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器2320内的软件程序,以及调用存储在存储器2320内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器2380可包括一个或多个处理单元;处理器2380还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器2380中。本申请中处理器2380可以运行操作***、应用程序、用户界面显示及触控响应,以及本申请实施例的模型训练方法或文本预测方法。另外,处理器2380与显示单元2330耦接。
在一些可能的实施方式中,本申请提供的模型训练方法或文本预测方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的模型训练方法或文本预测方法中的步骤,例如,计算机设备可以执行如图1或图3或图17或图18所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算机设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户计算机设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备或服务器上执行。在涉及远程计算机设备的情形中,远程计算机设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机设备,或者,可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种文本预测方法,其特征在于,所述方法包括:
提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
2.如权利要求1所述的方法,其特征在于,所述提取待预测文本的综合语义特征,包括:
从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列;
将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列;
将所述词特征序列和所述句特征序列拼接,得到所述综合语义特征。
3.如权利要求2所述的方法,其特征在于,所述从所述文本内容和所述标题中选取出各关键词,获得所述各关键词的词特征序列,包括:
对所述文本内容和所述标题进行分词处理,获取所述文本内容和所述标题包含的各分词,并基于所述各分词各自的词频,选取出设定数量的关键词;
提取各关键词各自的词特征,并基于所述各关键词在所述文本内容和所述标题中的顺序,获得各词特征对应的词特征序列。
4.如权利要求2所述的方法,其特征在于,所述将所述标题作为一个关键句,从所述文本内容选取出与所述标题匹配的至少一个关键句,获得各关键句的句特征序列,包括:
将所述标题作为一个关键句,以及对所述文本内容进行分句处理,获取所述文本内容的各分句,并从所述各分句中选取出与所述标题的相似度符合预设条件的至少一个关键句;其中,各关键句的字符长度和不超过设定长度;
提取各关键句各自的句特征,并基于所述各关键句在所述文本内容和所述标题中的顺序,获得各句特征对应的句特征序列。
5.如权利要求1所述的方法,其特征在于,所述基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,包括:
基于所述上下文特征表征的所述关联关系,对所述上下文特征进行第一分类处理,获得子类目特征,所述子类目特征表征所述待预测文本归属的文件分类的子分类;
将所述子类目特征与所述上下文特征拼接,获得拼接特征;
基于所述拼接特征包含的所述关联关系和所述子分类,对所述拼接特征进行第二分类处理,获得父类目特征,所述父类目特征表征所述子分类的父分类;
将所述父类目特征和所述子类目特征拼接,获得所述目标类目特征。
6.如权利要求1-5中任一所述的方法,其特征在于,所述方法是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
7.如权利要求6所述的方法,其特征在于,所述训练样本中还包含所述样本文本的浏览情况;则所述基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,包括:
基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
8.如权利要求6所述的方法,其特征在于,所述基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征,包括:
基于所述样本语义特征,采用双向编码器提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;
其中,所述双向编码器是采用预设训练样本集合训练后获得的。
9.一种文本预测装置,其特征在于,所述装置包括:
提取模块,用于提取待预测文本的综合语义特征,所述综合语义特征包括:所述待预测文本的文本内容和标题包含的各关键词的词特征,以及所述标题和所述文本内容包含的各关键句的句特征;
所述提取单元,用于提取所述综合语义特征的上下文特征;所述上下文特征表征所述综合语义特征包含的各元素之间的关联关系,每个所述元素为所述词特征或所述句特征;
分类单元,用于基于所述上下文特征表征的所述关联关系,对所述上下文特征进行分类处理,获得目标类目特征,所述目标类目特征表征所述待预测文本归属的文件分类;
预测单元,用于基于所述上下文特征和所述目标类目特征,获得融合特征,并基于所述融合特征,获得所述待预测文本的预测标签。
10.如权利要求9中所述的装置,其特征在于,所述装置是采用标签识别模型执行的,所述标签识别模型的训练过程如下:
采用训练样本集对待训练的标签识别模型进行多轮迭代训练,每个训练样本中包括样本文本、样本类目和样本标签;其中,每轮迭代过程执行以下操作:
所述提取单元,用于基于提取的训练样本包含的样本文本的样本语义特征,提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;其中,所述多个元素包含样本词特征和样本句特征;
所述分类单元,用于基于所述多个元素之间的关联关系,对所述元素关联特征进行分类处理,获得样本类目特征,所述样本类目特征表征所述样本文本归属的文件分类;
所述预测单元,用于基于共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的目标共现特征,并将所述元素关联特征、所述目标共现特征和所述样本类目特征进行特征融合,获得样本融合特征;
所述预测单元,用于基于所述样本融合特征,获得所述样本文本的预测结果,并基于所述预测结果和所述样本标签的差异,对所述标签识别模型进行调参。
11.如权利要求9所述的装置,其特征在于,所述训练样本中还包含所述样本文本的浏览情况;则所述预测单元具体用于,
基于所述训练样本集中各训练样本各自的浏览情况,分别获取每种类目标签对在所述各训练样本中的汇总浏览情况,所述类目标签对根据在同一训练样本中出现的样本类目和样本标签确定的;
根据各类目标签对各自的汇总浏览情况,得到所述各类目标签对各自的共现权重;
基于所述共现记录中记录的类目和标签在同一文本出现的情况,获得所述样本类目和所述样本标签的中间共现特征;
基于所述中间共现特征和所述共现权重,得到所述目标共现特征。
12.如权利要求9所述的装置,其特征在于,所述提取单元具体用于,
基于所述样本语义特征,采用双向编码器提取出所述样本语义特征包含的多个元素之间的关联关系,获得元素关联特征;
其中,所述双向编码器是采用预设训练样本集合训练后获得的。
13.一种计算机可读非易失性存储介质,其特征在于,所述计算机可读非易失性存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至8中任一项权利要求所述的方法。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至8任一项权利要求所述的方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述计算机设备执行如权利要求1至8任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310361574.0A CN116975199A (zh) | 2023-03-30 | 2023-03-30 | 一种文本预测方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310361574.0A CN116975199A (zh) | 2023-03-30 | 2023-03-30 | 一种文本预测方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975199A true CN116975199A (zh) | 2023-10-31 |
Family
ID=88471978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310361574.0A Pending CN116975199A (zh) | 2023-03-30 | 2023-03-30 | 一种文本预测方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975199A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540282A (zh) * | 2024-01-10 | 2024-02-09 | 青岛科技大学 | 一种变温环境下水产品货架期高精度预测方法 |
CN117744635A (zh) * | 2024-02-12 | 2024-03-22 | 长春职业技术学院 | 基于智能ai的英文文本自动校对***及方法 |
-
2023
- 2023-03-30 CN CN202310361574.0A patent/CN116975199A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540282A (zh) * | 2024-01-10 | 2024-02-09 | 青岛科技大学 | 一种变温环境下水产品货架期高精度预测方法 |
CN117540282B (zh) * | 2024-01-10 | 2024-03-22 | 青岛科技大学 | 一种变温环境下水产品货架期高精度预测方法 |
CN117744635A (zh) * | 2024-02-12 | 2024-03-22 | 长春职业技术学院 | 基于智能ai的英文文本自动校对***及方法 |
CN117744635B (zh) * | 2024-02-12 | 2024-04-30 | 长春职业技术学院 | 基于智能ai的英文文本自动校对***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
Gao et al. | Convolutional neural network based sentiment analysis using Adaboost combination | |
Nassiri et al. | Transformer models used for text-based question answering systems | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN110377913B (zh) | 一种情感分析方法及其装置、电子设备和存储介质 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN116975199A (zh) | 一种文本预测方法、装置、设备和存储介质 | |
Arumugam et al. | Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications | |
Mehta et al. | Sentiment analysis of tweets using supervised learning algorithms | |
Mittal et al. | Deep graph-long short-term memory: a deep learning based approach for text classification | |
CN114707513A (zh) | 一种文本语义识别方法、装置、电子设备和存储介质 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
Zulqarnain et al. | An efficient two-state GRU based on feature attention mechanism for sentiment analysis | |
Aziguli et al. | A robust text classifier based on denoising deep neural network in the analysis of big data | |
Meddeb et al. | Arabic text documents recommendation using joint deep representations learning | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
Feng et al. | Ontology semantic integration based on convolutional neural network | |
Lin et al. | Multi-channel word embeddings for sentiment analysis | |
Suresh Kumar et al. | Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
Tsirmpas et al. | Neural Natural Language Processing for long texts: A survey of the state-of-the-art |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |