CN109543176A - 一种基于图向量表征的丰富短文本语义方法及装置 - Google Patents
一种基于图向量表征的丰富短文本语义方法及装置 Download PDFInfo
- Publication number
- CN109543176A CN109543176A CN201811210135.5A CN201811210135A CN109543176A CN 109543176 A CN109543176 A CN 109543176A CN 201811210135 A CN201811210135 A CN 201811210135A CN 109543176 A CN109543176 A CN 109543176A
- Authority
- CN
- China
- Prior art keywords
- word
- node
- vector
- characterization
- cur
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013508 migration Methods 0.000 claims abstract description 18
- 230000005012 migration Effects 0.000 claims abstract description 18
- 238000005295 random walk Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于图向量表征的丰富短文本语义方法及装置,该装置用于实现该方法,该方法包括对短文本语料数据进行分词和去停用词的处理;对处理后语料数据进行相邻词的两两相连构成词图;将词图随机游走,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;输出所有节点对应的向量表征。本发明通过将短文本中相邻词连边构建成链,不同短文本构成的链之间用关键词相连的方式构建成图,对构建成的词图使用图向量表征算法得到每个节点的向量表征,以便于应用于机器学习模型中。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于图向量表征的丰富短文本语义方法及装置。
背景技术
短文本是信息快速传递的载体,例如微博、评论、搜索、新闻推荐等等,这些都在人们日常生活中发挥着重要的作用。利用这些数据可以提取很多有价值的信息,例如,微博短文本可以用来做网络舆情分析和热点话题发现,用户评论短文本可以优化推荐算法和营销策略,检索短文本可以对用户进行画像分析,如分析用户的年龄、性别、学历等,从而为用户提供更优质、更个性化的服务。文本分类方法是提取短文本潜在信息,挖掘其隐含价值的一种重要手段。但是,传统文本分类方法的准确率需要丰富的语料信息和语义信息来保证,而这些恰恰是短文本所缺失的。因此,传统的文本分类方法不能有效的抓取短文本的信息。
目前,主要有两种方法丰富短文本的语义信息:一种方法是借助外部语料库去扩展丰富文本的语义信息,另一种方法是使用多个短文本组合成一个伪长文本。这两种方式可能会导致信息杂乱,引入外部噪声,对文本信息的挖掘造成干扰。
发明内容
本发明的主要目的是提出一种基于图向量表征的丰富短文本语义方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于图向量表征的丰富短文本语义方法,包括如下步骤:
S10输入短文本语料数据,对其进行分词和去停用词的处理;
S20在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
S30将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
S40输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
S50输出所有节点对应的向量表征。
优选地,所述向量化表征模型包括输入层、向量表征层、投影层和输出
层,其中:
输入层输入S30所获取的所有节点序列,其中所有节点序列由当前词节点Cur的前后N个相邻的词节点组成,表示为Context(Cur)i,i=1,2,...,2n;
向量表征层中的向量对应输入层中词节点向量,词节点向量满足:
其中d表示向量维度,是一个可以
自定义的参数;
投影层将当前词节点Cur的前后N个相邻词节点的向量表征累加而得,写为公式:
输出层将当前短文本节点Cur当做模型训练的标签,根据游走得到的序列的集合来构建哈夫曼树,学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程,使用最大似然函数来定义目标函数,写为公式:
将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步,到达Cur节点的路径编码为r2r3...rk+1,则p(Cur|Context(Cur))可以写成如下形式:
将目标函数进一步推导:
通常使用Sigmoid函数评估分为正类的概率:
结合这里的向量表征,使用二分类的概率来表示在哈夫曼树上寻找目标节点的路径过程:
可以将其整合到一个公式:
进一步可将目标函数写为:
由上得到一个较为清晰的将词节点向量化的目标函数,再通过反向传播算法训练模型即可得到词节点对应的向量表征。
本发明还公开了一种基于图向量表征的丰富短文本语义装置,用于实现上述方法,包括:
输入模块,用于输入短文本语料数据,对其进行分词和去停用词的处理;
生成模块,用于在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
游走模块,用于将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
向量表征模块,用于输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
输出模块,用于输出所有节点对应的向量表征。
本发明通过将短文本中相邻词连边构建成链,不同短文本构成的链之间用关键词相连的方式构建成图,对构建成的词图使用图向量表征算法得到每个节点的向量表征,以便于应用于机器学习模型中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明基于图向量表征的丰富短文本语义方法一实施例的方法流程图;
图2为本发明基于图向量表征的丰富短文本语义装置一实施例的功能模块图;
图3为所述S10中分词样例图;
图4为所述词图的部分样例图;
图5为所述词图游走结果样例图;
图6为所述向量化表征模型的样例图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出的一种基于图向量表征的丰富短文本语义方法,包括如下步骤:
S10输入短文本语料数据,对其进行分词和去停用词的处理;
S20在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
S30将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
S40输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
S50输出所有节点对应的向量表征。
优选地,所述向量化表征模型包括输入层、向量表征层、投影层和输出
层,其中:
输入层输入S30所获取的所有节点序列,其中所有节点序列由当前词节点Cur的前后N个相邻的词节点组成,表示为Context(Cur)i,i=1,2,...,2n;
向量表征层中的向量对应输入层中词节点向量,词节点向量满足:
其中d表示向量维度,是一个可以
自定义的参数;
投影层将当前词节点Cur的前后N个相邻词节点的向量表征累加而得,写为公式:
输出层将当前短文本节点Cur当做模型训练的标签,根据游走得到的序列的集合来构建哈夫曼树,学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程,使用最大似然函数来定义目标函数,写为公式:
将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步,到达Cur节点的路径编码为r2r3...rk+1,则p(Cur|Context(Cur))可以写成如下形式:
将目标函数进一步推导:
通常使用Sigmoid函数评估分为正类的概率:
结合这里的向量表征,使用二分类的概率来表示在哈夫曼树上寻找目标节点的路径过程:
可以将其整合到一个公式:
进一步可将目标函数写为:
由上得到一个较为清晰的将词节点向量化的目标函数,再通过反向传播算法训练模型即可得到词节点对应的向量表征。
本发明还公开了一种基于图向量表征的丰富短文本语义装置,用于实现上述方法,由于本装置采用了上述方法所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。本装置包括:
输入模块10,用于输入短文本语料数据,对其进行分词和去停用词的处理;
生成模块20,用于在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
游走模块30,用于将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
向量表征模块40,用于输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
输出模块50,用于输出所有节点对应的向量表征。
本发明通过将短文本中相邻词连边构建成链,不同短文本构成的链之间用关键词相连的方式构建成图,对构建成的词图使用图向量表征算法得到每个节点的向量表征,以便于应用于机器学习模型中。本发明的主要流程包括:数据预处理、词图构建、随机游走和向量化表征。
本发明实操实例如下:
S10对于输入的短文本语料数据,进行分词和去停用词处理,见图3,分词样例图;
S20将这些数据分词后,把相邻的词两两相连,这样每个短文本都被转化成了一条链,而文本之间可以通过关键词相连,最后构成一张图,见图4,词图的部分样例图;
S30对词图进行随机游走,遍历节点,从每个节点出发,随机选取与其相连的一个词作为下一节点,重复随机选取的动作,达到指定的游走长度后停止游走,见图5,部分词图的游走结果样例图;
S40对得到的序列进行向量化表征,向量化表征的模型结构如图6所示,分为输入层、向量表征层、投影层和输出层。
第一层输入层中的输入,是S3得到的序列,由当前词节点Cur的前后N个相邻的词节点组成的,可以表示为Context(CLlr)i,i=1,2,…,2n
第二层向量表征层,实质上也是模型最终要学习成的表征向量。这一层中的向量对应的是输入层中的词节点向量。词节点向量满足
其中d表示向量维度,是一个可以自定义的参数。
第三层映射层,将当前词节点Cur的前后N个相邻词节点的向量表征累加而得,写为公式:
第四层输出层,将当前短文本节点Cur当做模型训练的标签,为了减少计算复杂度,加快训练速度,在最后一层使用了哈夫曼树的技巧。首先根据游走得到的序列的集合来构建哈夫曼树,词节点出现次数越多,节点的权重就越大。构建好哈夫曼树之后,就可以把学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程。由于哈夫曼树本身是一个二叉树,那么在哈夫曼树中每往深处查找一次过程,实质上就是一个二分类的过程,找到Cur节点如果需要k次,那么就是进行了k次的二分类。使用最大似然函数来定义目标函数,写为公式:
将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步,到达Cur节点的路径编码为r2r3…rk+1,则p(Cur|Context(Cur))可以写成如下形式:
将目标函数进一步推导:
通常使用Sigmoid函数评估分为正类的概率:
结合这里的向量表征,使用二分类的概率来表示在哈夫曼树上寻找目标节点的路径过程:
可以将其整合到一个公式:
进一步可将目标函数写为:
至此,得到了一个较为清晰的将词节点向量化的目标函数,只要通过反向传播算法训练模型即可得到词节点对应的向量表征。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (3)
1.一种基于图向量表征的丰富短文本语义方法,其特征在于,包括如下步骤:
S10输入短文本语料数据,对其进行分词和去停用词的处理;
S20在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
S30将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
S40输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
S50输出所有节点对应的向量表征。
2.如权利要求1所述的基于图向量表征的丰富短文本语义方法,其特征在于,所述向量化表征模型包括输入层、向量表征层、投影层和输出层,其中:
输入层输入S30所获取的所有节点序列,其中所有节点序列由当前词节点Cur的前后N个相邻的词节点组成,表示为Context(Cur)i,i=1,2,...,2n;
向量表征层中的向量对应输入层中词节点向量,词节点向量满足:
其中d表示向量维度,是一个可以自定义的参数;
投影层将当前词节点Cur的前后N个相邻词节点的向量表征累加而得,写为公式:
输出层将当前短文本节点Cur当做模型训练的标签,根据游走得到的序列的集合来构建哈夫曼树,学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程,使用最大似然函数来定义目标函数,写为公式:
将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步,到达Cur节点的路径编码为r2r3...rk+1,则p(Cur|Context(Cur))可以写成如下形式:
将目标函数进一步推导:
通常使用Sigmoid函数评估分为正类的概率:
结合这里的向量表征,使用二分类的概率来表示在哈夫曼树上寻找目标节点的路径过程:
可以将其整合到一个公式:
进一步可将目标函数写为:
由上得到一个较为清晰的将词节点向量化的目标函数,再通过反向传播算法训练模型即可得到词节点对应的向量表征。
3.一种基于图向量表征的丰富短文本语义装置,其特征在于,包括:
输入模块,用于输入短文本语料数据,对其进行分词和去停用词的处理;
生成模块,用于在处理后的语料数据中将相邻的词两两相连,通过将每个短文本转化为文本链,数个短文本之间通过相同的词相连,由此构成词图;
游走模块,用于将词图随机游走,上节点选取与其相连的一个词作为下一节点,由上节点到下节点依次产生序列,待词图的文本链达到指定的文本链长度后停止游走,获取所有节点序列;
向量表征模块,用于输入所获取的节点序列至向量化表征模型,对所有节点进行向量化表征;
输出模块,用于输出所有节点对应的向量表征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210135.5A CN109543176B (zh) | 2018-10-17 | 2018-10-17 | 一种基于图向量表征的丰富短文本语义方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210135.5A CN109543176B (zh) | 2018-10-17 | 2018-10-17 | 一种基于图向量表征的丰富短文本语义方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543176A true CN109543176A (zh) | 2019-03-29 |
CN109543176B CN109543176B (zh) | 2023-01-20 |
Family
ID=65844097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811210135.5A Active CN109543176B (zh) | 2018-10-17 | 2018-10-17 | 一种基于图向量表征的丰富短文本语义方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543176B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019653A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和*** |
CN110209825A (zh) * | 2019-06-17 | 2019-09-06 | 大连海事大学 | 一种基于宽度学习***的快速网络表征学习算法 |
CN110489563A (zh) * | 2019-07-22 | 2019-11-22 | 北京百度网讯科技有限公司 | 图结构的表示方法、装置、设备及计算机可读存储介质 |
CN111241095A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
CN111859941A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886062A (zh) * | 2014-03-18 | 2014-06-25 | 浙江大学 | 一种基于语义网络的文本短语权重计算方法 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及*** |
-
2018
- 2018-10-17 CN CN201811210135.5A patent/CN109543176B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886062A (zh) * | 2014-03-18 | 2014-06-25 | 浙江大学 | 一种基于语义网络的文本短语权重计算方法 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及*** |
Non-Patent Citations (1)
Title |
---|
蔡圆媛等: "基于低维语义向量模型的语义相似度度量", 《中国科学技术大学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019653A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和*** |
CN110019653B (zh) * | 2019-04-08 | 2021-07-02 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和*** |
CN111859941A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及*** |
CN111859941B (zh) * | 2019-04-30 | 2023-05-05 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及*** |
CN110209825A (zh) * | 2019-06-17 | 2019-09-06 | 大连海事大学 | 一种基于宽度学习***的快速网络表征学习算法 |
CN110489563A (zh) * | 2019-07-22 | 2019-11-22 | 北京百度网讯科技有限公司 | 图结构的表示方法、装置、设备及计算机可读存储介质 |
CN110489563B (zh) * | 2019-07-22 | 2022-08-23 | 北京百度网讯科技有限公司 | 图结构的表示方法、装置、设备及计算机可读存储介质 |
CN111241095A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
CN111241095B (zh) * | 2020-01-03 | 2023-06-23 | 北京百度网讯科技有限公司 | 用于生成节点的向量表示的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109543176B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN108021616B (zh) | 一种基于循环神经网络的社区问答专家推荐方法 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
KR102414491B1 (ko) | 컴퓨터 학습 및 이해를 위한 아키텍처 및 프로세스들 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及*** | |
WO2021139229A1 (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
CN107944027A (zh) | 创建语义键索引的方法及*** | |
CN108846063A (zh) | 确定问题答案的方法、装置、设备和计算机可读介质 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN108509409A (zh) | 一种自动生成语义相近句子样本的方法 | |
CN108628935A (zh) | 一种基于端到端记忆网络的问答方法 | |
CN107832295B (zh) | 阅读机器人的标题选择方法及*** | |
CN112328800A (zh) | 自动生成编程规范问题答案的***及方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
Sifa et al. | Towards contradiction detection in german: a translation-driven approach | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113032541A (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
CN110516145A (zh) | 一种基于句向量编码的信息搜索方法 | |
CN106777080A (zh) | 短摘要生成方法、数据库建立方法及人机对话方法 | |
CN113704434A (zh) | 知识库问答方法、电子设备及可读存储介质 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |