CN108549626A - 一种慕课的关键词提取方法 - Google Patents
一种慕课的关键词提取方法 Download PDFInfo
- Publication number
- CN108549626A CN108549626A CN201810177736.4A CN201810177736A CN108549626A CN 108549626 A CN108549626 A CN 108549626A CN 201810177736 A CN201810177736 A CN 201810177736A CN 108549626 A CN108549626 A CN 108549626A
- Authority
- CN
- China
- Prior art keywords
- word
- index
- weight
- text
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种慕课的关键词提取方法,该方法包括:先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。采用本发明实施例,能提高关键词提取的精确性,满足慕课个性化学习的需求。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种慕课的关键词提取方法。
背景技术
随着移动互联网的发展,在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是Massive Open Online Course(大规模在线开放课程),简称MOOC。实际上是在线教育的新发展,是一种新型的在线开放教育形式,其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比,它的一个显著特点是更加关注学生的“学”,学生在很大程度上可以通过MOOC实现自主个性化学习。
现有的慕课主要采用“讲授型”教学方式,主要以视频形式讲授教学内容,辅之以测验、课后练习专题研讨,占课程资源比重达99.01%。由此可见,对慕课视频进行自动关键词提取,以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面,即不需要标注训练语料集,主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。
而基于词图模型关键词抽取的方法,不需要事先对文档集进行学习训练,仅利用单篇文档本身的信息即可进行关键词抽取,简单而有效,应用广泛,以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时,仅利用单一文档进行关键词抽取且节点均匀加权的无权边图,而慕课语音文本具有独特的领域特征,除了要求抽取的关键词具有较高的准确率,还应该有较高的领域相关度,即该领域的核心术语。因此,亟需一种从词语性和领域性两个角度出发的关键词抽取方法。
发明内容
本发明实施例提出一种慕课的关键词提取方法,考虑了慕课语音文本的词语性和领域性,提高关键词提取的精确性,满足慕课个性化学习的需求。
本发明实施例提供慕课的关键词提取方法,包括:
获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;
对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;
根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;
根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;
根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。
进一步的,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;
所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;
根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
进一步的,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
进一步的,所述计算所述文本中所述每个词语的第一综合权重,具体为:
通过以下公式计算每个词语w的第一综合权重:
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
和分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
进一步的,所述根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重,具体为:
设G(V,E)为所述文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
其中,d为阻尼系数,In(vi)表示指向节点Vi的所有节点集合;Out(vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重;
根据所述图模型的权重迭代公式和所述第一综合权重,按照以下公式计算第二综合权重;
进一步的,所述的慕课的关键词提取方法还包括:按照以下公式,计算所述每个词语在预设文档集中的平均信息熵;
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。
进一步的,在所述计算所述每个词语在预设文档集中的平均信息熵之后,还包括:
过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩余的关键词,其中2≤X≤10。
进一步的,在所述将所述视频文件的语音转换为文本之后,还包括:
对所述文本进行预处理,校正所述文本的错别字。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的慕课的关键词提取方法,先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。相比于现有技术的节点均匀加权的无权边图,本发明技术方案针对慕课语音文本的非规范性,从词语性的角度进行关键词提取,提高了关键词提取的精确性。
进一步的,本发明技术方案通过平均信息熵衡量词语的领域性,并通过平均信息熵来过滤掉得出的X个关键词,从词语性和领域性两个角度进行关键词提取,进一步提高了关键词提取的精确性,满足慕课个性化学习的需求。
附图说明
图1是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图;
图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图;
图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图,该方法步骤101至步骤105,各步骤具体如下:
步骤101:获取待提取慕课的视频文件,将视频文件的语音转换为文本。
在本实施例中,通过语音分析***将语音转换为文本,该内容为现有技术,在此不在赘述。
作为本实施例的一种举例,在步骤101之后,还包括:对文本进行预处理,校正文本的错别字,以提高关键词提取的准确率。
步骤102:对文本进行中文分词,识别每个词语的词性和语义特征,为每个词语添加词性标注和语义特征标注。
在本实施例中,本发明针对词语性的角度,以词语位置、词性和语义特征三个属性来衡量,设置相应的评价指标。评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标。
在本实施例中,慕课语音文本属于非规范文本,结合其文本特点,关键词位置分为篇首、篇尾等两种情况,根据词语所在位置的不同,需要赋予不同的权重。而对于词性,关键词的词性集中于名词、动词和形容词上,根据其词性特征,需要赋予不同的权重。对于语义特征,慕课类语音文本有明显的领域特征词,根据修辞结构理论和关键词出现的规律,慕课中领域特征词分为总结性特征词和并列性特征词。关键词经常出现在这两类特征词的后面,因此根据领域标志性词语的不同,分别赋予其邻近词语不同的权重。详细可参见图2,图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图。图2中N的数值可根据实际需求设置。
步骤103:根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重。
在本实施例中,预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置。即根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
在本实施例中,序关系为:若评价指标Qi相对于评价目标的重要程度大于Qj时,记作Qi>Qj。若指标Q1,Q2,…Qm相对某评价准则具有关系式:时,则评价指标Q1,Q2,…Qm之间建立了序关系。其中,表示按序关系“>”进行排序后的第i个评价指标(i=1,2,…,m)。
而在本实施例中,根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
在本实施例中,参见表1,表1是rk赋值参考表,如下表所示,可根据实际情况进行赋值。
rk | 说明 |
1.0 | 指标Qk-1与Qk具有同样的重要性 |
1.2 | 指标Qk-1与Qk具有稍微重要 |
1.4 | 指标Qk-1与Qk具有明显重要 |
1.6 | 指标Qk-1与Qk具有强烈重要 |
1.8 | 指标Qk-1与Qk具有极端重要 |
1.1,1.3,1.5,1.7 | 对应两两相邻指标判断中间情况 |
表1rk赋值参考表
在本实施例中,通过计算各级指标的权重系数后,可结合文本得出各级指标的权重值,再通过以下公式计算每个词语w的第一综合权重:
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
和分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
为了更好地说明本发明技术方案,下面进行举例说明,如果r2取值1.6,r3取值1.2,则根据计算可得出以下权重表,再根据表中的数据计算每个词语的第一综合权重。
表2指标权重表
在本实施例中,除了上述8个重要指标外,其他词语节点权重可以但不限于设置为0.0001。
步骤104:根据TextRank算法,构建所述文本的图模型,并根据图模型和每个词语的第一综合权重,计算每个词语的第二综合权重。
在本实施例中,步骤104具体为:设G(V,E)为文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
其中,d为阻尼系数,In(vi)表示指向节点Vi的所有节点集合;Out(vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重。阻尼系数d在PageRank中的原始意义表示在任意时刻,用户到达某网页后并继续向后浏览的概率值,一般取值为0.85。
根据图模型的权重迭代公式和第一综合权重,按照以下公式计算第二综合权重;
由上述计算公式可见,本发明将计算得出的第一综合权重结合到图模型的权重迭代公式中,从而克服了现有TextRank模型因未探讨词语的重要性程度不同而影响相邻节点权值转移的问题,提高关键词提取的精确性。
步骤105:根据每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。
在本实施例中,根据最后计算得出的第二综合权重,按照权重大小,迭代输出X个关键词。X可以根据实际情况进行取值。
作为本发明实施例的一种举例,参见图3,图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。如图所示,该方法还包括:计算每个词语在预设文档集中的平均信息熵,过滤掉X个关键词中平均信息熵大于预设阈值的关键词,并输出剩余的关键词。其中2≤X≤10。
在本举例中,按照以下公式,计算每个词语在预设文档集中的平均信息熵;
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。如果词语在各类别文档中出现的频率相当,则其H(w)值接近最大值1,表示该词语对其所在文档主题的表现力较弱。反之,如果H(w)值接近最小值0,则表明该词语对其所在文档主题表现力较强。
在本举例中,通过平均信息熵来衡量词语领域性,平均信息熵接近于1,说明没有领域区分度,而接近于0的说明有很好的领域区分度。本举例的预设阈值可以但不限于为0.3,以此过滤掉平均信息熵上大于0.3的词语,再输出剩余的关键词,或者,根据用户需要输出若干个关键词。譬如,在步骤105中输出前50个关键词,通过本举例的过滤后,输出前10个关键词,提高提取关键词的精确性。
由上可见,本发明实施例提供的慕课的关键词提取方法,先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。相比于现有技术的节点均匀加权的无权边图,本发明技术方案针对慕课语音文本的非规范性,从词语性的角度进行关键词提取,提高了关键词提取的精确性。
进一步的,本发明技术方案通过平均信息熵衡量词语的领域性,并通过平均信息熵来过滤掉得出的X个关键词,从词语性和领域性两个角度进行关键词提取,进一步提高了关键词提取的精确性,满足慕课个性化学习的需求。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种慕课的关键词提取方法,其特征在于,包括:
获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;
对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;
根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;
根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;
根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。
2.根据权利要求1所述的慕课的关键词提取方法,其特征在于,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;
所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;
根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
3.根据权利要求2所述的慕课的关键词提取方法,其特征在于,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
4.根据权利要求3所述的慕课的关键词提取方法,其特征在于,所述计算所述文本中所述每个词语的第一综合权重,具体为:
通过以下公式计算每个词语w的第一综合权重:
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
和分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
5.根据权利要求4所述的慕课的关键词提取方法,其特征在于,所述根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重,具体为:
设G(V,E)为所述文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
其中,d为阻尼系数,In(vi)表示指向节点Vi的所有节点集合;Out(vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重;
根据所述图模型的权重迭代公式和所述第一综合权重,按照以下公式计算第二综合权重;
6.根据权利要求1至5任一项所述的慕课的关键词提取方法,其特征在于,还包括:按照以下公式,计算所述每个词语在预设文档集中的平均信息熵;
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。
7.根据权利要求6所述的慕课的关键词提取方法,其特征在于,在所述计算所述每个词语在预设文档集中的平均信息熵之后,还包括:
过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩余的关键词,其中2≤X≤10。
8.根据权利要求6所述的慕课的关键词提取方法,其特征在于,在所述将所述视频文件的语音转换为文本之后,还包括:
对所述文本进行预处理,校正所述文本的错别字。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810177736.4A CN108549626B (zh) | 2018-03-02 | 2018-03-02 | 一种慕课的关键词提取方法 |
PCT/CN2018/081843 WO2019165678A1 (zh) | 2018-03-02 | 2018-04-04 | 一种慕课的关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810177736.4A CN108549626B (zh) | 2018-03-02 | 2018-03-02 | 一种慕课的关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549626A true CN108549626A (zh) | 2018-09-18 |
CN108549626B CN108549626B (zh) | 2020-11-20 |
Family
ID=63516467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810177736.4A Active CN108549626B (zh) | 2018-03-02 | 2018-03-02 | 一种慕课的关键词提取方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108549626B (zh) |
WO (1) | WO2019165678A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492078A (zh) * | 2018-09-30 | 2019-03-19 | 普强信息技术(北京)有限公司 | 一种基于动态停词的原因挖掘方法 |
CN109670176A (zh) * | 2018-12-19 | 2019-04-23 | 武汉瓯越网视有限公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN109902290A (zh) * | 2019-01-23 | 2019-06-18 | 广州杰赛科技股份有限公司 | 一种基于文本信息的术语提取方法、***和设备 |
CN110083835A (zh) * | 2019-04-24 | 2019-08-02 | 北京邮电大学 | 一种基于图和词句协同的关键词提取方法及装置 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110210026A (zh) * | 2019-05-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110909175A (zh) * | 2019-11-20 | 2020-03-24 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN111818278A (zh) * | 2020-07-17 | 2020-10-23 | 济南浪潮高新科技投资发展有限公司 | 一种教学视频采集与检索***及方法 |
CN112200898A (zh) * | 2020-10-27 | 2021-01-08 | 平潭诚信智创科技有限公司 | 教育机器人的课程展示方法 |
CN113345053A (zh) * | 2021-06-30 | 2021-09-03 | 北京华录新媒信息技术有限公司 | 一种智能配色方法及*** |
CN113641801A (zh) * | 2021-10-19 | 2021-11-12 | 成都中航信虹科技股份有限公司 | 一种语音调度***的控制方法、***及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058393B1 (en) * | 2010-02-19 | 2015-06-16 | Go Daddy Operating Company, LLC | Tools for appraising a domain name using keyword monetary value data |
US20160188712A1 (en) * | 2014-08-14 | 2016-06-30 | Under Armour, Inc. | Recipe identification method and apparatus |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN106598941A (zh) * | 2016-11-01 | 2017-04-26 | 四川用联信息技术有限公司 | 一种全局优化文本关键词质量的算法 |
CN106681986A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种多维度情感分析*** |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及*** |
CN107526792A (zh) * | 2017-08-15 | 2017-12-29 | 南通大学附属医院 | 一种中文问句关键词快速提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102985A (zh) * | 2017-04-23 | 2017-08-29 | 四川用联信息技术有限公司 | 改进的文档中多主题的关键词提取技术 |
-
2018
- 2018-03-02 CN CN201810177736.4A patent/CN108549626B/zh active Active
- 2018-04-04 WO PCT/CN2018/081843 patent/WO2019165678A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058393B1 (en) * | 2010-02-19 | 2015-06-16 | Go Daddy Operating Company, LLC | Tools for appraising a domain name using keyword monetary value data |
US20160188712A1 (en) * | 2014-08-14 | 2016-06-30 | Under Armour, Inc. | Recipe identification method and apparatus |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN105740229A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 关键词提取的方法及装置 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN106598941A (zh) * | 2016-11-01 | 2017-04-26 | 四川用联信息技术有限公司 | 一种全局优化文本关键词质量的算法 |
CN106681986A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种多维度情感分析*** |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及*** |
CN107526792A (zh) * | 2017-08-15 | 2017-12-29 | 南通大学附属医院 | 一种中文问句关键词快速提取方法 |
Non-Patent Citations (1)
Title |
---|
高永兵 等: ""官方微博关键词提取与摘要技术研究"", 《内蒙古科技大学学报》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492078A (zh) * | 2018-09-30 | 2019-03-19 | 普强信息技术(北京)有限公司 | 一种基于动态停词的原因挖掘方法 |
CN109670176A (zh) * | 2018-12-19 | 2019-04-23 | 武汉瓯越网视有限公司 | 一种关键词抽取方法、装置、电子设备及存储介质 |
CN109902290A (zh) * | 2019-01-23 | 2019-06-18 | 广州杰赛科技股份有限公司 | 一种基于文本信息的术语提取方法、***和设备 |
CN109902290B (zh) * | 2019-01-23 | 2023-06-30 | 广州杰赛科技股份有限公司 | 一种基于文本信息的术语提取方法、***和设备 |
CN110442855B (zh) * | 2019-04-10 | 2023-11-07 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110442855A (zh) * | 2019-04-10 | 2019-11-12 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和*** |
CN110083835A (zh) * | 2019-04-24 | 2019-08-02 | 北京邮电大学 | 一种基于图和词句协同的关键词提取方法及装置 |
CN110147425B (zh) * | 2019-05-22 | 2021-04-06 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110210026B (zh) * | 2019-05-29 | 2023-05-26 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN110210026A (zh) * | 2019-05-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110619035B (zh) * | 2019-08-01 | 2023-07-25 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110909175B (zh) * | 2019-11-20 | 2021-06-29 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN110909175A (zh) * | 2019-11-20 | 2020-03-24 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN111818278A (zh) * | 2020-07-17 | 2020-10-23 | 济南浪潮高新科技投资发展有限公司 | 一种教学视频采集与检索***及方法 |
CN112200898A (zh) * | 2020-10-27 | 2021-01-08 | 平潭诚信智创科技有限公司 | 教育机器人的课程展示方法 |
CN113345053A (zh) * | 2021-06-30 | 2021-09-03 | 北京华录新媒信息技术有限公司 | 一种智能配色方法及*** |
CN113345053B (zh) * | 2021-06-30 | 2023-12-26 | 北京华录新媒信息技术有限公司 | 一种智能配色方法及*** |
CN113641801A (zh) * | 2021-10-19 | 2021-11-12 | 成都中航信虹科技股份有限公司 | 一种语音调度***的控制方法、***及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019165678A1 (zh) | 2019-09-06 |
CN108549626B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549626A (zh) | 一种慕课的关键词提取方法 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN108509425B (zh) | 一种基于新颖度的中文新词发现方法 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和*** | |
CN101685455B (zh) | 数据检索的方法和*** | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
CN107832439B (zh) | 多轮状态追踪的方法、***及终端设备 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
CN108052630B (zh) | 一种基于中文教育视频提取拓展词的方法 | |
CN108073565A (zh) | 词语规范化的方法和设备及机器翻译方法和设备 | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、***及电子设备 | |
CN111625622B (zh) | 领域本体构建方法、装置、电子设备及存储介质 | |
CN103605781A (zh) | 一种隐式篇章关系类型推理方法及*** | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN110909175B (zh) | 一种基于搜索引擎的在线课程概念知识图谱构建方法 | |
CN110728136A (zh) | 一种融合多因素的textrank关键词提取算法 | |
CN103729421A (zh) | 一种译员文档精确匹配的方法 | |
CN111460158A (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN114048327A (zh) | 一种基于知识图谱的主观题自动评分方法及*** | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |