CN112597340A - 一种对垂直领域短视频asr文本关键词的抽取方法、计算机设备及可读存储介质 - Google Patents

一种对垂直领域短视频asr文本关键词的抽取方法、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112597340A
CN112597340A CN202011537896.9A CN202011537896A CN112597340A CN 112597340 A CN112597340 A CN 112597340A CN 202011537896 A CN202011537896 A CN 202011537896A CN 112597340 A CN112597340 A CN 112597340A
Authority
CN
China
Prior art keywords
keywords
text
extracting
asr
asr text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011537896.9A
Other languages
English (en)
Other versions
CN112597340B (zh
Inventor
王磊
黄颖骅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Zhiyi Technology Co.,Ltd.
Original Assignee
Hangzhou Aigeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Aigeng Technology Co ltd filed Critical Hangzhou Aigeng Technology Co ltd
Priority to CN202011537896.9A priority Critical patent/CN112597340B/zh
Publication of CN112597340A publication Critical patent/CN112597340A/zh
Application granted granted Critical
Publication of CN112597340B publication Critical patent/CN112597340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质,本发明能够对短视频口语化文本进行纠错,在短视频口语化文本上定义关键词类型,结合领域词表,专家***的特殊类型关键词抽取模型和基于深度学习的关键词抽取模型共同抽取关键词,并对最终结果做后处理进行筛选。本发明的提取方法不仅优化了口语化文本自身的准确性,提高关键词抽取的召回率,而且丰富了关键词的抽取类型,并结合后处理做到了关键词抽取的可控性。

Description

一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设 备及可读存储介质
技术领域
本发明具体涉及一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质。
背景技术
针对特定领域关键词抽取的问题,目前主要有以下几种方法:
(1)基于领域词表,通过文本硬匹配方式进行相关领域关键词抽取。
(2)基于无监督方式的抽取方式,例如TF-IDF,TextRank等。
现有技术中,对特定领域关键词的抽取方法存在以下缺点:
(1)基于领域词表的抽取方式,需要耗费大量人力整理相关特定领域词表,且针对部分领域还需专业人员参与,成本很大。同时该方式抽取关键词召回偏低,换一个领域该词表就不适用。
(2)基于无监督方式的抽取方案,该类方法根据统计信息,如词频来计算得到文档中词语的权重,按权重值排序提取关键词。此类方法简单易行,但未考虑该词在整个文本中的语意。
(3)由于ASR(语音识别Automatic Speech Recognition)文本天然存在不通顺、错字、口语化严重等问题,关键词抽取结果精度偏低。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质。
为了实现上述目的,本发明提供以下技术方案:
一种对垂直领域短视频ASR文本关键词的抽取方法,包括以下步骤:
(1)对待处理短视频进行处理获取ASR文本;
(2)对步骤(1)得到的ASR文本进行文本纠错,获得纠错后的ASR文本;
(3)基于领域关键词表,对步骤(2)得到的ASR文本抽取专有名词;
(4)基于专家***的特殊类型关键词抽取模型,对步骤(2)得到的ASR文本抽取特殊类型的关键词;
(5)基于关键词抽取模型,对步骤(2)得到的ASR文本抽取相应的关键词;
(6)对步骤(3)-(5)获取的关键词做合并去重、重要度排序后处理,得到最终的抽取结果。
进一步地,数据集建立与模型训练包括以下步骤:
(1.1)搜集垂直领域的相关短视频素材,调用语音转文本模块得到原始ASR文本;
(1.2)调用文本纠错模块对原始ASR文本进行纠错处理,得到待标注ASR文本;
(1.3)根据垂直领域专家的意见,总结待抽取关键词类型,对每一段ASR文本进行标注,构建ASR关键词抽取训练语料;
(1.4)使用TensorFlow框架搭建网络结构和模型训练测试代码,使用(1.3)中的训练语料训练基于深度学习的关键词抽取模型;
(1.5)结合垂直领域结构化数据和垂直领域专家的整理,构建该领域的专有名词词表;
(1.6)根据垂直领域专家整理的规则,针对特殊类型关键词,构建基于专家***的特殊类型关键词抽取模型。
进一步地,步骤(1.5)中,关键词抽取模型为标准的序列标注模型,网络结构为Bert+Crf结构。
进一步地,步骤(1.5)中,模型训练参数设置为batch_size为32,learning rate为1e-5,max sentence len为128,epoches为20,max training step为200000。
进一步地,步骤(1.4)中,采用BIO形式标注。
进一步地,步骤(6)中,去重时,由于抽取词会有交叠和覆盖的情况,会保留较长文本。
进一步地,步骤(6)中,重要度排序时,优先统计关键词被抽取到的次数,关键词抽取次数为所有子串抽取的次数;抽取次数相同的关键词则按抽取方式排序,排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时能够实现如上所述的ASR文本关键词的抽取方法中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的ASR文本关键词的抽取方法中的步骤。
本发明的有益效果是:
(1)本发明能够对短视频口语化文本进行纠错,在短视频口语化文本上定义关键词类型,结合领域词表,专家***的特殊类型关键词抽取模型和基于深度学习的关键词抽取模型共同抽取关键词,并对最终结果做后处理进行筛选。本发明的提取方法不仅优化了口语化文本自身的准确性,而且丰富了关键词的抽取类型,并结合后处理做到了关键词抽取的可控性。
(2)本发明针对垂直领域短视频ASR文本关键词进行不同类型关键词抽取优化,针对ASR文本易错,偏口语化的特点,做了文本纠错和训练语料风格的调整。
(3)本发明基于领域词表的专有名词抽取,可以保证重要专有名词的抽取,提高关键词抽取的召回率。
(4)本发明基于专家***的抽取可以用添加规则的方式确保特殊类型关键词的抽取,满足不同业务需求,提高抽取召回率,并保证关键词类型多样化。
(5)本发明采用深度学习模型抽取模型可以在对整句文本的语意理解的基础上进行关键词抽取,提升整体抽取的召回率。
(6)本发明的关键词抽取方法可以方便快速地迁移到不同的垂直领域。
附图说明
图1是本发明对垂直领域短视频ASR文本关键词的抽取流程示意图。
图2是本发明的计算机设备的示意图。
具体实施方式
以下结合附图对本发明的技术方案做进一步详细说明,应当指出的是,具体实施方式只是对本发明的详细说明,不应视为对本发明的限定。
实施例1
如图1所示,以电商领域带货视频为例,针对垂直领域ASR文本关键词的抽取方法,包括以下步骤:
(1)对待处理短视频进行处理获取ASR文本;本实施例中,垂直领域为电商领域,采用的待处理短视频为电商领域带货的一个原始视频。
调用科大讯飞或者阿里云等开放的语音转文本API,将步骤(1)中的语音转换为文本,此时得到的文本为:“皮料采用的是投层牛皮,而且鞋面做了一个烫转的设计,特别好看”。
(2)将步骤(1)中得到的ASR文本进行纠错,比如“投层牛皮”中“投”是个错字,而“烫转”应为“烫钻”,上述文本经过领域词表纠错和纠错模型纠错处理后可以得到最终的准确文本,“皮料采用的是头层牛皮,而且鞋面做了一个烫钻的设计,特别好看”。本实施例中,采用的领域词表和纠错模型是现有技术中通用方法,本发明不对该纠错方法进行改进。
(3)基于领域关键词表,对步骤(2)中得到的文本抽取专有名词,在本实施例中,“烫钻”是鞋类衣物的特殊工艺,在工艺关键词表中可以匹配抽出。
(4)基于专家***的特殊类型关键词抽取模型,对步骤(2)中得到的文本抽取特殊类型的关键词。专家***主要是业务专家整理的一些抽取规则,在文本中,“特别好看”命中程度副词+形容词的抽取规则,会被抽取。
(5)基于深度学习关键词抽取模型,对步骤(2)中得到的文本抽取相应的关键词。关键词抽取模型是基于BIO形式标注的语料训练的序列标注模型,对于步骤(2)中文本,其序列标注结果为:“O O O O O O B I I I O O O B I O O O O B I I I O O O O”,取出B和I位置对应的词,分别为“头层牛皮”,“鞋面”,“烫钻的设计”。
(6)对步骤(3)~步骤(5)中获取的关键词做合并去重、重要度排序后处理,得到最终的关键词抽取结果。
在去重方面,由于抽取词会有交叠和覆盖的情况,会选择较长文本,如“烫钻的设计”和“烫钻”是重叠的情况,最后会保留“烫钻的设计”。
在重要度排序方面,优先统计关键词被抽取到的次数,关键词抽取次数为所有子串抽取的次数,“烫钻”为“烫钻的设计”的子串,那么“烫钻的设计”的抽取次数为2。抽取次数相同的关键词则按抽取方式排序,排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。
在一些优选的方式中,关键词抽取模型的构建包括数据集建立与模型训练,
所述数据集建立与模型训练包括以下步骤:
(1.1)搜集垂直领域的相关短视频素材,调用语音转文本模块得到原始ASR文本;
本实施例中,垂直领域为电商领域,从外部数据源获取电商带货原始视频集,并抽取出音频,调用科大讯飞或者阿里云等开放的语音转文本API得到原始ASR文本;
(1.2)调用文本纠错***对原始ASR文本进行纠错处理,得到待标注ASR文本;
本实施例中,调用外部智能纠错***,如哈工大飞鹰文本纠错***,对步骤(1.1)中得到的原始ASR文本进行纠错,减小ASR识别错字的影响。
(1.3)根据垂直领域专家的意见,总结待抽取关键词类型,本实施例中,电商场景下,关键词类型有:商品属性词,价格优惠词,评价感受,倒计时等类型。
(1.4)对每一段ASR文本进行人工标注,构建ASR文本关键词抽取训练集语料和测试集语料;标注形式采用BIO形式,如“皮料采用的是头层牛皮”中“头层牛皮”是商品属性词,会被标注为“O O O O O O B I I I”;
(1.5)使用TensorFlow框架搭建网络结构和模型训练测试代码,使用步骤(1.4)中的训练语料训练基于深度学习的关键词抽取模型;本实施例中,未对Tensorflow框架做改进,模型训练也可以使用其他深度学习框架实现,例如Pytorch。
本实施例中,训练模型为标准的序列标注模型,具体的网络结构为Bert+CRF结构,本发明未对Bert和CRF进行改进。
训练过程中,对于单条训练样本,其输入为按字切分的句子,输出为BIO标签。具体的,以步骤(1.4)标注的样本为例,其输入为“皮料采用的是头层牛皮”,输出为“O O O O OO B I I I”。
假定有数据量为n的一组已标注数据
Figure BDA0002854068910000051
i表示已标注数据中的第i个,xi,yi表示第i组已标注数据,对其中任意一条长度为m的样本,输入序列可以表示为
Figure BDA0002854068910000052
输出序列可以表示为
Figure BDA0002854068910000053
则序列标注模型可以表示为一组条件概率分布模型,即
Figure BDA0002854068910000061
其中θ为要学习的模型超参数,xi为模型输入,yi为模型输出,y′为可能输出的标签。Score为在当前输入输出下的概率评分,具体的可以表示为:
Figure BDA0002854068910000062
ψemit和ψtrans均为θ相关的函数。
模型训练的优化目标在于找到一组参数θ,使得
Figure BDA0002854068910000063
其中,θ*表示求得的参数,1≤i≤n。
则模型训练的优化目标函数可以表示为
Figure BDA0002854068910000064
更新模型参数的公式为:
Figure BDA0002854068910000065
其中,
Figure BDA0002854068910000066
为梯度算子,t表示对参数的第t次更新,θt表示经过t次更新后的模型参数,θt+1表示经过t+1次更新后的模型参数,α表示学习率,用来控制每次参数更新的幅度。
一般,很难找到目标函数精确的极小值对应的模型参数θ,因此只需要找到目标函数L(θ)的极小值的近似值即可。
在实际操作中,可以设定阈值ε或最大训练步数max training step,当参数更新后L(θ)的变化值小于ε或模型训练达到最大步数后,模型训练停止。
在本实施示例中,模型训练参数设置为batch size为32,learning rate为1e-5,max sentence len为128,epoches为20,max training step为200000。
在一些优选的方式中,步骤(3)中,结合垂直领域结构化数据和垂直领域专家的整理,构建该领域的专有名词词表(即领域关键词表);
本实施例中,从电商详情页等半结构化数据中,整理颜色,品牌等属性的关键词表,并交由垂直领域专家进行人工标注整理,构建该领域的专有名词词表。根据专有名词词表采用字符串匹配的方式,构建专有名词抽取***。
在一些优选的方式中,步骤(4)中,结合业务需求和领域知识,由垂直领域专家整理相应规则,针对特殊类型关键词,如价格、评价关键词等,采用规则匹配的方式,构建基于专家***的特殊类型关键词抽取模型。例:“特别好看”是评价关键词,它符合程度副词+形容词的抽取规则,会被抽取。
所述基于专家***的特殊类型关键词抽取模型可以直接根据专家整理的句法规则或依存句法分析树进行解析得到。句法规则或依存句法分析树是现有的通用工具,所述专家整理的句法规则指的是:上述的抽取规则(比如程度副词+形容词的抽取规则)。
实施例2,参照附图2。
在本实施例中,提供了一种计算机设备100,包括存储器102、处理器101及存储在存储器102上并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时能够实现上述实施例1所提供的ASR文本关键词抽取方法中的步骤。
实施例3
在本实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时能够实现上述各个实施例所提供的ASR文本关键词抽取方法中的步骤。
在本实施例中,所述计算机程序可以是实施例2中的计算机程序。
在本实施例中,所述计算机可读存储介质可以被实施例2中的计算机设备所运行。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例的所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (9)

1.一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,包括以下步骤:
(1)对待处理短视频进行处理获取ASR文本;
(2)对步骤(1)得到的ASR文本进行文本纠错,获得纠错后的ASR文本;
(3)基于领域关键词表,对步骤(2)得到的ASR文本抽取专有名词;
(4)基于专家***的特殊类型关键词抽取模型,对步骤(2)得到的ASR文本抽取特殊类型的关键词;
(5)基于关键词抽取模型,对步骤(2)得到的ASR文本抽取相应的关键词;
(6)对步骤(3)-(5)获取的关键词做合并去重、重要度排序后处理,得到最终的抽取结果。
2.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,关键词抽取模型的构建包括数据集建立与模型训练,所述数据集建立与模型训练包括以下步骤:
(1.1)搜集垂直领域的相关短视频素材,调用语音转文本模块得到原始ASR文本;
(1.2)调用文本纠错模块对原始ASR文本进行纠错处理,得到待标注ASR文本;
(1.3)根据垂直领域专家的意见,总结待抽取关键词类型,
(1.4)对每一段ASR文本进行标注,构建ASR关键词抽取训练集语料和测试集语料;
(1.5)使用TensorFlow框架搭建网络结构和模型训练测试代码,使用步骤(1.4)中的训练语料训练基于深度学习的关键词抽取模型。
3.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(1.5)中,关键词抽取模型为标准的序列标注模型。
4.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(1.5)中,模型训练参数设置为batch_size为32,learning rate为1e-5,maxsentence len为128,epoches为20,max training step为200000。
5.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(1.4)中,采用BIO形式标注。
6.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(6)中,去重时,由于抽取词会有交叠和覆盖的情况,保留较长文本。
7.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(6)中,重要度排序时,优先统计关键词被抽取到的次数,关键词抽取次数为所有子串抽取的次数;抽取次数相同的关键词则按抽取方式排序,排序优先级由高到低分别为基于领域关键词表抽取、基于专家***的特殊类型关键词抽取、基于深度学习的关键词抽取模型抽取。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时能够实现如权利要求1-7中任一项所述的ASR文本关键词的抽取方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能够实现如权利要求1-7中任一项所述的ASR文本关键词的抽取方法中的步骤。
CN202011537896.9A 2020-12-23 2020-12-23 Asr文本关键词抽取方法、计算机设备及可读存储介质 Active CN112597340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011537896.9A CN112597340B (zh) 2020-12-23 2020-12-23 Asr文本关键词抽取方法、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011537896.9A CN112597340B (zh) 2020-12-23 2020-12-23 Asr文本关键词抽取方法、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112597340A true CN112597340A (zh) 2021-04-02
CN112597340B CN112597340B (zh) 2023-01-03

Family

ID=75200651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011537896.9A Active CN112597340B (zh) 2020-12-23 2020-12-23 Asr文本关键词抽取方法、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112597340B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016031675A (ja) * 2014-07-29 2016-03-07 Kddi株式会社 コンテンツ推奨装置およびプログラム
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106874443A (zh) * 2017-02-09 2017-06-20 北京百家互联科技有限公司 基于视频文本信息提取的信息查询方法以及装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107577671A (zh) * 2017-09-19 2018-01-12 中央民族大学 一种基于多特征融合的主题词提取方法
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
CN112015928A (zh) * 2020-08-26 2020-12-01 北京达佳互联信息技术有限公司 多媒体资源的信息提取方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016031675A (ja) * 2014-07-29 2016-03-07 Kddi株式会社 コンテンツ推奨装置およびプログラム
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106874443A (zh) * 2017-02-09 2017-06-20 北京百家互联科技有限公司 基于视频文本信息提取的信息查询方法以及装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107577671A (zh) * 2017-09-19 2018-01-12 中央民族大学 一种基于多特征融合的主题词提取方法
CN112015928A (zh) * 2020-08-26 2020-12-01 北京达佳互联信息技术有限公司 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112597340B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及***
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
JP5356197B2 (ja) 単語意味関係抽出装置
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN106919673A (zh) 基于深度学习的文本情绪分析***
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN112052324A (zh) 智能问答的方法、装置和计算机设备
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN109949799B (zh) 一种语义解析方法及***
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN108536673B (zh) 新闻事件抽取方法及装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112597340B (zh) Asr文本关键词抽取方法、计算机设备及可读存储介质
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取***及方法
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220907

Address after: Room 1201, Building 1, No. 371, Mingxing Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 310000

Applicant after: HANGZHOU ZHIYI TECHNOLOGY Co.,Ltd.

Address before: Room D3052, 3rd floor, building 1 (North), 368 Liuhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou aigeng Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230714

Address after: Room 101-5, 22nd Floor (North Building (A Building), Yunshang Building, No. 1, Mogan Road, Changshu City, Jiangsu Province, 215500

Patentee after: Changshu Zhiyi Technology Co.,Ltd.

Address before: Room 1201, Building 1, No. 371, Mingxing Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 310000

Patentee before: HANGZHOU ZHIYI TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right