CN116343771A - 一种基于知识图谱的音乐点播语音指令识别方法、装置 - Google Patents
一种基于知识图谱的音乐点播语音指令识别方法、装置 Download PDFInfo
- Publication number
- CN116343771A CN116343771A CN202310241322.4A CN202310241322A CN116343771A CN 116343771 A CN116343771 A CN 116343771A CN 202310241322 A CN202310241322 A CN 202310241322A CN 116343771 A CN116343771 A CN 116343771A
- Authority
- CN
- China
- Prior art keywords
- music
- demand
- fuzzy
- content
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000004891 communication Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 241000616862 Belliella Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的音乐点播语音指令识别方法、装置,所述基于知识图谱的音乐点播语音指令识别方法包括:获取用户点播音乐的需求语音信号;对所述需求语音信号进行语义分析,获得模糊需求特征;根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词;根据所述搜索关键词获取待播放内容。本发明通过结合音乐知识图谱对用户发出的带有指代含义的语音点播指令进行识别,根据识别结果获取精确音乐需求内容,进而根据精确音乐需求内容获取用户实际想要听到的音乐资源,提升语音指令指代实体的理解能力及准确率,优化用户体验。
Description
技术领域
本发明涉及语音指令识别技术领域,具体涉及一种基于知识图谱的音乐点播语音指令识别方法、基于知识图谱的音乐点播语音指令识别装置及电子设备。
背景技术
随着人工智能技术的发展,越来越多的领域引入了语音作为一种新的交互方式,人们逐渐习惯通过语音助手来点播歌曲、相声、有声书等。为了满足用户点播需求,当前常用的实现方法是在NLU识别环节,识别出媒介类型信息和条件信息,采用娱乐应用的搜索接口来搜索符合条件的内容,通过娱乐应用播放待播内容。NLU识别出点播内容的媒介类型(如歌曲、有声节目、视频);针对不同的媒介类型,识别出该媒介的关键信息,比如对于歌曲类媒介,会识别出歌曲的歌手名、歌曲名、曲风流派等信息,对于有声节目类媒介,会识别出演播者、专辑名、分类等信息。比如,当用户说“播放歌手A的XXX”,能够识别出:媒介类型是歌曲、条件1是歌手名A、条件2是歌曲名XXX;通过一定的搜索规则定义,在音乐应用的搜索接口,搜索关键词“XXX A”,获取搜索结果,播放符合条件的歌曲,这种方法在用户语音中包含的信息比较完整时,能够有比较好的搜索效果。
但是随着人们对语音助手的智能化期待,当用户点播歌曲时,经常会用比较口语化的表达方式,期望语音助手能够像人类一样理解用户所说。比如用户会说“我想听歌曲XXX的原唱版”,期待语音助手能够播放符合条件的歌曲。目前关于音乐领域的NLU识别,主要是识别出歌曲名、歌手名、标签等信息,不能把相关信息补全,相当于只是机械性的提取关键词,目前仅能识别出:用户意图是“听歌”,歌曲的名称是“XXX”,还有个条件是“原唱版”;使用搜索关键词“XXX原唱版”在音乐应用进行搜索时,获得的搜索结果基本都是不符合搜索条件的,因此,目前需要一种对于包含指代性信息的用户语音指令进行准确识别的技术方案来解决上述问题。
发明内容
本发明的目的在于提供一种基于知识图谱的音乐点播语音指令识别方法、基于知识图谱的音乐点播语音指令识别装置,来至少解决上述的一个技术问题。
本发明提供了下述方案:
一种基于知识图谱的音乐点播语音指令识别方法,包括:
获取用户点播音乐的需求语音信号;
对所述需求语音信号进行语义分析,获得模糊需求特征;
根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词;
根据所述搜索关键词获取待播放内容。
可选地,所述对所述需求语音信号进行语义分析包括:
对所述需求语音信号进行语音识别,获得语音识别文本;
对所述语音识别文本进行特征提取,获得模糊需求特征。
可选地,所述预设音乐知识图谱包括至少一个第一音乐知识节点以及至少一个第二音乐知识节点,一个第一音乐知识节点至少与一个第二音乐知识节点之间具有关联关系,其中,
每个音乐知识节点包括如下中的一种:
歌曲基本信息、歌曲相关影视信息、歌曲相关歌手信息;
所述关联关系包括歌曲与歌手关系、歌曲与影视作品关系中的一种。
可选地,所述根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据所述模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及所述模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的至少一个,获取的第二音乐知识节点为所述精确音乐需求内容。
可选地,所述根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词:
将所述模糊需求特征与精确音乐需求内容进行组合,获得组合搜索文本;
根据预设搜索接口协议提取所述组合搜索文本中的搜索关键词。
可选地,所述根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据所述模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及所述模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的一个,获取的第二音乐知识节点以及第一音乐知识节点组成所述精确音乐需求内容。
可选地,所述根据所述搜索关键词获取待播放内容包括:
根据所述搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容;
将所述待播放内容添加至待播放列表。
可选地,所述根据所述搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容包括:
获取所述搜索关键词的搜索类型;
根据所述搜索关键词以及搜索关键词的搜索类型自预设音乐数据库或互联网中获取满足条件的待播放内容。
本发明还提供了一种基于知识图谱的音乐点播语音指令识别装置,包括:
需求语音信号获取模块,所述需求语音信号获取模块用于获取用户点播音乐的需求语音信号;
模糊需求特征获取模块,所述模糊需求特征获取模块用于对所述需求语音信号进行语义分析,获得模糊需求特征;
精确音乐需求内容获取模块,所述精确音乐需求内容获取模块用于根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
搜索关键词生成模块,所述搜索关键词生成模块用于根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词;
待播放内容获取模块,所述待播放内容获取模块用于根据所述搜索关键词获取待播放内容。
本发明提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述方法的步骤。
本发明与现有技术相比具有以下的优点:
本发明通过对用户发出的带有模糊需求的语音点播指令进行识别,将识别的语音识别文本信息结合预设音乐知识图谱的方式获取精确音乐需求内容,通过精确音乐需求内容生成搜索关键词,进而根据搜索关键词为用户提供用户实际想要听到的音乐资源;本发明通过对用户发出的具有指代含义的语音指令进行识别并补充指代所指实体信息,提升对用户发出的模糊需求语音指令的理解能力及准确率,进而增强了语音指令识别的智能程度以及播放歌曲的准确性,优化用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的基于知识图谱的音乐点播语音指令识别方法的流程示意图;
图2为本发明一实施例的基于知识图谱的音乐点播语音指令识别方法的预设音乐知识图谱示意图;
图3为本发明一实施例的基于知识图谱的音乐点播语音指令识别装置的结构示意图;
图4为可以实现本发明的基于知识图谱的音乐点播语音指令识别方法的电子设备结构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例的基于知识图谱的音乐点播语音指令识别方法的流程示意图;
如图1所示,一种基于知识图谱的音乐点播语音指令识别方法,包括:
步骤1:获取用户点播音乐的需求语音信号;
步骤2:对需求语音信号进行语义分析,获得模糊需求特征;
步骤3:根据模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
步骤4:根据精确音乐需求内容或根据模糊需求特征以及精确音乐需求内容生成搜索关键词;
步骤5:根据搜索关键词获取待播放内容。
本发明通过对用户发出的带有模糊需求的语音点播指令进行识别,将识别的语音识别文本信息结合预设音乐知识图谱的方式获取精确音乐需求内容,通过精确音乐需求内容生成搜索关键词,进而根据搜索关键词为用户提供用户实际想要听到的音乐资源;本发明通过对用户发出的具有指代含义的语音指令进行识别并补充指代所指实体信息,提升对用户发出的模糊需求语音指令的理解能力及准确率,进而增强了语音指令识别的智能程度以及播放歌曲的准确性,优化用户体验。
本实施例中,对需求语音信号进行语义分析包括:
对需求语音信号进行语音识别,获得语音识别文本;
对语音识别文本进行特征提取,获得模糊需求特征。
本实施例中,对语音识别文本进行特征提取包括:
获取预设特征提取模型;
将语音识别文本输入至预设特征提取模型,对语音识别文本进行分词操作、去除停用词操作以及特征提取操作。
本实施例中,通过拾音装置识别到用户的需求语音信号后,进行语音识别,生成语音识别文本,如用户的语音信号为“播放贝加尔湖畔的原唱版本”;将语音识别文本“播放贝加尔湖畔的原唱版本”输入至预设特征提取模型进行分词操作,获得“播放”、“贝加尔湖畔”、“的”、“原唱版本”,对分词后的文本信息进行去除停用词操作获得“播放”、“贝加尔湖畔”、“原唱版本”,对去除停用词操作后的文本进行特征提取,识别出模糊需求特征,如song=“贝加尔湖畔”,tags=“原唱”,可以理解的是,之所以称为模糊需求特征,是因为,这里识别后的tags=“原唱”,在***中没有确定的目标,只能通过本申请的预设音乐知识图谱进行匹配获取,才能够找到tags=“原唱”的确定的目标。
可以理解的是,对语音识别文本进行特征提取的规则会随着用户的点播需求不断更新,包括不限于如下部分:
图2为本发明一实施例的基于知识图谱的音乐点播语音指令识别方法的预设音乐知识图谱示意图;
如图2所示,本实施例中,预设音乐知识图谱包括至少一个第一音乐知识节点以及至少一个第二音乐知识节点,一个第一音乐知识节点至少与一个第二音乐知识节点之间具有关联关系,其中,
每个音乐知识节点包括如下中的一种:
歌曲基本信息、歌曲相关影视信息、歌曲相关歌手信息;
关联关系包括歌曲与歌手关系、歌曲与影视作品关系中的一种。
本实施例中,预设音乐知识图谱的构建,主要有以下几个环节:
(1)歌曲知识表示
(2)选取用于构建知识图谱的信息来源
(3)信息提取
(4)信息去重
(5)生成知识图谱
本实施例中采取预先定义基本类型、属性的方式,确定歌曲信息的表示方式,知识图谱的标注信息将直接采用预先定义的表示方式。
由于歌曲信息的来源比较广泛、知识的复杂性低,可以采用人工标注、对接第三方包含歌曲信息知识库、百科知识抓取、含有歌曲信息的网站抓取等信息来源方式获取。
信息提取环节针对不同类型的信息来源采取不同的处理方法,对于人工标注和第三方包含歌曲信息的知识库,主要是读取相应信息,对属性和实体归一化表达即可,对百科知识和含有歌曲信息的网站抓取到的信息,需要通过自然语言理解,识别出歌曲信息。
由于不同来源的音乐信息中存在重复信息的,在添加到预设音乐知识图谱前,先进行去重操作,有助于提高效率。
本实施例中,预设音乐知识图谱根据数据来源迭代维护,包括不限于如下部分:
音乐知识节点包括:歌手名、作词者、作曲者、专辑名、歌曲名、时间、数量、电视剧名、电影名;
音乐知识节点的关系图谱包括点、边、点,具体的点、边、点关系可以采用如下关系设置:
歌曲基本信息包括:
专辑名→该专辑发行时间→时间信息;
专辑名→包含歌曲数→歌曲数量;
专辑名→该专辑收录歌曲→具体歌曲名;
歌曲名→该歌曲作词者→作词家;
歌曲名→该歌曲作曲者→作曲家;
歌曲名→该歌曲编曲者→编曲家;
歌曲相关影视信息包括:
歌曲名→该歌曲演出场合→演出场合→演出场合的演出时间→时间;
电视剧名→该电视剧主题曲→歌曲名;
电视剧名→该电视剧片头曲→歌曲名;
电视剧名→该电视剧片尾曲→歌曲名;
歌曲相关歌手信息包括:
歌手名→所属专辑→专辑名;
歌手名→所唱单曲→歌曲名;
歌曲名→该歌曲的原唱→歌手名;
歌曲名→该歌曲的翻唱→歌手名。
如图2所示,如歌曲《贝加尔湖畔》相关联的音乐知识节点包括歌曲基本信息如“《依然》→该专辑收录歌曲→《心升明月》、《Color Me Love》、
《我始终在这里》、《回到从前》、《舍得》、《珍爱深深》、《依然在路上》、《贝加尔湖畔》、《眷恋》、《凌晨两点》、《谢谢你》,《依然》→该专辑发行时间
→2011-12-10,《依然》→包含歌曲数→11”等,歌曲相关影视信息如“《无心法师》→该电视剧片尾曲→《贝加尔湖畔》”,歌曲相关歌手信息如“《贝加尔湖畔》→该歌曲的原唱→李健”。
本实施例中,根据模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的至少一个,获取的第二音乐知识节点为精确音乐需求内容。
具体而言,采用预定义规则的方法,当模糊需求特征有可作为搜索信息的文本时,判断为用户指定了部分信息,根据模糊需求特征在预设音乐知识图谱中进行检索,可以分为如下情况进行查找:
当模糊需求特征包含“歌手名”信息时,通过预设音乐知识图谱查找歌手名信息,
场景1:有“song”“tags=原唱”无“singer”;
场景2:有“song”“tags=翻唱”无“singer”;
例如,模糊需求特征中有“歌曲名”、有“原唱”时,根据“歌曲名”检索预设音乐知识图谱中对应的第一音乐知识节点,再根据“原唱”对第一音乐知识节点的关联关系进行检索,通过这样的推理检索方式可以获取第一音乐知识节点的“原唱”关联关系对应的第二音乐知识节点,也就是“歌曲名”对应的“原唱”是哪位歌手,最后将检索到的歌手名补充为“singer”。
当模糊需求特征包含“歌曲名”信息时,通过预设音乐知识图谱查找歌曲名信息,
场景1:有“singer”&有“time=最新”&有“type=歌曲”&无“song”;
场景2:有“singer”&有“source”&无“song”;
场景3:有“Source”&有“tags=主题曲”&无“song”;
场景4:有“Source”&有“tags=片头曲”&无“song”;
场景5:有“Source”&有“tags=片尾曲”&无“song”;
场景6:有“singer”&有“time”&无“source_type=专辑”&无“song”。
例如,模糊需求特征中有“电视剧名”、有“片头曲”时,根据“电视剧名”检索预设音乐知识图谱中对应的第一音乐知识节点,再根据“片头曲”对第一音乐知识节点的关联关系进行检索,通过这样的推理检索方式可以获取到取第一音乐知识节点的“片头曲”关联关系对应的第二音乐知识节点“歌曲名”,最后将检索到的歌曲名补充为“song”。
当模糊需求特征包含“专辑名”信息时,通过预设音乐知识图谱查找专辑名信息,
场景1:有“singer”&有“time”&有“source_type=专辑”&无“album”。
例如,模糊需求特征中有“歌手名”、有“最新专辑”时,根据“歌手名”检索预设音乐知识图谱中对应的第一音乐知识节点,再根据“最新专辑”所指代的是“album”对第一音乐知识节点的关联关系进行检索,筛选发行时间最近的第二音乐知识节点“专辑名”,补充为“album”。
以上场景可根据实际使用效果进行调节和补充。
在一个实施例中的模糊需求特征为song=“贝加尔湖畔”,tags=“原唱”时,根据“贝加尔湖畔”以及“原唱”在预设音乐知识图谱检索所有相关的音乐知识节点,获取到匹配的第一音乐知识节点的音乐信息为“贝加尔湖畔”,在根据“原唱”检索第一音乐知识节点的关联关系,最终获得关联关系对应的第二音乐知识节点“李健”。
本实施例中,根据精确音乐需求内容或根据模糊需求特征以及精确音乐需求内容生成搜索关键词:
将模糊需求特征与精确音乐需求内容进行组合,获得组合搜索文本;
根据预设搜索接口协议提取组合搜索文本中的搜索关键词。
本实施例中,预设搜索接口协议包括:
搜索关键词的搜索类型包括歌手名、专辑名、歌曲名中的任一项。
可以理解的是,根据模糊需求特征以及精确音乐需求内容生成组合搜索文本之后,针对音乐播放软件的搜索特性,本实施例忽略组合搜索文本中可能影响搜索结果的冗余信息,根据搜索关键词的搜索类型对组合搜索文本进行提取搜索关键词的操作。
例如,用户的需求语音信号为“播放周杰伦最新的专辑”,获得的模糊需求特征为“singer=周杰伦,tag=最新,source_type=专辑”,将模糊需求特征与预设音乐知识图谱中的音乐知识节点进行匹配,获取模糊需求特征对应的精确音乐需求内容,得到“album=最伟大的作品”,可知用户想听的是《最伟大的作品》这个专辑,但是当我们使用“周杰伦最新专辑最伟大的作品”进行搜索时大概率不会获得最准确的对应内容,所以在这里根据预设搜索接口协议将组合搜索文本中的搜索关键词进行提取,获得搜索关键词,该套预设搜索接口协议根据实际使用数据的情况进行迭代,当一套协议不满足不同音乐播放软件的搜索特性时,区分不同音乐播放软件进行调整。
预设搜索接口协议包括:
(1)歌手名、歌曲名信息
当组合搜索文本中包括“singer”&“song”时,搜索词为“【song】
【singer】”,忽略其他信息(模糊需求特征中的其他信息、预设音乐知识图谱匹配的其他音乐信息);
(2)专辑名信息
当组合搜索文本中包括“album”&有“singer”时,搜索词为“【album】【singer】”忽略其他信息(模糊需求特征中的其他信息、预设音乐知识图谱匹配的其他音乐信息)。
根据上述预设搜索接口协议,本实施例中的组合搜索文本“周杰伦最新专辑最伟大的作品”,对该组合搜索文本提取搜索关键词后获得的搜索关键词为“周杰伦最伟大的作品”。
在另一个实施例中,可以将检索到的第一音乐知识节点以及第二音乐知识节点作为搜索关键词获取待播放内容,具体而言,在本实施例中,根据模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的一个,获取的第二音乐知识节点以及第一音乐知识节点组成精确音乐需求内容。
具体而言,本实施例中,可以根据第一音乐知识节点“贝加尔湖畔”以及第二音乐知识节点“李健”组合生成搜索关键词“贝加尔湖畔李健”,可以理解的是,根据音乐知识节点生成的搜索关键词不包括冗余信息,因此不需要对搜索关键词进行提取搜索关键词的操作,可以直接根据该搜索关键词搜索待播放内容。
本实施例中,根据搜索关键词获取待播放内容包括:
根据搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容;
将待播放内容添加至待播放列表。
本实施例中,根据搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容包括:
获取搜索关键词的搜索类型;
根据搜索关键词以及搜索关键词的搜索类型自预设音乐数据库或互联网中获取满足条件的待播放内容。
具体而言,当获得的搜索关键词为“周杰伦最伟大的作品”时,获取该搜索词的搜索类型,获取的搜索词对应的搜索类型为“周杰伦”=【singer】,“最伟大的作品”=【album】,则可以根据“周杰伦”=【singer】,“最伟大的作品”=【album】在预设音乐数据库或互联网中获取满足条件的待播放内容,并将获取到的该专辑包含的所有歌曲添加至待播放列表中。
图3为本发明一实施例的基于知识图谱的音乐点播语音指令识别装置的结构示意图;
如图3所示,本发明提供了一种基于知识图谱的音乐点播语音指令识别装置,包括需求语音信号获取模块、模糊需求特征获取模块、精确音乐需求内容获取模块、搜索关键词生成模块以及待播放内容获取模块;其中,
需求语音信号获取模块,用于获取用户点播音乐的需求语音信号;
模糊需求特征获取模块,用于对需求语音信号进行语义分析,获得模糊需求特征;
精确音乐需求内容获取模块,用于根据模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
搜索关键词生成模块,用于根据精确音乐需求内容或根据模糊需求特征以及精确音乐需求内容生成搜索关键词;
待播放内容获取模块,用于根据搜索关键词获取待播放内容。
值得注意的是,虽然本***只披露了需求语音信号获取模块、模糊需求特征获取模块、精确音乐需求内容获取模块、搜索关键词生成模块以及待播放内容获取模块等基本功能模块,但并不意味着本装置仅仅局限于上述基本功能模块,相对,本发明所要表达的意思是,在上述基本功能模块的基础之上,本领域技术人员可以结合现有技术任意添加一个或多个功能模块,形成无穷多个实施例或技术方案,也就是说本***是开放式的而非封闭式的,不能因为本实施例仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于上述公开的基本功能模块。
图4为可以实现本发明的基于知识图谱的音乐点播语音指令识别方法的电子设备结构图
如图4所示,电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行基于知识图谱的音乐点播语音指令识别方法的步骤。
本申请还提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行基于知识图谱的音乐点播语音指令识别方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
电子设备包括硬件层,运行在硬件层之上的操作***层,以及运行在操作***上的应用层。该硬件层包括中央处理器(CPU,Central Processing Unit)、内存管理单元(MMU,Memory Management Unit)和内存等硬件。该操作***可以是任意一种或多种通过进程(Process)实现电子设备控制的计算机操作***,例如,Linux操作***、Unix操作***、Android操作***、iOS操作***或windows操作***等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备,也可以是桌面计算机、便携式计算机等电子设备,本发明实施例中并未特别限定。
本发明实施例中的电子设备控制的执行主体可以是电子设备,或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件,存储介质对应的固件由供应商提供,不同存储介质对应的固件可以相同可以不同,在此不做限定。电子设备获取到存储介质对应的固件后,可以将该存储介质对应的固件写入存储介质中,具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现,在本发明实施例中不做赘述。
电子设备还可以获取到存储介质对应的重置命令,存储介质对应的重置命令由供应商提供,不同存储介质对应的重置命令可以相同可以不同,在此不做限定。
此时电子设备的存储介质为写入了对应的固件的存储介质,电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令,从而电子设备根据存储介质对应的重置命令,对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现,在本发明实施例中不做赘述。
为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于知识图谱的音乐点播语音指令识别方法,其特征在于,包括:
获取用户点播音乐的需求语音信号;
对所述需求语音信号进行语义分析,获得模糊需求特征;
根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词;
根据所述搜索关键词获取待播放内容。
2.如权利要求1所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述对所述需求语音信号进行语义分析包括:
对所述需求语音信号进行语音识别,获得语音识别文本;
对所述语音识别文本进行特征提取,获得模糊需求特征。
3.如权利要求2所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述预设音乐知识图谱包括至少一个第一音乐知识节点以及至少一个第二音乐知识节点,一个第一音乐知识节点至少与一个第二音乐知识节点之间具有关联关系,其中,
每个音乐知识节点包括如下中的一种:
歌曲基本信息、歌曲相关影视信息、歌曲相关歌手信息;
所述关联关系包括歌曲与歌手关系、歌曲与影视作品关系中的一种。
4.如权利要求3所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据所述模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及所述模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的至少一个,获取的第二音乐知识节点为所述精确音乐需求内容。
5.如权利要求4所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词:
将所述模糊需求特征与精确音乐需求内容进行组合,获得组合搜索文本;
根据预设搜索接口协议提取所述组合搜索文本中的搜索关键词。
6.如权利要求3所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容包括:
根据所述模糊需求特征与预设音乐知识图谱中的各个音乐知识节点进行匹配,从而获取模糊需求特征对应的第一音乐知识节点;
根据与该模糊需求特征所对应的第一音乐知识节点的各个关联关系以及所述模糊需求特征获取与该模糊需求特征所对应的第一音乐知识节点具有关联关系的各个第二音乐知识节点中的一个,获取的第二音乐知识节点以及第一音乐知识节点组成所述精确音乐需求内容。
7.如权利要求1所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述根据所述搜索关键词获取待播放内容包括:
根据所述搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容;
将所述待播放内容添加至待播放列表。
8.如权利要求7所述的基于知识图谱的音乐点播语音指令识别方法,其特征在于,所述根据所述搜索关键词自预设音乐数据库或互联网中获取满足搜索条件的待播放内容包括:
获取所述搜索关键词的搜索类型;
根据所述搜索关键词以及搜索关键词的搜索类型自预设音乐数据库或互联网中获取满足条件的待播放内容。
9.一种基于知识图谱的音乐点播语音指令识别装置,其特征在于,包括:
需求语音信号获取模块,所述需求语音信号获取模块用于获取用户点播音乐的需求语音信号;
模糊需求特征获取模块,所述模糊需求特征获取模块用于对所述需求语音信号进行语义分析,获得模糊需求特征;
精确音乐需求内容获取模块,所述精确音乐需求内容获取模块用于根据所述模糊需求特征在预设音乐知识图谱中获取精确音乐需求内容;
搜索关键词生成模块,所述搜索关键词生成模块用于根据所述精确音乐需求内容或根据所述模糊需求特征以及精确音乐需求内容生成搜索关键词;
待播放内容获取模块,所述待播放内容获取模块用于根据所述搜索关键词获取待播放内容。
10.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310241322.4A CN116343771A (zh) | 2023-03-14 | 2023-03-14 | 一种基于知识图谱的音乐点播语音指令识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310241322.4A CN116343771A (zh) | 2023-03-14 | 2023-03-14 | 一种基于知识图谱的音乐点播语音指令识别方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343771A true CN116343771A (zh) | 2023-06-27 |
Family
ID=86888808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310241322.4A Pending CN116343771A (zh) | 2023-03-14 | 2023-03-14 | 一种基于知识图谱的音乐点播语音指令识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823281A (zh) * | 2020-11-24 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音信号处理方法、装置、介质及电子设备 |
-
2023
- 2023-03-14 CN CN202310241322.4A patent/CN116343771A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823281A (zh) * | 2020-11-24 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 语音信号处理方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220214775A1 (en) | Method for extracting salient dialog usage from live data | |
US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
US8321414B2 (en) | Hybrid audio-visual categorization system and method | |
CN109165302B (zh) | 多媒体文件推荐方法及装置 | |
TWI553494B (zh) | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 | |
US9972340B2 (en) | Deep tagging background noises | |
US20120131060A1 (en) | Systems and methods performing semantic analysis to facilitate audio information searches | |
CN107145509B (zh) | 一种信息搜索方法及其设备 | |
US20220093082A1 (en) | Automatically Adding Sound Effects Into Audio Files | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
JP2019091416A5 (zh) | ||
CN108710653B (zh) | 一种绘本朗读点播方法、装置及*** | |
CN116343771A (zh) | 一种基于知识图谱的音乐点播语音指令识别方法、装置 | |
JP2023027749A (ja) | 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体 | |
CN114661939A (zh) | 歌曲匹配方法、介质、装置和计算设备 | |
CN114547373A (zh) | 一种基于音频智能识别搜索节目的方法 | |
CN115329125A (zh) | 一种歌曲串烧拼接方法和装置 | |
CN108595470B (zh) | 音频段落收藏方法、装置、***及计算机设备 | |
US20200250220A1 (en) | Methods and Apparatuses for Enhancing User Interaction with Audio and Visual Data Using Emotional and Conceptual Content | |
CN113593543B (zh) | 智能音箱语音服务***、方法、装置及设备 | |
CN115602154B (zh) | 音频识别方法、装置、存储介质和计算设备 | |
TWI220206B (en) | System and method for searching a single word in accordance with speech | |
CN118093792A (zh) | 对象搜索的方法、装置、计算机设备和存储介质 | |
CN115641844A (zh) | 一种自然语言槽位信息处理方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |