CN104484379A - 确定音乐实体关系的方法和装置及查询处理方法和装置 - Google Patents

确定音乐实体关系的方法和装置及查询处理方法和装置 Download PDF

Info

Publication number
CN104484379A
CN104484379A CN201410749432.2A CN201410749432A CN104484379A CN 104484379 A CN104484379 A CN 104484379A CN 201410749432 A CN201410749432 A CN 201410749432A CN 104484379 A CN104484379 A CN 104484379A
Authority
CN
China
Prior art keywords
music
information
music property
webpage
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410749432.2A
Other languages
English (en)
Other versions
CN104484379B (zh
Inventor
雷小强
田振雷
王森
鲁晓莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410749432.2A priority Critical patent/CN104484379B/zh
Publication of CN104484379A publication Critical patent/CN104484379A/zh
Application granted granted Critical
Publication of CN104484379B publication Critical patent/CN104484379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种确定音乐实体关系的方法和装置,该方法包括:从网络侧获取原始网页;从原始网页中提取第一网页,第一网页为包含有音乐关系关键词的网页;判断第一网页中是否存在样本句,样本句为包含有至少两个音乐实体的信息的句子;通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系,实现了音乐实体之间的关系的确定。

Description

确定音乐实体关系的方法和装置及查询处理方法和装置
技术领域
本发明实施例涉及信息搜索技术领域,尤其涉及一种确定音乐实体关系的方法和装置及查询处理方法和装置。
背景技术
随着搜索引擎技术的不断发展,人们通过搜索引擎搜索音乐的需求也越来越多。
现有技术中,搜索引擎对于音乐的搜索仅仅给出各个版本的列表,没有给出各个版本之间的关系,如哪个是原唱,那个是翻唱。其中,翻唱主要分为两种类型:1)歌词和曲谱一致,但演唱者不一样,这种情况往往是不同歌手在不同的时段唱了同一首音乐,从而产生了多个不同的版本;2)曲谱相同,但是歌词不同,这种情况很大一部分是国内的歌手使用国外的歌手的音乐的曲谱,经过重新填词而形成的版本,尤其是很多经典的音乐都是使用国外的曲谱,然后重新填词并重新命名再进行演唱。
当前较为主流的搜索引擎如百度,360等都提供音乐搜索的功能,都仅仅给出了相关列表。以图1为例,用户在百度搜索引擎中查询音乐“问”,其中“问”为音乐名称,百度搜索引擎展现的搜索结果中仅仅给出了音乐“问”的各个版本的列表。
发明内容
本发明实施例提供一种确定音乐实体关系的方法和装置,以确定不同音乐实体之间的关系。
本发明实施例还提供一种查询处理方法和装置,以在用户搜索某一音乐时,将不同版本的音乐之间的关系也提供给用户。
第一方面,本发明实施例提供了一种确定音乐实体关系的方法,包括:
从网络侧获取原始网页;
从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页;
判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子;
通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
第二方面,本发明实施例提供了一种确定音乐实体关系的装置,包括:
网页获取模块,用于从网络侧获取原始网页;
第一提取模块,用于从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页;
样本判断模块,用于判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子;
关系确定模块,用于通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
本发明实施例提供的确定音乐实体关系的方法和装置,在获取原始网页后,通过音乐关系关键词对原始网页进行过滤,得到包含有音乐关系关键词的网页,通过音乐实体的信息,可以从包含有音乐关系关键词的网页中识别得到包含有不同音乐实体的信息的句子,并通过句子语义分析,从包含有不同音乐实体的信息的句子中挖掘得到对应的音乐实体之间的关系,即能够确定不同音乐实体之间的关系,从能够确定不同版本的音乐之间的关系。
第三方面,本发明实施例提供了一种查询处理方法,包括:
接收待检索的问题;
当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息;
返回所述对应的音乐实体关系信息。
第四方面,本发明实施例提供了一种查询处理装置,包括:
问题接收模块,用于接收待检索的问题;
关系查找模块,用于当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息;
返回模块,用于返回所述对应的音乐实体关系信息。
本发明实施例提供的查询处理方法和装置,在接收待检索的问题之后,当所述问题中包含有音乐信息时,在包含有采用本发明任意实施例提供的确定音乐实体关系的方法形成的音乐实体之间的关系信息,以及包含有音乐实体数据的音乐实体关系库中匹配所述问题中包含的音乐信息,能够给出与所述问题中的音乐信息对应的音乐实体关系信息。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中用户在搜索引擎中查询音乐时,搜索引擎展现的搜索结果示意图;
图2a为本发明实施例一提供的一种确定音乐实体关系的方法的流程图;
图2b为本发明实施例提供的确定音乐实体关系的方法中从所述原始网页中提取第一网页的流程图;
图3a为本发明实施例提供的确定音乐实体关系的方法中判断所述第一网页中是否存在样本句的流程图;
图3b为本发明实施例二提供的一种建立音乐库的流程图;
图4为本发明实施例三提供的一种确定音乐实体关系的装置的结构示意图;
图5a为本发明实施例四提供的一种查询处理方法的流程图;
图5b为本发明实施例四提供的一种搜索结果展示图;
图5c为本发明实施例四提供的另一种搜索结果展示图;
图5d为本发明实施例四提供的再一种搜索结果展示图;
图5e为本发明实施例四提供的又一种搜索结果展示图;
图5f为本发明实施例四提供的又一种搜索结果展示图;
图6为本发明实施例五提供的一种查询处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
本实施例提供的确定音乐实体关系的方法可以由配置以硬件和/或软件实现的确定音乐实体关系的装置来执行,该实现装置典型的是配置于能够提供音乐搜索服务的***例如搜索引擎中。
请参阅图2a,本实施例提供的一种确定音乐实体关系的方法包括:操作210~操作240。
操作210中,从网络侧获取原始网页。
操作220中,从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页。
其中,音乐关系对应于多个音乐实体,多个音乐实体之间的关系即为音乐关系。
音乐实体之间的关系属于问题答案类中的其中一种。具体的,问题对应由用户通过搜索引擎输入的包含有音乐实体信息的检索式,答案对应搜索结果中展现的音乐实体之间的关系。
用户在寻找某个问题的答案的时候,通常会直接在搜索引擎中进行搜索,但是搜索引擎提供的搜索结果这种原始网页无法满足用户的搜索需求,也即搜索结果通常不能直接展现问题对应的答案。现有的很多问答类型的网页(例如,百度知道、新浪爱问等)和专业论坛通常包含用户提出的问题,以及其他用户提供的与问题对应的答案。
类似地,对于音乐实体之间的关系,很多用户无法直接从搜索引擎找到音乐实体之间的关系时,也是通过发表帖子等方式提问,诉求于其他用户的回答。因此,绝大多数音乐实体之间的关系都存在于问答类型的网页和论坛网页中,可知这两种类型的网页均包含有音乐关系关键词。
因此,本操作具体是利用音乐关系关键词对原始网页进行过滤,得到包含有音乐关系关键词的网页。
操作230中,判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子。
在本操作中,可以对所述第一网页包含的句子分别进行所述判断操作。
音乐实体是指音乐对象本身,格式可以为*.mp3,*.mp4、*.wma或*.wav等,其中,*代表任意字符串,通常为音乐名称。
所述音乐实体的信息可以包括音乐名称、曲作者、词作者、演唱者和演奏者中的至少一项信息。
由于音乐实体的信息可以有多种形式,相应的包含有至少两个音乐实体的信息的句子可以有多种形式,也即样本句可以有多种形式,可以是包含有至少两个音乐实体的音乐名称的句子,还可以是包含有至少两个音乐实体的音乐名称和演唱者的句子。这样,对于被翻唱但是音乐名称不变的不同音乐实体,可以通过加入演唱者可以区分。样本句还可以是包含音乐实体的其他信息或者信息组合的句子,本实施例对此不进行限制。
操作240中,通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
在本操作中,可以提取样本句的特征,所述特征主要包括以下几类:1)语法特征,主要指两个音乐实体中间的依存路径;2)词法特征,包括音乐实体左边和右边的设定数量的词以及对应的词性,该数量可以根据实际需要进行调整;3)其他特征,主要包括页面的主题词,上下句子的结构相似性等特征。基于这些特征,使用机器学习算法训练出一个模型,便可以确定样本句中所述至少两个音乐实体之间的关系。
本实施例提供的技术方案,在获取原始网页后,通过音乐关系关键词对原始网页进行过滤,得到包含有音乐关系关键词的网页,并通过从包含有音乐关系关键词的网页中找出包含有不同音乐实体的信息的句子,进行语义分析,确定了句子包含的不同音乐实体之间的关系,从而能够挖掘出网络中提供的不同音乐实体之间的关系,确定有关联的音乐实体之间的关系,并提供给用户。
从所述原始网页中提取第一网页这一操作的一种优选实施方式,请参阅图2b,具体包括:操作221~操作222。
操作221中,从原始网页中识别出问答网页和论坛网页。
如前所述,绝大多数音乐实体之间的关系都存在于问答类型的网页和论坛网页中,因此本操作通过从原始网页中识别出问答网页和论坛网页,能够得到挖掘音乐实体之间的关系所需的网页资源。
由于同一个问答网站提供的问答网页具有一种或几种相同的网页模板,因此可以选取具有某种相同网页模板对应的问答网页中的任一问答网页,利用基于Webkit(一个开源的浏览器引擎)的HTML解析器如HTMLParser对该问答网页的HTML(Hyper Text Mark-up Language,超文本标记语言)源代码进行解析,得到一棵符合万维网联盟(W3C)标准的DOM(Document Object Model,文件对象模型)树。其中,DOM树是网页的一种表示方法。
然后,抽取DOM树结构的切词特征、结构重复特征和标签属性语义特征等特征,利用机器学习算法对这些特征进行训练,得到与该种相同网页模板对应的问答网页的模型,然后用该模型进行预测,可以从原始网页中识别出与该种相同网页模板对应的所有问答网页。
类似地,可以选取具有某种相同网页模板对应的论坛网页中的任一论坛网页,通过解析该论坛网页的HTML源代码,可以得到与该论坛网页对应的DOM树,抽取DOM树结构的结构的切词特征、结构重复特征和标签属性语义特征等特征,利用机器学习算法对这些特征进行训练,得到与该种相同网页模板对应的论坛网页的模型,然后用该模型进行预测,可以从原始网页中识别出与该种相同网页模板对应的所有论坛网页。
需要说明的是,相对于采用关键词过滤原始网页,得到问答网页和论坛网页,技术困难在于,由于问答网页和论坛网页每页的信息种类繁多,因此很难确定合适的关键词,导致筛选的网页中带来杂质,过滤得到的问答网页和论坛网页的准确度低。而DOM树利用了同一个网站提供的网页的共性网页模板特征,例如,结构重复特征和标签属性语义特征,避免了因关键词不合适而使筛选的网页中带有杂质,提高了得到的问答网页和论坛网页的准确度。
操作222中,从所述问答网页和论坛网页中查找所述音乐关系关键词,将包含有所述音乐关系关键词的问答网页或论坛网页作为所述第一网页。
需要说明的是,通过操作221从原始网页中识别出问答网页和论坛网页,能够得到挖掘音乐实体之间的关系所需的网页资源,实现了从原始网页到问答网页和论坛网页的过滤;本操作是对识别到的问答网页或论坛网页的进一步精细筛选,实现了从问答网页或论坛网页到包含有音乐关系关键词的网页的精细过滤。
本优选的实施方式,通过从原始网页到问答网页和论坛网页的初步识别过滤,能够得到挖掘音乐实体之间的关系所需的网页资源,利用音乐关系关键词,对识别到的问答网页或论坛网页的进一步精细筛选,实现了从问答网页或论坛网页到包含有音乐关系关键词的网页的精细过滤,准确地定位到了包含有音乐关系关键词的网页资源。
在操作240之后,本发明实施例提供的确定应用实体关系的方法还可以包括:
当所述至少两个音乐实体之间为翻唱、原唱、改编或原作曲关系时,将所述至少两个音乐实体的实体数据及关系信息对应存储,建立音乐关系库。
以原唱和翻唱关系为例进行说明。假设第一个音乐实体为梁静茹唱的《问》这首歌,该音乐实体的信息包括音乐名称“问”和演唱者“梁静茹”;第二个音乐实体为陈淑桦唱的《问》,该音乐实体的信息包括音乐名称“问”和演唱者“陈淑桦”;第三个音乐实体为林忆莲唱的《问》,该音乐实体的信息包括音乐名称“问”和演唱者“林忆莲”。从包含有音乐关系关键词“原唱”的网页中识别得到提问句子“歌曲问的原唱”和回答句子“陈淑桦”,并通过句子语义分析,从而挖掘得到这三个音乐实体之间的关系为:陈淑桦唱的《问》为《问》的原唱,其他人演唱的《问》为陈淑桦唱的《问》的翻唱,从而将这三个音乐实体对应的实体数据“问.mp3”、“问.wma”和“问.wma”及关系信息“陈淑桦唱的《问》为原唱”对应存储,加入到音乐关系库中。其中,可以采用列表或者关系图的形式进行对应存储。
需要说明的是,音乐关系库中音乐实体的实体数据可以涵盖大量的现有音乐实体。
本实施方式提供的音乐关系库可以配置于专门的音乐应用中,也可以配置于搜索引擎中,本实施方式对此不进行限制。
实施例二
本实施例在上述实施例的基础上,提供了判断所述第一网页中是否存在样本句这一操作的优选方案。
请参阅图3a,本实施例提供的确定音乐实体关系的方法中判断所述第一网页中是否存在样本句的流程具体包括:操作3a1~操作3a3。
操作3a1中,将所述第一网页中的文本切分为句子。
本操作中,切句的规则可以为若一行文本的右侧没有占满整行,则该行文本作为一个句子输出;也可以以断句标点符号如句号、分号和叹号等作为句子的切分分割符号,进行文本句子切分。
操作3a2中,将所述句子与音乐库中的音乐实体进行匹配,其中,音乐库存储有音乐实体数据和音乐实体信息。
这里可以使用多模匹配算法将句子与音乐库中的音乐实体进行匹配。其中,音乐实体数据是指音乐对象本身,格式可以为*.mp3,*.mp4、*.wma或*.wav等,其中,*代表任意字符串,通常为音乐名称。
所述音乐实体信息可以包括音乐名称、曲作者、词作者、演唱者和演奏者中的至少一项信息。
操作3a3中,当所述句子匹配到至少两个音乐实体时,判定所述第一网页中存在样本句。
例如,同时包含有两个音乐实体信息的句子可以直接匹配到音乐库中的两个音乐实体;句子也可以间接匹配至少两个音乐实体,例如,包含有“原唱”、“翻唱”或“改编”等词的句子,只给出了其中一个音乐实体信息。
本实施例的技术方案,在从原始网页提取到包含有音乐关系关键词的网页后,由于音乐实体关系涵盖在包含有音乐关系关键词的网页的句子中,因此通过对提取到的网页中的文本进行句子切分,以句子为单位,利用音乐库中的音乐实体信息匹配各句子,可以得到包含有至少两个音乐实体的信息的句子,准确地定位到了包含有音乐实体关系的句子资源。
上述音乐库的建立请参阅图3b,具体包括:操作3b1~操作3b3。
操作3b1中,从所述原始网页中提取音乐实体数据和信息。
在互联网中,音乐实体数据和信息主要以结构化数据的形式分布在各种提供音乐服务的站点上,由于同一个站点提供的网页具有一种或几种相同的网页模板,因此对于每个站点,可以选取该站点的具有某种相同网页模板对应的网页中的任一网页,利用基于Webkit的HTMLParser对该网页的HTML源代码进行解析,得到一棵符合W3C标准的DOM树。利用DOM树获取指定数据字段集的xpath集合,指定数据字段可以是演唱者、音乐名称、词作者或曲作者等,从而可以快速定位该种相同网页模板对应的网页中的音乐实体数据和信息。
具体可以首先获取同一个站点提供的网页模板的集合,即DOM树的集合,并从网页模板集合中查找得到与该站点的当前网页匹配的DOM树,通过遍历该DOM树,在遍历过程中会拼接出dom节点的xpath,通过比对xpath,即可获取音乐实体数据和信息。
操作3b2中,对提取的所述音乐实体数据和信息进行去重和融合处理,得到每个音乐实体的实体数据及实体信息。
在互联网中,音乐实体数据和信息主要以结构化数据的形式分布在各种提供音乐服务的站点的网页中,没有单独一个站点覆盖了所有的音乐实体数据和信息,而且各个站点提供的音乐实体数据和信息之间有重叠,因此在提取出音乐实体数据和信息后,需要进行所述去重和融合处理,以使得到的每个音乐实体的实体数据及实体信息不重不漏,提高了信息完整度,并降低了信息冗余度。
具体地,对于不同站点的相同音乐,当音乐的实体信息完全相同时,任意选择一首音乐实体数据及对应的实体信息;当音乐的实体信息不完全相同时,取站点质量较高的网页音乐实体信息作为该音乐实体的实体信息。当音乐的实体信息有缺失时,则通过其他站点页面相同实体信息名的值来补充。
操作3b3中,建立所述每个音乐实体的索引,生成所述音乐库。
本实施方式,通过从网络侧获取到的原始网页中提取音乐实体数据和信息,由于音乐实体数据和信息主要以结构化数据的形式分布在各种提供音乐服务的站点的网页中,没有单独一个站点覆盖了所有的音乐实体数据和信息,而且各个站点提供的音乐实体数据和信息之间有重叠,因此在提取出音乐实体数据和信息后,通过去重和融合处理,使得得到的音乐库中每个音乐实体的实体数据及实体信息不重不漏,提高了信息完整度,并降低了信息冗余度。
实施例三
请参阅图4,本实施例提供的一种确定音乐实体关系的装置包括:网页获取模块410、第一提取模块420、样本判断模块430和关系确定模块440。
其中,网页获取模块410用于从网络侧获取原始网页;第一提取模块420用于从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页;样本判断模块430用于判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子;关系确定模块440用于通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
本实施例的技术方案,在获取原始网页后,通过音乐关系关键词对原始网页进行过滤,得到包含有音乐关系关键词的网页,通过音乐实体的信息,可以从包含有音乐关系关键词的网页中识别得到包含有不同音乐实体的信息的句子,并通过句子语义分析,从而可以从包含有不同音乐实体的信息的句子中挖掘得到对应的音乐实体之间的关系。
在上述方案中,所述第一提取模块420具体可以用于:
从原始网页中识别出问答网页和论坛网页;
从所述问答网页和论坛网页中查找所述音乐关系关键词,将包含有所述音乐关系关键词的问答网页或论坛网页作为所述第一网页。
在上述方案中,所述样本判断模块430具体可以用于:
将所述第一网页中的文本切分为句子;
将所述句子与音乐库中的音乐实体进行匹配,其中,所述音乐库存储有音乐实体数据和音乐实体信息;
当所述句子匹配到至少两个音乐实体时,判断所述第一网页中存在样本句。
在上述方案中,所述装置还可以包括:第二提取模块、数据处理模块和第一建立模块。
其中,第二提取模块用于从所述原始网页中提取音乐实体数据和信息;数据处理模块用于对提取的所述音乐实体数据和信息进行去重和融合处理,得到每个音乐实体的实体数据及实体信息;第一建立模块用于建立所述每个音乐实体的索引,生成所述音乐库。
在上述方案中,所述装置还可以包括:第二建立模块,用于当所述关系确定模块确定所述至少两个音乐实体之间为翻唱、原唱、改编或原作曲关系时,将所述至少两个音乐实体的实体数据及关系信息对应存储,建立音乐关系库。
本发明实施例提供的确定音乐实体关系的装置可执行本发明任意实施例所提供的确定音乐实体关系的方法,具备执行方法的相应功能模块和有益效果。
实施例四
本发明实施例的方法可以由配置以硬件和/或软件实现的查询处理装置来执行,该实现装置典型的是配置于能够提供音乐搜索服务的***例如搜索引擎中。
请参阅图5a,本实施例提供的一种查询处理方法包括:操作510~操作530。
操作510中,接收待检索的问题。
例如,终端接收到用户在浏览器的搜索交互界面中输入的问题后,生成消息发送给服务器端或搜索引擎,服务器或搜索引擎接收到待检索的问题。其中,发送的消息中携带有待检索的问题。
操作520中,当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息。
其中,音乐实体库中音乐实体之间的关系可以通过实施例一或实施例二提供的确定音乐实体关系的方法得到,此处不再赘述。
其中,音乐实体之间的关系可以为翻唱、原唱、改编或原作曲等关系。
本操作可以有多种实施方式,例如包括下述其中一种:
根据音乐名称查找与所述音乐名称对应的音乐实体的原唱、翻唱、原作曲或改编曲的信息。
根据音乐名称及作曲者查找与所述音乐名称及作曲者对应的音乐实体的原作曲或改编曲的信息。
根据歌曲名称及演唱者查找与所述音乐名称及作曲者对应的歌曲的原唱或翻唱的信息。
操作530中,返回所述对应的音乐实体关系信息。
在返回所述对应的音乐实体关系信息之后,还可以进一步展示在搜索结果中,为用户提供与包含有音乐信息的检索式对应的音乐实体关系信息。
在根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息之后,还可以包括:返回所述对应的音乐实体关系信息对应的音乐实体数据。
进一步地,可以展示所述对应的音乐实体关系信息,以及对应的音乐实体数据。具体是将现有的搜索结果与所述对应的音乐实体关系信息进行拼装,展示给前端用户。
本实施例的技术方案,在接收待检索的问题之后,当所述问题中包含有音乐信息时,在包含有采用本发明任意实施例提供的确定音乐实体关系的方法形成的音乐实体之间的关系信息,以及包含有音乐实体数据的音乐实体关系库中匹配所述问题中包含的音乐信息,能够得到与所述问题中的音乐信息对应的音乐实体关系信息。
下面结合图5b-图5f对不同的展示方式分别进行说明。
第一种展示方式,当用户直接搜索音乐的原唱时,在搜索结果中直接展示与原唱对应的、且用户可以试听的卡片。
图5b中,用户通过百度搜索引擎搜索“蔡国庆花开在旅途原唱”时,在搜索结果中展示音乐名称为“花咲く旅路”、歌手为“原由子”的试听卡片,用户可以直观地获知与搜索的音乐关联的音乐名称为“花开的路途”、歌手为“蔡国庆”的音乐版本与音乐名称为“花咲く旅路”、歌手为“原由子”的音乐版本之间的关系,具体是,前者并非原唱,后者才是原唱,展示了丰富而准确的音乐实体关系,有利于将用户引导至用户需要的搜索结果。
第二种展示方式,当用户直接搜索音乐的翻唱时,在搜索结果中直接展示与翻唱对应的、且用户可以试听的卡片。本展示方式与第一种展示方式类似。
图5c中,用户通过百度搜索引擎搜索“Kiroro未来へ的翻唱”时,在搜索结果中展示音乐名称为“后来”、歌手为“刘若英”的试听卡片,用户可以直观地获知与搜索的音乐关联的音乐名称为“未来”、歌手为“Kiroro”的音乐版本与音乐名称为“后来”、歌手为“刘若英”的音乐版本之间的关系,具体是,后者是对前者的一种翻唱,展示了丰富而准确的音乐实体关系,有利于将用户引导至用户需要的搜索结果。
第三种展示方式,当用户搜索的某个音乐含有多个版本时,在搜索结果中以列表展示出各个版本,并标识出原唱。其中,所述多个版本可以歌词与曲谱均相同,但演唱者不同,也可以曲谱相同,但歌词不同,也即通过重新填词进行翻唱。
图5d中,用户通过百度搜索引擎搜索“问”时,搜索结果以列表形式展现多个版本,并将音乐“问”的原唱版本直接在搜索结果中进行标示,具体的,音乐“问”的演唱者为“陈淑桦”对应原唱版本,在该版本对应位置标识有“原唱”,用户可以直观地获知与搜索的音乐关联的多个版本之间的关系,展示了丰富而准确的音乐实体关系,有利于将用户引导至用户需要的搜索结果。
第四种展示方式,用户搜索的歌曲有原唱时,在试听卡片上给出原唱的链接,用户可以直接在卡片上试听原唱,当试听完成后,直接返回到翻唱。
请参阅图5e和图5f。图5e中,用户通过百度搜索引擎搜索“老男孩歌曲”时,搜索结果中的试听卡片上给出原唱的链接“试听原唱版本《ありがとう》大桥卓弥”,用户可以直接在卡片上试听原唱,当试听完成后,试听卡片上提供翻唱的链接“返回至《老男孩》筷子兄弟”(如图5f所示),可以直接返回到翻唱。试听卡片中展示了丰富而准确的音乐实体关系,有利于将用户引导至用户需要的搜索结果。
实施例五
请参阅图6,为本发明实施例五提供的一种查询处理装置的结构示意图。该装置包括:问题接收模块610、关系查找模块620和返回模块630。
其中,问题接收模块610用于接收待检索的问题;关系查找模块620用于当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息;返回模块630用于返回所述对应的音乐实体关系信息。
本实施例的技术方案,在接收待检索的问题之后,当所述问题中包含有音乐信息时,在包含有采用本发明任意实施例提供的确定音乐实体关系的方法形成的音乐实体之间的关系信息,以及包含有音乐实体数据的音乐实体关系库中匹配所述问题中包含的音乐信息,能够得到与所述问题中的音乐信息对应的音乐实体关系信息。
在上述方案中,所述关系查找模块620具体可以用于:
根据音乐名称查找与所述音乐名称对应的音乐实体的原唱、翻唱、原作曲或改编曲的信息;
或者,
根据音乐名称及作曲者查找与所述音乐名称及作曲者对应的音乐实体的原作曲或改编曲的信息;
或者,
根据歌曲名称及演唱者查找与所述音乐名称及作曲者对应的歌曲的原唱或翻唱的信息。
在上述方案中,所述返回模块630还可以用于:返回所述对应的音乐实体关系信息对应的音乐实体数据。
本发明实施例提供的查询处理装置可执行本发明任意实施例所提供的查询处理方法,具备执行方法的相应功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种确定音乐实体关系的方法,其特征在于,包括:
从网络侧获取原始网页;
从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页;
判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子;
通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
2.根据权利要求1所述的方法,其特征在于,从所述原始网页中提取第一网页,包括:
从原始网页中识别出问答网页和论坛网页;
从所述问答网页和论坛网页中查找所述音乐关系关键词,将包含有所述音乐关系关键词的问答网页或论坛网页作为所述第一网页。
3.根据权利要求1所述的方法,其特征在于,判断所述第一网页中是否存在样本句,包括:
将所述第一网页中的文本切分为句子;
将所述句子与音乐库中的音乐实体进行匹配,其中,所述音乐库存储有音乐实体数据和音乐实体信息;
当所述句子匹配到至少两个音乐实体时,判定所述第一网页中存在样本句。
4.根据权利要求3所述的方法,其特征在于,所述音乐库的建立,包括:
从所述原始网页中提取音乐实体数据和信息;
对提取的所述音乐实体数据和信息进行去重和融合处理,得到每个音乐实体的实体数据及实体信息;
建立所述每个音乐实体的索引,生成所述音乐库。
5.根据权利要求1-4任一所述的方法,其特征在于,通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系之后,还包括:
当所述至少两个音乐实体之间为翻唱、原唱、改编或原作曲关系时,将所述至少两个音乐实体的实体数据及关系信息对应存储,建立音乐关系库。
6.一种查询处理方法,其特征在于,包括:
接收待检索的问题;
当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息;
返回所述对应的音乐实体关系信息。
7.根据权利要求6所述的方法,其特征在于,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,包括:
根据音乐名称查找与所述音乐名称对应的音乐实体的原唱、翻唱、原作曲或改编曲的信息;
或者,
根据音乐名称及作曲者查找与所述音乐名称及作曲者对应的音乐实体的原作曲或改编曲的信息;
或者,
根据歌曲名称及演唱者查找与所述音乐名称及作曲者对应的歌曲的原唱或翻唱的信息。
8.根据权利要求6或7所述的方法,其特征在于,在根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息之后,所述方法还包括:
返回所述对应的音乐实体关系信息对应的音乐实体数据。
9.一种确定音乐实体关系的装置,其特征在于,包括:
网页获取模块,用于从网络侧获取原始网页;
第一提取模块,用于从所述原始网页中提取第一网页,所述第一网页为包含有音乐关系关键词的网页;
样本判断模块,用于判断所述第一网页中是否存在样本句,所述样本句为包含有至少两个音乐实体的信息的句子;
关系确定模块,用于通过对样本句进行语义分析,确定所述至少两个音乐实体之间的关系。
10.根据权利要求9所述的装置,其特征在于,所述第一提取模块具体用于:
从原始网页中识别出问答网页和论坛网页;
从所述问答网页和论坛网页中查找所述音乐关系关键词,将包含有所述音乐关系关键词的问答网页或论坛网页作为所述第一网页。
11.根据权利要求9所述的装置,其特征在于,所述样本判断模块具体用于:
将所述第一网页中的文本切分为句子;
将所述句子与音乐库中的音乐实体进行匹配,其中,所述音乐库存储有音乐实体数据和音乐实体信息;
当所述句子匹配到至少两个音乐实体时,判定所述第一网页中存在样本句。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于从所述原始网页中提取音乐实体数据和信息;
数据处理模块,用于对提取的所述音乐实体数据和信息进行去重和融合处理,得到每个音乐实体的实体数据及实体信息;
第一建立模块,用于建立所述每个音乐实体的索引,生成所述音乐库。
13.根据权利要求9-12任一所述的装置,其特征在于,所述装置还包括:
第二建立模块,用于当所述关系确定模块确定所述至少两个音乐实体之间为翻唱、原唱、改编或原作曲关系时,将所述至少两个音乐实体的实体数据及关系信息对应存储,建立音乐关系库。
14.一种查询处理装置,其特征在于,包括:
问题接收模块,用于接收待检索的问题;
关系查找模块,用于当所述问题中包含有音乐信息时,根据所述音乐信息从音乐实体关系库中查找对应的音乐实体关系信息,其中,音乐实体关系库存储有音乐实体数据及音乐实体之间的关系信息;
返回模块,用于返回所述对应的音乐实体关系信息。
15.根据权利要求14所述的装置,其特征在于,所述关系查找模块具体用于:
根据音乐名称查找与所述音乐名称对应的音乐实体的原唱、翻唱、原作曲或改编曲的信息;
或者,
根据音乐名称及作曲者查找与所述音乐名称及作曲者对应的音乐实体的原作曲或改编曲的信息;
或者,
根据歌曲名称及演唱者查找与所述音乐名称及作曲者对应的歌曲的原唱或翻唱的信息。
16.根据权利要求14或15所述的装置,其特征在于,所述返回模块还用于:返回所述对应的音乐实体关系信息对应的音乐实体数据。
CN201410749432.2A 2014-12-09 2014-12-09 确定音乐实体关系的方法和装置及查询处理方法和装置 Active CN104484379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410749432.2A CN104484379B (zh) 2014-12-09 2014-12-09 确定音乐实体关系的方法和装置及查询处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410749432.2A CN104484379B (zh) 2014-12-09 2014-12-09 确定音乐实体关系的方法和装置及查询处理方法和装置

Publications (2)

Publication Number Publication Date
CN104484379A true CN104484379A (zh) 2015-04-01
CN104484379B CN104484379B (zh) 2018-06-12

Family

ID=52758920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410749432.2A Active CN104484379B (zh) 2014-12-09 2014-12-09 确定音乐实体关系的方法和装置及查询处理方法和装置

Country Status (1)

Country Link
CN (1) CN104484379B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717062A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 音乐搜索及车载音乐播放方法、装置、设备以及存储介质
CN111552778A (zh) * 2020-04-26 2020-08-18 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN110245197B (zh) * 2019-05-20 2022-01-28 北京百度网讯科技有限公司 一种全网实体关联方法及***
WO2023040808A1 (zh) * 2021-09-18 2023-03-23 华为技术有限公司 一种网页检索方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071422A (zh) * 2006-06-15 2007-11-14 腾讯科技(深圳)有限公司 一种音乐文件搜索处理***及方法
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071422A (zh) * 2006-06-15 2007-11-14 腾讯科技(深圳)有限公司 一种音乐文件搜索处理***及方法
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717062A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 音乐搜索及车载音乐播放方法、装置、设备以及存储介质
CN110717062B (zh) * 2018-07-11 2024-03-22 斑马智行网络(香港)有限公司 音乐搜索及车载音乐播放方法、装置、设备以及存储介质
CN110245197B (zh) * 2019-05-20 2022-01-28 北京百度网讯科技有限公司 一种全网实体关联方法及***
CN111552778A (zh) * 2020-04-26 2020-08-18 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备
CN111552778B (zh) * 2020-04-26 2024-05-14 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备
CN112948603A (zh) * 2021-03-08 2021-06-11 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN112948603B (zh) * 2021-03-08 2023-05-05 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN113609309B (zh) * 2021-08-16 2024-02-06 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
WO2023040808A1 (zh) * 2021-09-18 2023-03-23 华为技术有限公司 一种网页检索方法及相关设备

Also Published As

Publication number Publication date
CN104484379B (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
US7739257B2 (en) Search engine
US8381095B1 (en) Automated document revision markup and change control
CN104484379A (zh) 确定音乐实体关系的方法和装置及查询处理方法和装置
US10423649B2 (en) Natural question generation from query data using natural language processing system
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
Arendarenko et al. Ontology-based information and event extraction for business intelligence
CN101192234A (zh) 一种基于网页抽取的搜索***及搜索方法
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
Kumar Apache Solr search patterns
Chieze et al. An automatic system for summarization and information extraction of legal information
CN103020311A (zh) 一种用户检索词的处理方法及***
Cuculovic et al. Semantics to the rescue of document‐based XML diff: A JATS case study
Adrian et al. Epiphany: Adaptable rdfa generation linking the web of documents to the web of data
KR102298397B1 (ko) 인용 유형 기반의 인용 관계 분석 방법 및 시스템
Yoon et al. A conference paper exploring system based on citing motivation and topic
CN103870590A (zh) 具有报错特征的网页识别方法和装置
YesuRaju et al. A language independent web data extraction using vision based page segmentation algorithm
Neubert Leveraging SKOS to Trace the Overhaul of the STW Thesaurus for Economics
Chou et al. Mining features for web ner model construction based on distant learning
Francom et al. Creating a web-based lexical corpus and information-extraction tools for the Semitic language Maltese
Tian et al. AutoCom: Automatic Comment Generation for C Code.
AU2012200686B2 (en) Improved search engine
AU2006200426B2 (en) Improved search engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant