CN104216892B

CN104216892B - 歌曲搜索中非语义、非词组的切换方法

Info

Publication number: CN104216892B
Application number: CN201310211199.8A
Authority: CN
Inventors: 王志常
Original assignee: Yeelion Online Network Technology Beijing Co Ltd
Current assignee: Yeelion Online Network Technology Beijing Co Ltd
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2018-01-02
Anticipated expiration: 2033-05-31
Also published as: CN104216892A

Abstract

歌曲搜索中非语义、非词组的切换方法。本发明提供了一种信息处理方法和信息处理装置，其可以用于对信息进行切词处理，该信息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法，但又不是机械的叠加，形成一种新的复式切词方法，特别是对于歌曲信息搜索领域，在该方法的执行过程中，根据具体的情况针对歌曲信息搜索领域的特点以及用户搜索串的特点进行相应的判断，并分别根据不同的情况使用不同的切词和搜索方案，避免采用复杂的语义切词等切词方案，从而极大的提高搜索的效率和准确度。

Description

歌曲搜索中非语义、非词组的切换方法

技术领域

本申请涉及一种信息处理方法和信息处理装置，特别是涉及一种在信息搜索领域中对信息进行复式切词的切词处理方法和装置，尤其是歌曲搜索中非语义、非词组的切词方法和装置。

背景技术

在信息搜索领域，影响搜索结果质量的一个非常重要的因素就是切词技术。也就是在对搜索素材和用户的查询语句进行处理的时候，如何将文本切词成多个独立的单词，针对每个单词进行搜索然后做结果归并，这关系到检索的效率及准确度。

中文进行切词的时候，由于汉语的词是由单个字组成，并且在不同的语境下相同的字会有不同的组合意义，这导致汉语切词的复杂性很很高。比如：“日本人喜欢和服和樱花”和“我们需要食品和服装”中的“和服”这两个词分别是不同含义的，甚至于在后者中都不是一个词。

中文切词分为没有词典的一元、二元机械切词和词典辅助的最大匹配式切词。在通用搜索引擎领域，一般都使用基于词典的切词方案，同时和一些规则相结合，尽可能地按照文章原有的语义进行切词，然而，采用语义切词，需要综合考虑多种规则，而且硬件要求也高，通常需要pc机或较为复杂的***才能实现。

但是在特定信息搜索领域，比如在歌曲搜索领域，需要进行搜索的领域一般只有歌手、歌曲和专辑等有限的几个域。歌曲在这几个域上的信息的语义性并不强。比如歌手领域，就是人名，没有什么语义包含在其中。歌曲名和专辑名相对有更多的语义，但是一般都是短文本，十几个汉字之内，不会有太丰富的语义。因此按照词典进行切词的意义并不大。甚至于按照词典切词会切出错误的结果。使用基本的一元切词或者二元切词反而有更好的匹配效果，并且，基于词典的切词方式，在实际应用中发现的问题是切词粒度较高，容错性较差，召回率在某些时候会比较低。

对于一元切词，其好处是切词的粒度小，在容错匹配的时候有较好的效果，召回率高。但是一元切词会导致每个词的文档列表过长，在数据归并的时候开销非常大。

对于二元切词，二元切词是在一元切词的基础上提出的方案，可以有效地减少词的文档列表长度，提高搜索的效率，但是在容错处理方面较差一些，召回率低一些。

发明内容

本发明的目的是提供一种信息处理方法，其可以用于对信息进行切词处理，该信息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法，但又不是机械的叠加，形成一种新的复式切词方法，在该方法的执行过程中，根据具体的情况针对歌曲信息搜索领域的特点以及用户搜索串的特点进行相应的判断，并分别根据不同的情况使用不同的切词和搜索方案，从而极大的提高搜索的效率和准确度。

本发明的另一个目的是提供一种信息处理的装置，采用上述信息处理方法针对不同的信息执行相应的切词和搜索功能，并能很快并准确的得到查询和搜索结果，该装置是根据相应的搜索领域的信息特点，定制相应的模块而得到的，避免了采用复杂的***，同时还能大大增强搜索的效率和准确性。

本发明的所述信息处理方法所采取的技术方案如下：一种信息处理方法，其用于信息搜索领域中对信息进行复式切词处理，包括以下步骤：

1)建立属性词典，根据需要查询的信息的属性，建立相应的属性词典，将属性词典存储到相应的属性词典存储模块；

2)通过查询信息接收模块接收输入的查询信息，并将查询信息存储到相应的查询信息存储模块，

3)对接收到的查询信息进行首次判断，即判断是否属于最近预定时间段查询过的信息，如果是，则直接将最近的查询结果显示在显示模块上，同时将查询结果存储到查询信息存储模块中；

4)对接收到的查询信息进行第二次判断，判断查询信息是否属于属性词典中的信息，如果是，则将词典信息存储模块中存储的结果显示在显示模块上；

5)在判断不属于属性词典中的信息后，对接收到的查询信息采用复式切词模块进行复式切词；

6)采用搜索模块进行搜索；

7)将搜索到的结果显示在显示模块上。

进一步地，本发明上述方法所述的信息为歌曲信息。

进一步地，本发明上述方法的步骤1)中的属性词典是由歌曲库中的歌手名、歌曲名和专辑名建立的歌曲属性词典。

进一步地，本发明上述方法的步骤5)中的复式切词为混合切词，即一元切词和二元切词顺次交叠出现，每个二元词是两边的一元词的组合。

进一步地，本发明上述方法的步骤5)中的复式切词，还可以是根据两个词在文档库中的相关度进行切词，同时根据其各自的TF/IDF得分，进行相应的丢弃处理。

进一步地，本发明上述方法的步骤6)中的搜索首先是按照二元词依次进行搜索和归并，如果根据前后的一元词的文档列表长度判断二元词文档列表过短，则将针对该二元词的搜索和归并转换为对前后两个一元词的搜索和归并。

本发明的所述信息处理装置所采取的技术方案如下：一种信息处理装置，其可以实现对信息搜索领域中的信息进行复式切词，并将结果快速准确的显示，该装置包括以下模块：

属性词典存储模块，用于存储相应的信息属性词典；

查询信息接收模块，用于接收查询信息；

第一判断模块，用于判断输入的查询是否是最近预定时间段查询过的信息；

查询信息存储模块，用于存储查询信息及查询结果；

第二判断模块，用于判断查询信息是否属于属性词典中的信息；

复式切词模块，用于对接收到的查询信息进行一元二元混合切词；

搜索模块，用于对切词后的查询信息进行搜索；

显示模块，用于显示搜索的结果；

打印模块，用于将搜索的结果进行打印输出；

控制模块，用于控制上述模块的工作。

进一步地，本发明上述装置中的上述各模块可以根据需要增减。

该信息处理方法和信息处理装置采用了复式切词方法，能够克服背景技术中单一切词方法存在的各种问题，解决了效率和召回率之间的矛盾，可以同时满足信息查询速度和准确度的要求，达到最优的搜索效果，该信息处理装置在实现上述功能的同时，还可以适应于各种场合，如KTV等，根据不同的需要增减相应的功能模块，采用相应的硬件器件，制作成不同规格大小的机器，极大地降低了成本。

附图说明

附图1为本发明方法的流程图；

附图2为本发明装置的框图。

具体实施方式

以下结合附图和具体实施例对本发明进行详细的说明。

本实施例以歌曲信息搜索为例，参见附图1，首先是建立属性词典，根据需要查询的信息的属性，此处为歌曲相关信息，因此将歌曲库中的歌手名，歌曲名和专辑名建立一个词典，即歌曲属性词典，并且将完整的歌曲名、歌手名和专辑名作为切词出来的一个精准词，然后对这三个域按照一元和二元的方式分别进行切词，得到更多细粒度的词，并将建立好的属性词典存储到词典信息存储模块中。具体地，在建立歌曲属性词典的时候，会将所有的歌曲名、歌手名、专辑名、歌手+歌曲、歌曲+专辑这样的有效词汇存储到词典中，同时在词典中存储的同时还标识出该词的类型，如歌手，专辑等类型。在存储入词典的时候，进行归一化处理

当接到一个用户的查询请求之后，首先判断是否属于最近预定时间段查询过的信息，如果是，则直接将最近的查询结果显示在显示模块上，同时将查询结果存储到查询信息存储模块中。如果不是，则进行第二次判断，即从字典中查询是否是一个精准的歌曲属性，由于用户一般都是按照歌曲名或歌手名搜索歌曲的，因此直接命中的概率很高。如果是一个精准词，那么直接可以得到与之相关联的歌曲列表，并将其显示在显示模块上。

如果第二次判断不属于属性词典中的歌曲属性，则进入复试切词，即进行一元二元混合切词。

一元二元混合切词的方式举例如下，比如“中华人民共和国”被切词为“中/中华/华/华人/人/人民/民/民共/共/共和/和/和国”，即采取将一元词和二元词交叠出现，每个二元词是两边的一元词的组合。

在进行搜索的时候，首先依次按照二元词进行搜索和归并，但是如果根据前后的一元词的文档列表长度判断二元词文档列表过短，若短于预定的阈值，则将针对该二元词的搜索和归并转换为对前后两个一元词的搜索和归并。

在进行搜索切词的时候，还可以考虑两个词在文档库中的相关度。根据两个词的关联度，和它们各自的TF/IDF得分，来进行丢弃处理。

参见图2，是对于该歌曲信息查询的一种信息处理装置，其可以实现对信息搜索领域中的信息进行复式切词，并将结果快速准确的显示，该装置包括以下模块：属性词典存储模块，用于存储相应的信息属性词典；查询信息接收模块，用于接收用户的查询信息；第一判断模块，用于判断用户的输入信息是否是最近预定时间段查询过的信息；查询信息存储模块，用于存储查询信息及查询结果；第二判断模块，用于判断查询信息是否属于属性词典中的信息；复式切词模块，用于对接收到的查询信息进行一元二元混合切词，具体是将一元词和二元词交叠出现，每个二元词是两边的一元词的组合；搜索模块，用于对切词后的查询信息进行搜索，依次按照二元词进行搜索和归并，但是如果根据前后的一元词的文档列表长度判断二元词文档列表过短，若短于预定的阈值，则将针对该二元词的搜索和归并转换为对前后两个一元词的搜索和归并；显示模块，用于显示搜索的结果；打印模块，用于将搜索的结果进行打印输出；控制模块，用于控制各模块的工作。上述存储模块可以根据需要采取各种存储器件，如ram、rom等，控制模块可以根据需要与判断模块、搜索模块集成在一起，可以是通用的CPU控制处理器，也可以是各种嵌入式控制处理器，如单片机、ARM、FPGA等。

本发明上述装置中的相应的方法步骤以及上述各相应模块可以根据需要增减，如可以根据需要省略相应步骤或模块，如不进行首次判断或第二次判断等。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时本领域的一般技术人员，根据本发明的实施例，在具体实施方式以及应用范围上均会有改变之处，综上所述，本发明书内容不应理解为对本发明的限制。

Claims

1.一种信息处理方法，其特征在于包括以下步骤：

1)建立属性词典，根据需要查询的信息的属性，建立相应的属性词典，将属性词典存储到相应的属性词典存储模块，其中，所述的信息为歌曲信息，歌曲信息具体为歌手名、歌曲名和专辑名；

2)通过查询信息接收模块接收用户的查询信息，并将查询信息存储到相应的查询信息存储模块，

5)在判断不属于属性词典中的信息后，对接收到的查询信息采用复式切词模块进行复式切词，其中，采用复式切词模块进行复式切词具体指采取将一元词和二元词交叠出现，每个二元词是两边的一元词的组合；

6)采用搜索模块进行搜索；

7)将搜索到的结果显示在显示模块上。

2.根据权利要求1所述的信息处理方法，其特征是：所述步骤5)中的复式切词为混合切词，即一元切词和二元切词顺次交叠出现，每个二元词是两边的一元词的组合。

3.根据权利要求2所述的信息处理方法，其特征是：所述步骤5)中的复式切词为根据两个词在文档库中的相关度进行切词，同时根据其各自的TF/IDF得分，进行相应的丢弃。

4.根据权利要求1或2所述的信息处理方法，其特征是：所述步骤6)中搜索首先是按照二元词依次进行搜索和归并，如果根据前后的一元词的文档列表长度判断二元词文档列表过短，则将针对该二元词的搜索和归并转换为对前后两个一元词的搜索和归并。

5.一种信息处理装置，用于对信息搜索领域中的信息进行复式切词，并将结果快速准确的显示，该装置包括以下模块：

属性词典存储模块，用于存储相应的信息属性词典，其中，所述属性词典是由歌曲库中的歌手名、歌曲名和专辑名建立的歌曲属性词典；

查询信息接收模块，用于接收查询信息；

第一判断模块，用于判断输入的查询信息是否是最近预定时间段查询过的信息；

查询信息存储模块，用于存储查询信息及查询结果；

复式切词模块，用于对接收到的查询信息进行一元二元混合切词，其中，所述复式切词模块对接收到的查询信息进行一元二元混合切词具体指采取将一元词和二元词交叠出现，每个二元词是两边的一元词的组合；

搜索模块，用于对切词后的查询信息进行搜索；

显示模块，用于显示搜索的结果；

打印模块，用于将搜索的结果进行打印输出。