CN109002184A - 一种输入法候选词的联想方法和装置 - Google Patents
一种输入法候选词的联想方法和装置 Download PDFInfo
- Publication number
- CN109002184A CN109002184A CN201710424511.XA CN201710424511A CN109002184A CN 109002184 A CN109002184 A CN 109002184A CN 201710424511 A CN201710424511 A CN 201710424511A CN 109002184 A CN109002184 A CN 109002184A
- Authority
- CN
- China
- Prior art keywords
- candidate word
- proper noun
- information
- classification information
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种输入法候选词的联想方法和装置,所述方法包括:获取已上屏的文本信息;判断所述文本信息是否为专有名词;若是,则识别所述专有名词的类别信息;获取与所述类别信息相匹配的至少一个候选词;展现所述至少一个候选词,解决了现有技术中在用户输入人名、地名等专有名词后,无法通过输入法的联想功能向用户继续展现或推荐候选词的问题,本发明实施例通过识别专有名词的类别信息,从而按照对应的类别信息进行联想推荐,减少了用户的输入操作过程,提高了用户的输入速度。
Description
技术领域
本发明涉及输入法技术领域,特别是涉及一种输入法候选词的联想方法和一种输入法候选词的联想装置。
背景技术
输入法一般都具有联想功能,当用户上屏某一个词之后,输入法可以继续展现多个与该词具有特定关系的候选词供用户选择。例如,如图1所示,是现有技术中输入法的联想功能示意图,当用户在上屏“吃”这个词之后,输入法可以联想出“饭”、“火锅”等候选词供用户选择,从而大大方便了用户的输入操作。
输入法的联想功能通常都是基于词与词之间的二元关系或多元关系来实现的。例如,对于“吃”和“火锅”两个词,由于能够组词成“吃火锅”,则可以认为“吃”和“火锅”两个词具有二元关系。而对于“吃”、“大”和“苹果”三个词,由于能够组词成“吃大苹果”,则可以认为“吃”、“大”和“苹果”三个词具有三元关系,以此类推,当多个词之间具有上述关系时,就是多元关系。
但是,对于人名、地名等专有名词通常很少有多元关系的联想,同时受制于输入法的词库大小的限制,这类专有名词很难被包括在上述形成的二元关系或多元关系中,使得当上屏某个专有名词之后,输入法很难通过联想功能向用户展现与该专有名词相匹配的候选词,用户必须重新输入才能获得想要的候选词。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种输入法候选词的联想方法和相应的一种输入法候选词的联想装置。
为了解决上述问题,本发明实施例公开了一种输入法候选词的联想方法,包括:
获取已上屏的文本信息;
判断所述文本信息是否为专有名词;
若是,则识别所述专有名词的类别信息;
获取与所述类别信息相匹配的至少一个候选词;
展现所述至少一个候选词。
可选地,所述专有名词包括人名和/或地名。
可选地,所述判断所述文本信息是否为专有名词的步骤包括:
遍历预置数据库,所述预置数据库包括多个预设专有名词,每个预设专有名词具有相应的类别信息;
判断任一预设专有名词是否与所述文本信息相同;
若是,则判断所述文本信息是专有名词,并获取所述专有名词的类别信息。
可选地,所述预置数据库包括终端的通讯录信息,所述识别所述专有名词的类别信息的步骤包括:
当所述文本信息与通讯录中任一人名重合时,识别所述专有名词的类别信息为普通人名类别。
可选地,每个类别信息包括与所述类别信息相匹配的至少一个候选词,所述获取与所述类别信息相匹配的至少一个候选词的步骤包括:
从所述预置数据库中获取与所述专有名词的类别信息相匹配的至少一个候选词。
可选地,所述预置数据库通过如下方式生成:
采集多个专有名词;
对所述多个专有名词进行分类,以生成多个类别信息;
分别获取与每个类别信息具有特定关系的候选词;
依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
可选地,所述特定关系包括二元关系或多元关系,所述分别获取与每个类别信息具有特定关系的候选词的步骤包括:
采集语料信息,所述语料信息分别包括多个分词;
提取所述多个分词中的专有名词以及所述专有名词对应的类别信息;
分别统计与所述多个分词中的专有名词具有二元关系或多元关系的候选词,作为所述专有名词对应的类别信息的候选词。
可选地,还包括:
当接收到用户选定任一候选词的指令时,上屏所述候选词。
为了解决上述问题,本发明实施例公开了一种输入法候选词的联想装置,包括:
文本信息获取模块,用于获取已上屏的文本信息;
专有名词判断模块,用于判断所述文本信息是否为专有名词;
类别信息识别模块,用于所述文本信息为专有名词时,识别所述专有名词的类别信息;
候选词获取模块,用于获取与所述类别信息相匹配的至少一个候选词;
候选词展现模块,用于展现所述至少一个候选词。
可选地,所述专有名词包括人名和/或地名。
可选地,所述专有名词判断模块包括:
遍历子模块,用于遍历预置数据库,所述预置数据库包括多个预设专有名词,每个预设专有名词具有相应的类别信息;
判断子模块,用于判断任一预设专有名词中是否与所述文本信息相同;
获取子模块,用于在存在预设专有名词与所述文本信息相同时,判断所述文本信息是专有名词,并获取所述专有名词的类别信息。
可选地,所述预置数据库包括终端的通讯录信息,所述类别信息识别模块包括:
识别子模块,用于当所述文本信息与通讯录中任一人名重合时,识别所述专有名词的类别信息为普通人名类别。
可选地,每个类别信息包括与所述类别信息相匹配的至少一个候选词,所述候选词获取模块包括:
候选词获取子模块,用于从所述预置数据库中获取与所述专有名词的类别信息相匹配的至少一个候选词。
可选地,所述预置数据库通过调用如下模块生成:
采集模块,用于采集多个专有名词;
分类模块,用于对所述多个专有名词进行分类,以生成多个类别信息;
获取模块,用于分别获取与每个类别信息具有特定关系的候选词;
生成模块,用于依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
可选地,所述特定关系包括二元关系或多元关系,所述获取模块包括:
语料信息采集子模块,用于采集语料信息,所述语料信息分别包括多个分词;
专有名词提取子模块,用于提取所述多个分词中的专有名词以及所述专有名词对应的类别信息;
候选词统计子模块,用于分别统计与所述多个分词中的专有名词具有二元关系或多元关系的候选词,作为所述专有名词对应的类别信息的候选词。
可选地,所述装置还包括:
候选词上屏模块,用于当接收到用户选定任一候选词的指令时,上屏所述候选词。
为了解决上述问题,本发明实施例公开了一种输入法候选词的联想装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取已上屏的文本信息;
判断所述文本信息是否为专有名词;
若是,则识别所述专有名词的类别信息;
获取与所述类别信息相匹配的至少一个候选词;
展现所述至少一个候选词。
与背景技术相比,本发明实施例包括以下优点:
本发明实施例,通过获取已上屏的文本信息,并判断所述文本信息是否为专有名词,若是,则可以通过识别所述专有名词的类别信息,然后获取与所述类别信息相匹配的至少一个候选词,进而展现所述至少一个候选词,解决了现有技术中在用户输入人名、地名等专有名词后,无法通过输入法的联想功能向用户继续展现或推荐候选词的问题,本发明实施例通过识别专有名词的类别信息,从而按照对应的类别信息进行联想推荐,减少了用户的输入操作过程,提高了用户的输入速度。
附图说明
图1是现有技术中输入法的联想功能示意图;
图2是本发明的一种输入法候选词的联想方法实施例一的步骤流程图;
图3是本发明的一种候选词的展现示意图;
图4是本发明的一种输入法候选词的联想方法实施例二的步骤流程图;
图5是本发明的一种输入法候选词的联想装置实施例的结构框图;
图6是根据一示例性实施例示出的一种输入法候选词的联想装置的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图2,示出了本发明的一种输入法候选词的联想方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201,获取已上屏的文本信息;
在具体实现中,本发明实施例可以应用于各类终端中,例如,手机、PDA(PersonalDigital Assistant,个人数字助理)、计算机、掌上电脑等等,本发明实施例对终端的具体类型不作限定。
这些终端可以支持包括Windows、Android(安卓)、IOS、WindowsPhone等操作***,可以通过外接输入设备进行输入,例如键盘;还可以运行通过虚拟键盘进行输入的应用程序,例如,输入法程序。
以计算机为例,用户可以通过敲击键盘上的实体按键输入字符串,而对于具有触摸屏的移动终端而言,用户可以通过点击虚拟键盘上的虚拟按键进行字符串的输入,从而实现对文本信息的输入。
通常,在中文、日文等语音里,作为基本语言单位的汉字、日文等文字一般不直接与键盘上的按键进行映射,因此,在输入时一般需要进行字符与字词的转换。
具体而言,输入法***可以通过编码规则将汉字、日文等文字与能够直接输入的字符串建立映射关系,如在汉语中通常用的编码是拼音(如简拼、双拼、全拼、模糊音等)、五笔等。
在本发明实施例中,用户在输入字符串后,例如,在输入拼音字符串后,输入法可以展现出与该拼音字符串相匹配的多个汉字或词组,从而在用户选定其中某个汉字或词组后,对该汉字或词组进行上屏。
例如,对于用户输入的字符串“guoqing”,输入法可以匹配出“国庆”、“国情”或者“国青”等词组,当用户选定“国庆”这一词组时,可以对该词组进行上屏。
需要说明的是,本发明实施例中已上屏的文本信息可以是用户在输入时最后一次上屏的汉字或词组。
例如,当用户在输入“我想去悉尼”时,依次上屏“我”、“想去”和“悉尼”,则本发明实施例中的已上屏的文本信息可以是指最后上屏的“悉尼”这一词组。
步骤202,判断所述文本信息是否为专有名词;
在本发明实施例中,在获取到已上屏的文本信息后,可以首先判断该文本信息是否为特定类型的词组,例如,是否为人名、地名等专有名词。若是,则可以执行步骤203。
当然,除人名、地名外,还可以包括机构名、组织名等其他类型的专有名词,本发明实施例对专有名词的具体类型不作限定。
作为本发明的一种示例,可以预先在终端或输入法中预置数据库,通过在该数据库中预置多个人名、地名等类别信息的预设专有名词,当获取到已上屏的文本信息后,通过遍历预置数据库,判断任一预设专有名词中是否与所述文本信息相同,若相同,则可以判断该文本信息是专有名词,并进一步获取该专有名词的类别信息。
在具体实现中,可以采集多个普通人名、女明星人名、男明星人名、运动员人名、地名等,分别按照各自的类别信息进行归类,当用户上屏的文本信息命中其中任一类别信息中的一个词组时,可以认为该文本信息为专有名词。例如,当用户上屏“靳东”后,通过遍历预置数据库,发现在男明星人名这一类别中包括“靳东”这一词组,则可以认为已上屏的词组“靳东”为专有名词,并获取该专有名词的类别信息为男明星人名。
作为本发明的又一种示例,预置数据库中还可以包括终端的通讯录信息,从而可以通过匹配终端的通讯录信息确定上屏的最后一个词组是否为普通人名。
通常,通讯录信息都包括有至少一个联系人的联系信息,如联系人的人名、手机号码等等。通过判断文本信息是否与通讯录中任一人名重合,从而可以判断该文本信息是否为普通人名。
当然,除了通讯录信息外,还可以获取终端的其他本地文件添加入预置数据库中。例如可以获取备忘录或日历备注等信息,若日历备注中记录有“张三的生日”,如果上屏的最后一个词组为“张三”,则可以认为“张三”为一个人名。
步骤203,识别所述专有名词的类别信息;
在本发明实施例中,当确定已上屏的文本信息为专有名词后,可以进一步识别该专有名词的类别信息,例如,是否为普通人名、女明星人名、男明星人名、运动员人名、地名等等。
当然,本领域技术人员可以根据实际需要,确定其他的类别信息,本发明实施例对此不作限定。
步骤204,获取与所述类别信息相匹配的至少一个候选词;
在本发明实施例中,可以按照类别信息,分别为不同类别信息的词组设定多个候选词,当识别出已上屏的文本信息的类别信息后,获取与该类别信息相匹配的至少一个候选词。
例如,可以为男明星人名这一类别信息设定“好帅”、“表演”等候选词,为普通人名这一类别信息设定“在”、“去”等候选词,当识别出上屏的专用名词“靳东”的类别信息为男明星人名时,可以获取“好帅”这一候选词;而当识别出上屏的专用名词“张三”的类别信息为普通人名时,可以获取“在”这一候选词。当然,本领域技术人员还可以根据实际需要,具体确定每一类别信息的候选词,本发明实施例对此不作限定。
步骤205,展现所述至少一个候选词。
在获取到与已上屏的专有名词的类别信息相匹配的候选词后,可以将所述候选词展现给用户,从而方便用户直接选定该候选词进行上屏。
如图3所示,是本发明的一种候选词的展现示意图,当用户在上屏词组“张三”后,通过判断该词组为普通人名,从而可以获取到与该普通人名这一类别信息相匹配的“再”、“在”等多个候选词,从而将上述多个候选词展现给用户。
在本发明实施例中,通过获取已上屏的文本信息,并判断所述文本信息是否为专有名词,若是,则可以通过识别所述专有名词的类别信息,然后获取与所述类别信息相匹配的至少一个候选词,进而展现所述至少一个候选词,解决了现有技术中在用户输入人名、地名等专有名词后,无法通过输入法的联想功能向用户继续展现或推荐候选词的问题,本发明实施例通过识别专有名词的类别信息,从而按照对应的类别信息进行联想推荐,减少了用户的输入操作过程,提高了用户的输入速度。
参照图4,示出了本发明的一种输入法候选词的联想方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤401,生成预置数据库;
在具体实现中,本发明实施例可以应用于各类终端中,例如,手机、计算机、平板电脑等,本发明实施例对终端的具体类型不作限定。
在本发明实施例中,所述生成预置数据库的步骤具体可以包括如下子步骤:
子步骤4011,采集多个专有名词;
通常,当用户在输入一些人名、地名等专有名词,输入法无法向用户展现与该专有名词相匹配的候选词,用户必须重新输入才能获得想要的候选词。因此,为了解决上述问题,可以首先采集多个专有名词。
在本发明实施例中,可以采用网络爬虫(web crawler)抓取多个专有名词。网络爬虫又被称为网页蜘蛛,是按照一定的规则,自动地抓取万维网信息的一种程序或者脚本,它能够根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。
具体地,可以采用网络爬虫从专门的网站上抓取数据。例如,可以从明星数据库等类型的网站上抓取男明星和女明星的人名,从起名网站上抓取常用的姓氏及名字的数据,从地名信息网站上抓取地名等数据。本领域技术人员可以根据实际需要,具体选择需要抓取的数据,本发明实施例对此不作限定。
当然,本领域技术人员还可以采用其他方式采集专有名词,例如,通过获取终端的通讯录或备忘录等信息,将通讯录或备忘录中记录的联系人的人名作为后续考虑的专有名词的一种,本发明实施例对此亦不作限定。
子步骤4012,对所述多个专有名词进行分类,以生成多个类别信息;
在具体实现中,可以将抓取的专有名词分类为多个类别信息,例如,地名类别、普通人名类别或非普通人名类别,地名类别又可以包括国内地名类别、国外地名类别;非普通人名类别也可以包括明星人名类别、运动员人名类别等等。当然,本领域技术人员还可以根据实际需要,确定其他类别信息,例如,对于明星人名类别,还可以分类为男明星人名类别和女明星人名类别,而男明星人名类别也可以分类为国内男明星人名类别和国外男明星人名类别,本发明对此不作限定。
需要说明的是,在采集多个专有名词,并对采集得到的多个专有名词进行分类时,还可以通过人工手段进行核对、纠正或补充,以保证数据库的准确性。
子步骤4013,分别获取与每个类别信息具有特定关系的候选词;
在本发明实施例中,所述特定关系可以包括词与词之间的二元关系或多元关系。
例如,对于“去”和“悉尼”两个词,由于能够组词成“去悉尼”,则可以认为“去”和“悉尼”两个词具有二元关系。而对于“我”、“喜欢”和“范冰冰”三个词,由于能够组词成“我喜欢范冰冰”,则可以认为“我”、“喜欢”和“范冰冰”三个词具有三元关系,以此类推,当多个词之间具有上述关系时,就是多元关系。
在获取与每个类别信息具有二元关系或多元关系的候选词时,可以首先采集语料信息。
通常,在统计自然语言处理中实际上不可能观测到大规模的语言实例,因此,可以简单地使用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品,这种被作为替代品的文本即可以被称为语料信息,每段语料信息可以包括多个分词。
例如,“李明是学生”就可以看作是一段语料信息。该语料信息可以被切分为“李明”、“是”和“学生”三个分词。
在具体实现中,可以通过从互联网的特定数据库中采集语料信息。例如,可以从报刊全文数据库中采集某个时间段内的多篇报道,从中获取多段语料信息,本发明实施例对此不作限定。
然后,可以提取所述多个分词中的专有名词,所述专有名词具有对应的类别信息,进而分别统计与所述多个分词中的专有名词具有二元关系或多元关系的候选词,作为该专有名词对应的类别信息的候选词。
例如,可以将“李明”这一人名提取出来,并统计与该人名具有二元关系的候选词为“是”,由于“李明”的类别信息为普通人名类别,因此,可以将“是”作为普通人名类别的候选词。
又例如,对于一段语料信息为“刘恺威好帅”,经过切分,该段语料信息可以包括“刘恺威”和“好帅”两个分词,通过提取其中的专有名词“刘恺威”并统计与该专有名词具有二元关系的候选词为“好帅”,由于“刘恺威”为男明星人名类别,因此,可以将“好帅”作为男明星人名类别的候选词。
以上仅为示例,本领域技术人员可以根据采集的具体的语料信息,生成不同的候选词,本发明实施例对此不作限定。
子步骤4014,依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
在对采集的专有名词进行分类,获得多个类别信息,并通过采集语料信息获取到每个类别信息对应的候选词后,可以依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
步骤402,获取已上屏的文本信息;
需要说明的是,本发明实施例中已上屏的文本信息可以是用户在输入时最后一次上屏的汉字或词组。例如,当用户在输入“我想去悉尼”时,依次上屏“我”、“想去”和“悉尼”,则本发明实施例中的已上屏的文本信息可以是指最后上屏的“悉尼”这一词组。
步骤403,遍历预置数据库,所述预置数据库包括多个预设专有名词,每个预设专有名词具有相应的类别信息;
例如,预置数据库可以包括有地名类别、普通人名类别、女明星人名类别、男明星人名类别、运动员人名类别等等。而在步骤401中采集的多个专有名词则被作为每个类别信息的预设专有名词,如普通人名类别中可以包括“张三”、“李四”、“王五”等多个预设普通人名。
需要说明的是,每个类别信息的预设专有名词根据在生成预置数据库时实际采集的专有名词经分类确定,而每个类别信息的候选词则是根据在生成预置数据库时实际采集的语料信息确定,本领域技术人员可以根据实际需要对每个类别信息的预设专有名词和候选词进行增删,本发明实施例对此不作限定。
步骤404,判断任一预设专有名词中是否与所述文本信息相同;
在具体实现中,可以判断已上屏的文本信息是否命中预置数据库中的任一预设专有名词,例如,当已上屏的文本信息为“张三”时,可以在遍历预置数据库时,确定所述预置数据库中是否包括“张三”这一专有名词。
步骤405,若相同,则判断所述文本信息是专有名词,并获取所述专有名词的类别信息;
在本发明实施例中,预置数据库中的每个预设专有名词均具有对应的类别信息,因此,当确定预置数据库中包括与已上屏的文本信息相同的词或词组时,可以判断该文本信息是专有名词,并获取该专有名词的类别信息。
例如,可以识别“张三”的类别信息为普通人名类别。
作为本发明的一种示例,由于预置数据库中还可以包括终端的通讯录信息,因此,当已上屏的文本信息与通讯录中任一人名重合时,可以识别所述专有名词的类别信息为普通人名类别。
步骤406,从所述预置数据库中获取与所述专有名词的类别信息相匹配的至少一个候选词;
然后,可以获取与该类别信息相匹配的至少一个候选词。例如,可以获取与普通人名类别相匹配的“再”、“在”等候选词。
步骤407,展现所述至少一个候选词;
在获取到与已上屏的专有名词的类别信息相匹配的候选词后,可以将所述候选词展现给用户,从而方便用户直接选定该候选词进行上屏。
如图3所示,当用户在上屏词组“张三”后,通过判断该词组为普通人名,从而可以获取到与该普通人名这一类别信息相匹配的“再”、“在”等多个候选词,从而将上述多个候选词展现给用户。
步骤408,当接收到用户选定任一候选词的指令时,上屏所述候选词。
当用户选定某个展现的候选词时,输入法可以对被选定的候选词进行上屏,从而减少了用户的输入操作过程。例如,当用户选定如图3中的“在”这一候选词时,可以对该候选词进行上屏。
本发明实施例通过采集多个专有名词,生成预置数据库,从而在获取到用户已上屏的文本信息后,通过判断该文本信息是否为特定类别信息的专有名词,若是,则可以通过获取与该类别信息相匹配的至少一个候选词,进而将该至少一个候选词展现给用户,方便用户直接选定其中的候选词进行上屏,完善了输入法的联想功能,提高了用户的输入速度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种输入法候选词的联想装置实施例的结构框图,具体可以包括如下模块:
文本信息获取模块501,用于获取已上屏的文本信息;
专有名词判断模块502,用于判断所述文本信息是否为专有名词;
类别信息识别模块503,用于所述文本信息为专有名词时,识别所述专有名词的类别信息;
候选词获取模块504,用于获取与所述类别信息相匹配的至少一个候选词;
候选词展现模块505,用于展现所述至少一个候选词。
在本发明实施例中,所述专有名词可以包括人名和/或地名。
在本发明实施例中,所述专有名词判断模块502具体可以包括如下子模块:
遍历子模块,用于遍历预置数据库,所述预置数据库可以包括多个预设专有名词,每个预设专有名词具有相应的类别信息;
判断子模块,用于判断任一预设专有名词中是否与所述文本信息相同;
获取子模块,用于在存在预设专有名词与所述文本信息相同时,判断所述文本信息是专有名词,并获取所述专有名词的类别信息。
在本发明实施例中,所述预置数据库可以包括终端的通讯录信息,所述类别信息识别模块503具体可以包括如下子模块:
识别子模块,用于当所述文本信息与通讯录中任一人名重合时,识别所述专有名词的类别信息为普通人名类别。
在本发明实施例中,每个类别信息可以包括与所述类别信息相匹配的至少一个候选词,所述候选词获取模块504具体可以包括如下子模块:
候选词获取子模块,用于从所述预置数据库中获取与所述专有名词的类别信息相匹配的至少一个候选词。
在本发明实施例中,所述预置数据库可以通过调用如下模块生成:
采集模块,用于采集多个专有名词;
分类模块,用于对所述多个专有名词进行分类,以生成多个类别信息;
获取模块,用于分别获取与每个类别信息具有特定关系的候选词;
生成模块,用于依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
在本发明实施例中,所述特定关系可以包括二元关系或多元关系,所述获取模块具体可以包括如下子模块:
语料信息采集子模块,用于采集语料信息,所述语料信息分别包括多个分词;
专有名词提取子模块,用于提取所述多个分词中的专有名词以及所述专有名词对应的类别信息;
候选词统计子模块,用于分别统计与所述多个分词中的专有名词具有二元关系或多元关系的候选词,作为所述专有名词对应的类别信息的候选词。
在本发明实施例中,所述装置还可以包括如下模块:
候选词上屏模块,用于当接收到用户选定任一候选词的指令时,上屏所述候选词。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图6是根据一示例性实施例示出的一种输入法候选词的联想装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的输入法候选词的联想方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理***,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述输入法候选词的联想方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述输入法候选词的联想方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如下操作:
获取已上屏的文本信息;
判断所述文本信息是否为专有名词;
若是,则识别所述专有名词的类别信息;
获取与所述类别信息相匹配的至少一个候选词;
展现所述至少一个候选词。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种输入法候选词的联想方法和一种输入法候选词的联想装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种输入法候选词的联想方法,其特征在于,包括:
获取已上屏的文本信息;
判断所述文本信息是否为专有名词;
若是,则识别所述专有名词的类别信息;
获取与所述类别信息相匹配的至少一个候选词;
展现所述至少一个候选词。
2.根据权利要求1所述的方法,其特征在于,所述专有名词包括人名和/或地名。
3.根据权利要求1所述的方法,其特征在于,所述判断所述文本信息是否为专有名词的步骤包括:
遍历预置数据库,所述预置数据库包括多个预设专有名词,每个预设专有名词具有相应的类别信息;
判断任一预设专有名词是否与所述文本信息相同;
若是,则判断所述文本信息是专有名词,并获取所述专有名词的类别信息。
4.根据权利要求3所述的方法,其特征在于,所述预置数据库包括终端的通讯录信息,所述识别所述专有名词的类别信息的步骤包括:
当所述文本信息与通讯录中任一人名重合时,识别所述专有名词的类别信息为普通人名类别。
5.根据权利要求3所述的方法,其特征在于,每个类别信息包括与所述类别信息相匹配的至少一个候选词,所述获取与所述类别信息相匹配的至少一个候选词的步骤包括:
从所述预置数据库中获取与所述专有名词的类别信息相匹配的至少一个候选词。
6.根据权利要求3-5任一所述的方法,其特征在于,所述预置数据库通过如下方式生成:
采集多个专有名词;
对所述多个专有名词进行分类,以生成多个类别信息;
分别获取与每个类别信息具有特定关系的候选词;
依据所述多个类别信息以及与类别信息相匹配的候选词,生成预置数据库。
7.根据权利要求6所述的方法,其特征在于,所述特定关系包括二元关系或多元关系,所述分别获取与每个类别信息具有特定关系的候选词的步骤包括:
采集语料信息,所述语料信息分别包括多个分词;
提取所述多个分词中的专有名词以及所述专有名词对应的类别信息;
分别统计与所述多个分词中的专有名词具有二元关系或多元关系的候选词,作为所述专有名词对应的类别信息的候选词。
8.根据权利要求1所述的方法,其特征在于,还包括:
当接收到用户选定任一候选词的指令时,上屏所述候选词。
9.一种输入法候选词的联想装置,其特征在于,包括:
文本信息获取模块,用于获取已上屏的文本信息;
专有名词判断模块,用于判断所述文本信息是否为专有名词;
类别信息识别模块,用于所述文本信息为专有名词时,识别所述专有名词的类别信息;
候选词获取模块,用于获取与所述类别信息相匹配的至少一个候选词;
候选词展现模块,用于展现所述至少一个候选词。
10.一种输入法候选词的联想装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取已上屏的文本信息;
判断所述文本信息是否为专有名词;
若是,则识别所述专有名词的类别信息;
获取与所述类别信息相匹配的至少一个候选词;
展现所述至少一个候选词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424511.XA CN109002184B (zh) | 2017-06-07 | 2017-06-07 | 一种输入法候选词的联想方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424511.XA CN109002184B (zh) | 2017-06-07 | 2017-06-07 | 一种输入法候选词的联想方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109002184A true CN109002184A (zh) | 2018-12-14 |
CN109002184B CN109002184B (zh) | 2022-09-23 |
Family
ID=64573122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710424511.XA Active CN109002184B (zh) | 2017-06-07 | 2017-06-07 | 一种输入法候选词的联想方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109002184B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888539A (zh) * | 2019-11-18 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 输入法中的人名推荐方法、装置、设备及存储介质 |
CN111435270A (zh) * | 2019-01-11 | 2020-07-21 | 北京搜狗科技发展有限公司 | 一种推荐方法、装置和电子设备 |
CN111752397A (zh) * | 2019-03-29 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种候选词确定方法及装置 |
CN112241488A (zh) * | 2019-07-17 | 2021-01-19 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN112306252A (zh) * | 2019-07-30 | 2021-02-02 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112684915A (zh) * | 2021-01-04 | 2021-04-20 | 上海臣星软件技术有限公司 | 候选词输出方法、装置、电子设备及计算机存储介质 |
CN113703590A (zh) * | 2021-08-13 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271459A (zh) * | 2007-03-22 | 2008-09-24 | 北京搜狗科技发展有限公司 | 一种生成词库的方法、一种输入的方法和一种输入法*** |
US20080313182A1 (en) * | 2007-06-15 | 2008-12-18 | Sony Ericsson Mobile Communications Ab | Methods, devices, and computer program products for predictive text entry in mobile terminals using multiple databases |
CN201260222Y (zh) * | 2008-03-28 | 2009-06-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种移动终端 |
US20090198691A1 (en) * | 2008-02-05 | 2009-08-06 | Nokia Corporation | Device and method for providing fast phrase input |
CN102193646A (zh) * | 2010-03-18 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 人名候选词的生成方法及装置 |
CN103019405A (zh) * | 2012-11-12 | 2013-04-03 | 东莞宇龙通信科技有限公司 | 一种人名输入方法及装置 |
CN103760991A (zh) * | 2014-01-13 | 2014-04-30 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
CN103914513A (zh) * | 2014-01-13 | 2014-07-09 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
CN104268166A (zh) * | 2014-09-09 | 2015-01-07 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN105022547A (zh) * | 2014-04-24 | 2015-11-04 | 刘健萍 | 一种文本输入法及装置 |
CN106202045A (zh) * | 2016-07-08 | 2016-12-07 | 成都之达科技有限公司 | 基于车联网的专项语音识别方法 |
CN106503246A (zh) * | 2016-11-09 | 2017-03-15 | 天津赛因哲信息技术有限公司 | 一种古籍智能数字化文献库的建立方法 |
-
2017
- 2017-06-07 CN CN201710424511.XA patent/CN109002184B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271459A (zh) * | 2007-03-22 | 2008-09-24 | 北京搜狗科技发展有限公司 | 一种生成词库的方法、一种输入的方法和一种输入法*** |
US20080313182A1 (en) * | 2007-06-15 | 2008-12-18 | Sony Ericsson Mobile Communications Ab | Methods, devices, and computer program products for predictive text entry in mobile terminals using multiple databases |
US20090198691A1 (en) * | 2008-02-05 | 2009-08-06 | Nokia Corporation | Device and method for providing fast phrase input |
CN201260222Y (zh) * | 2008-03-28 | 2009-06-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种移动终端 |
CN102193646A (zh) * | 2010-03-18 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 人名候选词的生成方法及装置 |
CN103019405A (zh) * | 2012-11-12 | 2013-04-03 | 东莞宇龙通信科技有限公司 | 一种人名输入方法及装置 |
CN103760991A (zh) * | 2014-01-13 | 2014-04-30 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
CN103914513A (zh) * | 2014-01-13 | 2014-07-09 | 北京搜狗科技发展有限公司 | 一种实体输入方法和装置 |
CN105022547A (zh) * | 2014-04-24 | 2015-11-04 | 刘健萍 | 一种文本输入法及装置 |
CN104268166A (zh) * | 2014-09-09 | 2015-01-07 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN106202045A (zh) * | 2016-07-08 | 2016-12-07 | 成都之达科技有限公司 | 基于车联网的专项语音识别方法 |
CN106503246A (zh) * | 2016-11-09 | 2017-03-15 | 天津赛因哲信息技术有限公司 | 一种古籍智能数字化文献库的建立方法 |
Non-Patent Citations (1)
Title |
---|
柯修 等: "基于串频统计的汉语和孟加拉语专有名词识别", 《现代图书情报技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435270A (zh) * | 2019-01-11 | 2020-07-21 | 北京搜狗科技发展有限公司 | 一种推荐方法、装置和电子设备 |
CN111435270B (zh) * | 2019-01-11 | 2024-03-01 | 北京搜狗科技发展有限公司 | 一种推荐方法、装置和电子设备 |
CN111752397A (zh) * | 2019-03-29 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种候选词确定方法及装置 |
CN111752397B (zh) * | 2019-03-29 | 2024-06-04 | 北京搜狗科技发展有限公司 | 一种候选词确定方法及装置 |
CN112241488A (zh) * | 2019-07-17 | 2021-01-19 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN112306252A (zh) * | 2019-07-30 | 2021-02-02 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110888539A (zh) * | 2019-11-18 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 输入法中的人名推荐方法、装置、设备及存储介质 |
CN110888539B (zh) * | 2019-11-18 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 输入法中的人名推荐方法、装置、设备及存储介质 |
CN112684915A (zh) * | 2021-01-04 | 2021-04-20 | 上海臣星软件技术有限公司 | 候选词输出方法、装置、电子设备及计算机存储介质 |
CN113703590A (zh) * | 2021-08-13 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109002184B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002184A (zh) | 一种输入法候选词的联想方法和装置 | |
CN107357779B (zh) | 一种获取机构名称的方法及装置 | |
CN106251869B (zh) | 语音处理方法及装置 | |
JP2018504727A (ja) | 参考文書の推薦方法及び装置 | |
CN106202150B (zh) | 信息显示方法及装置 | |
CN104735243B (zh) | 联系人列表显示方法及装置 | |
CN106484138B (zh) | 一种输入方法及装置 | |
CN110147467A (zh) | 一种文本描述的生成方法、装置、移动终端及存储介质 | |
CN108038102A (zh) | 表情图像的推荐方法、装置、终端及存储介质 | |
CN108509412A (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
CN110390086A (zh) | 一种生成文本的方法、装置和存储介质 | |
JP7116088B2 (ja) | 音声情報処理方法、装置、プログラム及び記録媒体 | |
CN109582768A (zh) | 一种文本输入方法和装置 | |
CN105447109A (zh) | 关键字词搜索方法及装置 | |
CN105469104A (zh) | 文本信息相似度的计算方法、装置及服务器 | |
CN111583919A (zh) | 信息处理方法、装置及存储介质 | |
CN108650543A (zh) | 视频的字幕编辑方法及装置 | |
CN110069624A (zh) | 文本处理方法及装置 | |
CN110069143A (zh) | 一种信息防误纠方法、装置和电子设备 | |
CN110019885A (zh) | 一种表情数据推荐方法及装置 | |
CN105302335B (zh) | 词汇推荐方法和装置及计算机可读存储介质 | |
CN108509406A (zh) | 一种语料抽取方法、装置和电子设备 | |
CN111739535A (zh) | 一种语音识别方法、装置和电子设备 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |