CN108073292B - 一种智能组词方法和装置、一种用于智能组词的装置 - Google Patents

一种智能组词方法和装置、一种用于智能组词的装置 Download PDF

Info

Publication number
CN108073292B
CN108073292B CN201610996202.5A CN201610996202A CN108073292B CN 108073292 B CN108073292 B CN 108073292B CN 201610996202 A CN201610996202 A CN 201610996202A CN 108073292 B CN108073292 B CN 108073292B
Authority
CN
China
Prior art keywords
word
speech
collocation
path
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610996202.5A
Other languages
English (en)
Other versions
CN108073292A (zh
Inventor
费腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610996202.5A priority Critical patent/CN108073292B/zh
Publication of CN108073292A publication Critical patent/CN108073292A/zh
Application granted granted Critical
Publication of CN108073292B publication Critical patent/CN108073292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种智能组词方法和装置、一种用于智能组词的装置,其中的方法具体包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。本发明实施例能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。

Description

一种智能组词方法和装置、一种用于智能组词的装置
技术领域
本发明涉及计算机信息输入技术领域,特别是涉及一种智能组词方法和装置、一种用于智能组词的装置。
背景技术
目前,涉及交互的设备,通常需要用户通过输入法***将自己的操作意图与设备交互识别。例如,用户可以输入输入串,然后由输入法***依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
当词库中不存在输入串直接命中的词条时,输入法***可以触发智能组词功能。现有的智能组词方案为:查找二元库中的二元关系,该依据该二元关系的命中情况计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的组词方案作为首选项返回给用户。其中,该二元关系是指词汇与词汇之间的搭配关系,如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。智能组词功能非常重要,智能组词结果的好坏将直接决定输入法***的质量,也将直接影响到用户的体验。
在实际应用中,对于包含数词、量词或者副词的智能组词,其往往需要非常多的二元关系。然而,一方面,受限于存储空间,存储的二元关系有限;另一方面,二元库中存储的二元关系往往是通过统计学习的方式得到,通常存储的二元关系很难保证能够覆盖所有的情况;这样,在智能组词过程中若无法命中二元库中的二元关系,将导致智能组词失败。例如,若二元库中未存储“九万-八千”和“八千-元”,则输入串“jiuwanliangqianyuan”对应的词汇“九万”和“八千”、以及“八千”和“元”将无法命中二元库中的二元关系,进而导致智能组词失败。在智能组词失败时,现有方案往往选取词频最高的词进行组合,以得到对应的组词候选,例如,上述输入串“jiuwanliangqianyuan”对应的组词候选为“就玩梁倩院”,但“就玩梁倩院”明显为一个质量较低、较为不合理的候选,符合用户的输入意图的概率较低。
发明内容
鉴于上述问题,本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的智能组词方法、智能组词装置及用于智能组词的装置,本发明实施例能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。
为了解决上述问题,本发明公开了一种智能组词方法,包括:
获取用户的输入内容;
获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
依据所述路径得分,从所述组词路径中获取组词候选。
可选地,所述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤,包括:
依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;
在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
可选地,通过如下步骤获取所述预置词性搭配规则对应的得分:
从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
统计各词性搭配内容中相邻词汇之间的搭配概率;
依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
可选地,所述输入内容包括:输入串,则所述方法还包括:
对所述输入串进行切分,以得到对应的切分结果;
在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
可选地,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
可选地,所述依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分的步骤,包括:
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
可选地,在所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤之前,所述方法还包括:
依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系;
在所述二元库的查找未命中时,执行所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤。
可选地,所述依据所述路径得分,从所述组词路径中获取组词候选的步骤,包括:
对所述路径得分进行排序;
依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
可选地,所述预置词性搭配规则包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
另一方面,本发明公开了一种智能组词装置,包括:
内容接收模块,用于获取用户的输入内容;
词汇词性获取模块,用于获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
搭配得分确定模块,用于依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
路径得分确定模块,用于依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;以及
组词候选获取模块,用于依据所述路径得分,从所述组词路径中获取组词候选。
可选地,所述搭配得分确定模块包括:
词性确定子模块,用于依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;以及
得分确定子模块,用于在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
可选地,所述装置还包括:用于获取所述预置词性搭配规则对应的得分的得分获取模块;
所述得分获取模块包括:
词性搭配内容子模块,用于从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
搭配概率统计子模块,用于统计各词性搭配内容中相邻词汇之间的搭配概率;以及
得分确定子模块,用于依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
可选地,所述输入内容包括:输入串,则所述装置还包括:
切分模块,用于对所述输入串进行切分,以得到对应的切分结果;
词库查找模块,用于在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
可选地,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
可选地,所述路径得分确定模块包括:
第一路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
第二路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
可选地,所述装置还包括:
二元库查找模块,用于在所述搭配得分确定模块依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分之前,依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系,并在所述二元库的查找未命中时,触发所述搭配得分确定模块。
可选地,所述组词候选获取模块包括:
排序子模块,用于对所述路径得分进行排序;
选取子模块,用于依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
可选地,所述预置词性搭配规则包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
再一方面,本发明公开了一种用于智能组词的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户的输入内容;
获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
依据所述路径得分,从所述组词路径中获取组词候选。
本发明实施例包括以下优点:
本发明实施例在智能组词过程中利用预置词性搭配规则确定待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;由于该预置词性搭配规则用于描述词性之间的搭配关系,通常词性之间的搭配关系越强,则对应的词性搭配得分越高,词性之间的搭配关系越弱,则对应的词性搭配得分越低,因此,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,使得词性之间的搭配关系强的组词路径的路径得分高于词性之间的搭配关系弱的组词路径的路径得分,进而提高词性之间的搭配关系强的组词路径作为组词候选的概率,也即,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。
附图说明
图1是本发明的一种智能组词方法实施例一的步骤流程图;
图2是本发明的一种智能组词方法实施例二的步骤流程图;
图3是本发明的一种智能组词装置实施例的结构框图;
图4是本发明的一种用于智能组词的装置900的框图;及
图5是本发明的一些实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
方法实施例一
参照图1,示出了本发明的一种智能组词方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101、获取用户的输入内容;
步骤102、获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
步骤103、依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
步骤104、依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
步骤105、依据所述路径得分,从所述组词路径中获取组词候选。
本发明实施例可以应用于各种输入方式的输入法***,例如上述输入方式具体可以包括键盘符号、手写信息、语音输入等输入方式,即用户可以通过编码字符串、手写属性特征等输入上屏内容。以语音输入方式为例,输入法***可以采集用户输入的语音信号,将该语音信号转换为文本信息,对该文本信息切分为待组词汇进行组词。下面主要以编码字符串(以下简称输入串)的输入方式为例进行说明,其它输入方式相互参见即可。
在输入法***领域,无论是中文、日文、韩文还是其它语言的输入法***,都是把用户的输入串转换成相应语言的候选项,然后由用户来选择输出至应用程序的内容,这里通过上屏操作输出至应用程序的内容也即上屏内容。其中,在把用户的输入串转换成相应语言的候选项的过程中,可以直接从词库中查找输入串对应的词条,若查找命中,则可以将查找得到的词条作为候选项,例如,直接在词库中查找得到输入串“nihao”或者“tianqihenhao”对应的“你好”或者“天气很好”等词条。可选地,本发明实施例的词库具体可以包括:***词库、用户词库、细胞词库、云词库等等,本发明实施例对于具体的词库不加以限制。
然而,在实际应用中,很多原因将会导致词库中不存在输入串直接命中的词条,可选地,在用户欲输入的词汇数量较多(例如短语或者长句)、或者欲输入之前未输入过的内容时,可能存在词库中不存在输入串直接命中的词条的情况,此种情况下输入法***可以触发智能组词功能。例如,用户欲要通过输入串“jiuwanliangqianyuan”输入“九万八千元”,或者,欲要通过输入串“jiuwanliangqian”输入“九万八千”,或者,欲要通过输入串“qingqingdifangxia”输入“轻轻地放下”时,或者,欲要通过“genghaodilijiebenfam”输入“更好地理解本发明”时,词库中可能不存在这些输入串直接命中的词条。
现有的智能组词方案利用二元库中的二元关系(词汇与词汇之间的搭配关系),针对输入串进行组词。然而,对于包含数词、量词或者副词的智能组词,其往往需要非常多的二元关系,这不仅对于二元库的尺寸和存储空间存在较高的要求,而且往往会因为二元关系的覆盖率不足而导致智能组词失败。以数词的智能组词为例,二元库中需要存储所有数词之间的搭配关系,若存储的覆盖率不够,将会导致智能组词失败。假设二元库中虽然存储有“一万-一千”、“两万-一千”、“三万-一千”、…、“九万-一千”、“两万-两千”、…“九万-九千”、“一千-一百”、…、“九千-九百”等大量的二元关系,但若未存储“九万-八千”和“八千-二百”,则在输入串为“jiuwanliangqianwan”时,也会出现智能组词失败的情况。
针对数词、量词或者副词的智能组词存在的上述问题,本发明实施例创造性地提出预置词性搭配规则,并在智能组词过程中利用该预置词性搭配规则确定待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;由于该预置词性搭配规则用于描述词性之间的搭配关系,通常词性之间的搭配关系越强,则对应的词性搭配得分越高,词性之间的搭配关系越弱,则对应的词性搭配得分越低,因此,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,使得词性之间的搭配关系强的组词路径的路径得分高于词性之间的搭配关系弱的组词路径的路径得分,进而提高词性之间的搭配关系强的组词路径作为组词候选的概率,也即,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。
本发明实施例中,可选的是,所述输入内容可以包括:输入串,则本发明实施例可以在词库中查找得到该输入串对应的待组词汇。例如,输入串为“jiuwanliangqianyuan”,则对应的待组词汇可以包括:“九万”、“两千”、“元”、或者“就玩”、“梁倩”、“院”等。
在本发明的另一种可选实施例中,上述输入内容除了包括输入串外,还可以包括:该输入串对应的上下文。该上文可以适用于用户通过多次输入连贯性内容的场景。例如,用户欲要输入“八万两千三百四十”,其首先输入并上屏了“八万”,又接着输入“liangqian”,则可以将“八万”与“liangqian”对应的词汇作为待组词汇。该下文可以适用于用户编辑已上屏内容的情形。例如,用户首先输入了“今天天气晴朗”,接着将光标移动至“晴朗”之前,并键入了输入串“feich”,则本发明实施例可以将“feic”对应的词汇与其下文“晴朗”进行组词。可以理解,本发明实施例对于上下文对应的具体组词场景不加以限制。
本发明实施例中,上述预置词性搭配规则可用于描述相同词性、或者不同词性等任意词性之间的搭配关系。并且,上述预置词性搭配规则可用涉及两种或者两种以上词性之间的搭配关系。可选地,上述预置词性搭配规则具体可以包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。可以理解,本领域技术人员可以根据实际应用需求,确定所需的预置词性搭配规则,任意的词性之间的搭配关系均在本发明实施例的预置词性搭配规则的保护范围之内。
本发明实施例可以对上述待组词汇进行组词,以得到对应的组词路径。例如,每个组词路径可以包括n个待组词汇,分别表示为V1、V2…Vi…Vn,则本发明实施例在所述待组词汇的组词过程中,可以依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分。可选地,相邻词汇之间的词性搭配得分可以表示为Vi-1与Vi这两个相邻词汇之间的搭配得分,也可以表示为Vi-1、Vi、Vi+1之间的搭配得分。
在本发明的一种可选实施例中,上述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤103,具体可以包括:依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。假设输入内容对应的待组词汇为P个,每个组词路径可以包括n个待组词汇,通常P大于n,则可以依据P个待组词汇的词性,确定待组词汇对应的各组词路径中相邻词汇的词性。例如,输入串“jiuwanliangqianyuan”对应的待组词汇可以包括:“九万”、“两千”、“元”、“就玩”、“梁倩”、“院”等,则可以从所有的待组词汇中获取各组词路径中相邻词汇的词性,如组词路径1“九万+两千+元”中相邻词汇的词性,或者组词路径2“就玩+梁倩+院”中相邻词汇的词性等。
本发明实施例中,可选的是,预置词性搭配规则对应的得分可通过预置得到,例如,输入法***可以基于经验预置上述预置词性搭配规则对应的得分,或者,用户可以基于自身需求预置上述预置词性搭配规则对应的得分等等。
在本发明的一种可选实施例中,可以将上述预置词性搭配规则对应的得分划分为若干个得分等级,其中不同的得分等级用于表示词性之间的搭配关系的强弱。例如,上述得分等级的数目可以为3,参照表1,示出了本发明的一种预置词性搭配规则及其对应得分的示例,其中,A>B>C,例如,“九万”和“两千”都是数词,二者之间的搭配关系非常强,故对应的得分可以为A;而量词和名词之间的搭配关系则比较若,例如量词“台”和名词“电视”可以搭配,但是量词“台”与名词“人”之间的搭配关系则比较弱了。可选地,A=1,B=0.7,C=0.4,可以理解,本领域技术人员可以根据实际应用需求确定A、B、C的值,本发明实施例对于预置词性搭配规则对应的具体得分值不加以限制。
表1
预置词性搭配规则 得分
数词与数词之间的搭配规则 A
数词与量词之间的搭配规则 A
动词与名词之间的搭配规则 B
形容词与名词之间的搭配规则 B
副词与动词之间的搭配规则 B
副词与形容词之间的搭配规则 B
量词与名词之间的搭配规则 C
在本发明的一种可选实施例中,可以基于预置语料的统计得到预置词性搭配规则对应的得分,相应地,获取所述预置词性搭配规则对应的得分的过程可以包括:从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;统计各词性搭配内容中相邻词汇之间的搭配概率;依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
在实际应用中,上述预置语料可以来源于已有的语料库,如对于中文的快速输入,已有的语料库可以包括中文语料库等,或者,上述预置语料还可以来源于著名书籍、互联网语料、输入法程序记载的历史输入记录等。可以理解,任意的语料均在本发明实施例的预置语料的保护范围之内。
本发明实施例中可以从预置语料中获取符合所述预置词性搭配规则的词性搭配内容,例如,对于数词与数词之间的搭配规则,可以从预置语料中获取符合数词与数词之间的搭配规则的词性搭配内容,如“一万-一千”、“两万-一千”、“三万-一千”、“九万-一千”、“两万-两千”等;进一步,可以采用统计方式得到各词性搭配内容中相邻词汇之间的搭配概率,可选地,该搭配概率可以依据相邻词汇的相邻同现概率得到,例如,对预置语料进行分词后得到的句子或者词串的数量为Q,某词性搭配内容在Q个句子或者词串中的出现次数为M,则对应的相邻同现概率为M/Q,可以理解,本发明实施例对于搭配概率的具体统计方式不加以限制。
在依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分的过程中,可以对所有词性搭配内容中相邻词汇之间的搭配概率求均值,并将该均值作为预置词性搭配规则对应的得分,或者,可以对所有词性搭配内容中相邻词汇之间的搭配概率进行加权平均处理,并将加权平均处理结果作为预置词性搭配规则对应的得分,可以理解,本发明实施例对于依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分的具体过程不加以限制。在本发明的一种应用示例中,对于数词与数词之间的搭配规则,其对应所有词性搭配内容中相邻词汇之间的搭配概率均比较高,故对应的得分也比较高;而对于量词与名词之间的搭配规则,有些词性搭配内容(如量词“台”和名词“电视”,如量词“个”和名词“苹果”等)中相邻词汇之间的搭配概率比较高,有些词性搭配内容(如量词“台”与名词“人”、量词“条”与名词“人”等)中相邻词汇之间的搭配概率比较低,故对应的得分也比较低。
在本发明的另一种可选实施例中,可以基于二元库中记录的二元关系的统计得到预置词性搭配规则对应的得分,具体地,可以从二元库中获取符合预置词性搭配规则的多种二元关系,并对该多种二元关系所对应两个词汇之间的搭配概率求均值,以得到预置词性搭配规则对应的得分。以数词与数词之间的搭配规则为例,可以从二元库中获取符合数词与数词之间的搭配规则的所有二元关系,如“一万-一千”、“两万-一千”、“三万-一千”、“九万-一千”、“两万-两千”等,并对该多种二元关系所对应两个词汇之间的搭配概率求均值。本发明实施例对于基于二元库中记录的二元关系的统计得到预置词性搭配规则对应的得分的具体过程不加以限制。
以上主要以中文的预置词性搭配规则为例对预置词性搭配规则进行了说明,可以理解,本领域技术人员可以根据实际应用需求,对于除中文外的其他语言设置所适用的预置词性搭配规则,如针对英文的词性设置对应的预置词性搭配规则,针对日文中的片假、平假的词性设置对应的预置词性搭配规则,针对法文的词性设置对应的预置词性搭配规则等等,可以理解,任意语言的任意词性之间的搭配关系均在本发明实施例的预置词性搭配规则的保护范围之内。
在本发明的一种可选实施例中,步骤103可以具有对应的触发条件,具体地,在步骤103之前,所述方法还可以包括:依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系;在所述二元库的查找未命中时,执行所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤103。当然,可以在没有任何触发条件的情况下执行步骤103,或者,可以在所述二元库的查找命中时执行步骤103,此种情况下,可以同时依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。可以理解,本发明实施例对于步骤103的具体触发条件不加以限制。
步骤104可以依据步骤103输出的所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分。在本发明的一种可选实施例中,步骤104可以包括:
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
在实际应用中,路径得分的依据可以仅仅包括词性搭配得分,也可以包括:词性搭配得分与其他得分的组合,可选地,该其他得分可以包括:二元关系得分(也即命中二元库中记录的二元关系时的得分)、组词路径中各待组词汇中的词频、词库(其中用户词库的得分大于非用户词库的得分)等。其中,在采用词性搭配得分与其他得分的组合时,可以对词性搭配得分与其他得分进行加权平均,例如,词性搭配得分、二元关系得分、词频、词库等均可以具有对应的权重,可以理解,本领域技术人员可以根据实际应用需求确定对应的权重,如词性搭配得分、二元关系得分、词频、词库等均可以具有对应的权重分别为0.3、0.4、0.15和0.15等,本发明实施例对于词性搭配得分、二元关系得分、词频、词库对应的具体权重不加以限制。
在本发明的一种可选实施例中,为了保证二元关系的优先性,所述词性搭配得分的权重不超过所述二元关系得分的权重,当然,本发明实施例对于词性搭配得分与二元关系得分的具体权重不加以限制。
步骤105可以依据步骤104输出的所述路径得分,从所述组词路径中获取组词候选。例如,可以依据路径得分,从所述组词路径中选取路径得分最高的组词路径作为组词候选,或者,可以从所述组词路径中选取路径得分大于得分阈值的组词路径作为组词候选,或者,可以从所述组词路径中选取路径得分最高的多个组词路径作为组词候选,具体地,可以对所述路径得分进行排序,并依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选,其中N为自然数。
综上,本发明实施例的智能组词方法,在智能组词过程中利用预置词性搭配规则确定待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;由于该预置词性搭配规则用于描述词性之间的搭配关系,通常词性之间的搭配关系越强,则对应的词性搭配得分越高,词性之间的搭配关系越弱,则对应的词性搭配得分越低,因此,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,使得词性之间的搭配关系强的组词路径的路径得分高于词性之间的搭配关系弱的组词路径的路径得分,进而提高词性之间的搭配关系强的组词路径作为组词候选的概率,也即,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。
方法实施例二
参照图2,示出了本发明的一种智能组词方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201、获取用户的输入内容;上述输入内容可以包括:输入串、或者该输入串及其对应的上下文;
步骤202、对该输入串进行切分,以得到对应的切分结果;
步骤203、在词库中进行查找,以得到与该切分结果相匹配的词汇,作为该输入串对应的待组词汇;
步骤204、获取各待组词汇的词性;
步骤205、依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
步骤206、依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
步骤207、依据所述路径得分,从所述组词路径中获取组词候选。
在实际应用中,可以按照输入串的规则,对输入串进行切分。若该输入串为拼音串,则可以按照音节规则进行切分。一个输入串可能具有一种或者多种切分方案,其中的每种切分方案均可以包括一个或多个子串。例如,输入串“jiuwanliangqianyuan”可被切分为“jiu’wan’liang’qian’yuan”,输入串“fangan”可被切分为“fang’an”或者“fan’gan”。
在实际应用中,可以在例如***词库、用户词库的词库中进行查找,以得到各子串对应的待组词汇。如“jiu’wan”对应的待组词汇可以包括:“九万”、“就玩”,“liang’qian”对应的待组词汇可以包括:“两千”、“梁倩”,“yuan”对应的待组词汇可以包括:“元”、“院”等等,其中,“九万”、“就玩”、“两千”、“梁倩”、“元”、“院”的词性分别为数词、动词、数词、名词、量词、名词。
本发明实施例在所述待组词汇的组词过程中,依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分。
为使本领域技术人员更好地理解本发明实施例,在此提供本发明的一种智能组词方法示例,该示例具体可以包括如下步骤:
步骤S1、接收输入串“jiuwanliangqianyuan”;
步骤S2、对该输入串进行切分,以得到切分结果
“jiu’wan’liang’qian’yuan”;
步骤S3、在词库中进行查找,以得到与上述切分结果对应的待组词汇;
步骤S4、对所述待组词汇进行组词,以得到对应的组词路径;假设组词路径1:“九万+两千+元”,组词路径2:“就玩+梁倩+院”;
步骤S5、依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;
在实际应用中,可以利用预置词性搭配规则进行对组词路径1和组词路径2这两个组词路径进行打分。对于“九万+两千+元”而言,由于其中的“九万+两千”符合数词与数词之间的搭配规则,故可以得到得分A,其中的“两千+元”符合数词与量词之间的搭配规则,故可以得到得分A,因此,“九万+两千+元”的词性搭配得分是2A;对于“就玩+梁倩+院”而言,由于其中的“就玩+梁倩”符合动词与名词之间的搭配规则,故可以得到得分B,其中的“梁倩+院”不符合预置词性搭配规则,故未得到得分,因此,“就玩+梁倩+院”的词性搭配得分是B。
步骤S6、依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分,并依据所述路径得分,从所述组词路径中获取组词候选。
假设上述组词路径1和组词路径2都没有命中二元关系,则对应的路径得分分别为2A和B,由于2A远大于B,故可以将组词路径1“九万+两千+元”对应的候选“九万两千元”作为组词候选。
本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,使得词性之间的搭配关系强的组词路径的路径得分高于词性之间的搭配关系强的组词路径的路径得分,进而提高词性之间的搭配关系强的组词路径作为组词候选的概率,也即,本发明实施例将该词性搭配得分作为上述组词路径的路径得分的依据,能够提高组词候选的合理性和质量,这样,即使在智能组词失败的情形下,也能够提供较为合理的组词候选,进而提高用户的输入效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图3,示出了本发明的一种输入装置实施例的结构框图,具体可以包括:内容接收模块301、词汇词性获取模块302、搭配得分确定模块303、路径得分确定模块304和组词候选获取模块305。
其中,内容接收模块301,用于获取用户的输入内容;
词汇词性获取模块302,用于获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
搭配得分确定模块303,用于依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;
路径得分确定模块304,用于依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
组词候选获取模块305,用于依据所述路径得分,从所述组词路径中获取组词候选。
可选地,所述搭配得分确定模块303可以包括:
词性确定子模块,用于依据所述各待组词汇的词性,分别确定所述待组词汇对应的组词路径中相邻词汇的词性;以及
得分确定子模块,用于在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
可选地,所述装置还可以包括:用于获取所述预置词性搭配规则对应的得分获取模块;
所述得分获取模块可以包括:
词性搭配内容子模块,用于从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
搭配概率统计子模块,用于统计各词性搭配内容中相邻词汇之间的搭配概率;以及
得分确定子模块,用于依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
可选地,所述输入内容可以包括:输入串,则所述装置还可以包括:
切分模块,用于对所述输入串进行切分,以得到对应的切分结果;
词库查找模块,用于在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
可选地,所述输入内容还可以包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇可以包括:所述输入串对应的待组词汇和所述上下文。
可选地,所述路径得分确定模块304可以包括:
第一路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
第二路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
可选地,所述装置还可以包括:
二元库查找模块,用于在所述搭配得分确定模块303依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分之前,依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系,并在所述二元库的查找未命中时,触发所述搭配得分确定模块303。
可选地,所述组词候选获取模块305可以包括:
排序子模块,用于对所述路径得分进行排序;
选取子模块,用于依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
可选地,所述预置词性搭配规则可以包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于智能组词的装置900的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由智能终端的处理器执行时,使得智能终端能够执行一种智能组词方法,所述方法包括:获取用户的输入内容;获取所述输入内容对应的待组词汇、以及各待组词汇的词性;依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;依据所述路径得分,从所述组词路径中获取组词候选。
图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种智能组词方法、一种智能组词装置和一种用于智能组词的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (28)

1.一种智能组词方法,其特征在于,包括:
获取用户的输入内容;
获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
若二元库中不存在与相邻词汇相匹配的二元关系,则依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;所述相邻词汇具体为所述待组词汇对应的组词路径中相邻词汇;所述预置词性搭配规则包括:数词与数词之间的搭配规则、以及数词与量词之间的搭配规则;
依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
依据所述路径得分,从所述组词路径中获取组词候选。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤,包括:
依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;
在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
3.根据权利要求1或2所述的方法,其特征在于,通过如下步骤获取所述预置词性搭配规则对应的得分:
从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
统计各词性搭配内容中相邻词汇之间的搭配概率;
依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
4.根据权利要求1或2所述的方法,其特征在于,所述输入内容包括:输入串,则所述方法还包括:
对所述输入串进行切分,以得到对应的切分结果;
在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
5.根据权利要求4所述的方法,其特征在于,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
6.根据权利要求1或2所述的方法,其特征在于,所述依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分的步骤,包括:
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
7.根据权利要求1或2所述的方法,其特征在于,在所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤之前,所述方法还包括:
依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系;
在所述二元库的查找未命中时,执行所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分的步骤。
8.根据权利要求1或2所述的方法,其特征在于,所述依据所述路径得分,从所述组词路径中获取组词候选的步骤,包括:
对所述路径得分进行排序;
依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
9.根据权利要求1或2所述的方法,其特征在于,所述预置词性搭配规则还包括:副词与动词之间的搭配规则、副词与形容词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
10.一种智能组词装置,其特征在于,包括:
内容接收模块,用于获取用户的输入内容;
词汇词性获取模块,用于获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
搭配得分确定模块,用于若二元库中不存在与相邻词汇相匹配的二元关系,则依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;所述相邻词汇具体为所述待组词汇对应的组词路径中相邻词汇;所述预置词性搭配规则包括:数词与数词之间的搭配规则、以及数词与量词之间的搭配规则;
路径得分确定模块,用于依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;以及
组词候选获取模块,用于依据所述路径得分,从所述组词路径中获取组词候选。
11.根据权利要求10所述的装置,其特征在于,所述搭配得分确定模块包括:
词性确定子模块,用于依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;以及
得分确定子模块,用于在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
12.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:用于获取所述预置词性搭配规则对应的得分的得分获取模块;
所述得分获取模块包括:
词性搭配内容子模块,用于从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
搭配概率统计子模块,用于统计各词性搭配内容中相邻词汇之间的搭配概率;以及
得分确定子模块,用于依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
13.根据权利要求10或11所述的装置,其特征在于,所述输入内容包括:输入串,则所述装置还包括:
切分模块,用于对所述输入串进行切分,以得到对应的切分结果;
词库查找模块,用于在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
14.根据权利要求13所述的装置,其特征在于,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
15.根据权利要求10或11所述的装置,其特征在于,所述路径得分确定模块包括:
第一路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
第二路径得分确定子模块,用于依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
16.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
二元库查找模块,用于在所述搭配得分确定模块依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分之前,依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系,并在所述二元库的查找未命中时,触发所述搭配得分确定模块。
17.根据权利要求10或11所述的装置,其特征在于,所述组词候选获取模块包括:
排序子模块,用于对所述路径得分进行排序;
选取子模块,用于依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
18.根据权利要求10或11所述的装置,其特征在于,所述预置词性搭配规则包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
19.一种用于智能组词的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户的输入内容;
获取所述输入内容对应的待组词汇、以及各待组词汇的词性;
若二元库中不存在与相邻词汇相匹配的二元关系,则依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分;其中,所述预置词性搭配规则用于描述词性之间的搭配关系;所述相邻词汇具体为所述待组词汇对应的组词路径中相邻词汇;所述预置词性搭配规则包括:数词与数词之间的搭配规则、以及数词与量词之间的搭配规则;
依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分;
依据所述路径得分,从所述组词路径中获取组词候选。
20.根据权利要求19所述的装置,其特征在于,所述确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分,包括:
依据所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇的词性;
在所述相邻词汇的词性搭配符合预置词性搭配规则时,将所述预置词性搭配规则对应的得分,作为所述相邻词汇之间的词性搭配得分。
21.根据权利要求19或20所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从预置语料中获取符合所述预置词性搭配规则的词性搭配内容;
统计各词性搭配内容中相邻词汇之间的搭配概率;
依据所有词性搭配内容中相邻词汇之间的搭配概率,确定所述预置词性搭配规则对应的得分。
22.根据权利要求19或20所述的装置,其特征在于,所述输入内容包括:输入串,则所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对所述输入串进行切分,以得到对应的切分结果;
在词库中进行查找,以得到与所述切分结果相匹配的词汇,作为所述输入串对应的待组词汇。
23.根据权利要求22所述的装置,其特征在于,所述输入内容还包括:所述输入串对应的上下文,则所述输入内容对应的待组词汇包括:所述输入串对应的待组词汇和所述上下文。
24.根据权利要求19或20所述的装置,其特征在于,所述依据所述组词路径所包含相邻词汇之间的词性搭配得分,确定所述组词路径的路径得分,包括:
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分,得到所述组词路径的路径得分;或者
依据所述组词路径所包含的所有相邻词汇之间的词性搭配得分、以及所述组词路径命中的二元关系得分,得到所述组词路径的路径得分。
25.根据权利要求19或20所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分之前,依据所述待组词汇对应的组词路径中相邻词汇,在二元库中进行查找,以得到与所述相邻词汇相匹配的二元关系;
在所述二元库的查找未命中时,依据预置词性搭配规则和所述各待组词汇的词性,确定所述待组词汇对应的组词路径中相邻词汇之间的词性搭配得分。
26.根据权利要求19或20所述的装置,其特征在于,所述依据所述路径得分,从所述组词路径中获取组词候选,包括:
对所述路径得分进行排序;
依据所述路径得分的排序结果,从所述组词路径中选取排在前N位的组词路径作为组词候选。
27.根据权利要求19或20所述的装置,其特征在于,所述预置词性搭配规则包括:数词与数词之间的搭配规则、数词与量词之间的搭配规则、副词与动词之间的搭配规则、副词与形容词之间的搭配规则、动词与名词之间的搭配规则、形容词与名词之间的搭配规则、以及量词与名词之间的搭配规则中的至少一种。
28.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至9中一个或多个所述的方法。
CN201610996202.5A 2016-11-11 2016-11-11 一种智能组词方法和装置、一种用于智能组词的装置 Active CN108073292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610996202.5A CN108073292B (zh) 2016-11-11 2016-11-11 一种智能组词方法和装置、一种用于智能组词的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610996202.5A CN108073292B (zh) 2016-11-11 2016-11-11 一种智能组词方法和装置、一种用于智能组词的装置

Publications (2)

Publication Number Publication Date
CN108073292A CN108073292A (zh) 2018-05-25
CN108073292B true CN108073292B (zh) 2021-10-15

Family

ID=62153729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610996202.5A Active CN108073292B (zh) 2016-11-11 2016-11-11 一种智能组词方法和装置、一种用于智能组词的装置

Country Status (1)

Country Link
CN (1) CN108073292B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807321A (zh) * 2018-07-20 2020-02-18 北京搜狗科技发展有限公司 一种组词方法、装置、电子设备及可读存储介质
CN108664143A (zh) * 2018-09-06 2018-10-16 上海二三四五网络科技有限公司 一种在输入法***中处理上下文联想输入的控制方法及控制装置
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN110209765B (zh) * 2019-05-23 2021-03-30 武汉绿色网络信息服务有限责任公司 一种按语义搜索关键词的方法和装置
CN110309513B (zh) * 2019-07-09 2023-07-25 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110781288A (zh) * 2019-10-30 2020-02-11 安阳师范学院 一种汉语由字组词方法及装置
CN112987941B (zh) * 2019-12-17 2024-02-13 北京搜狗科技发展有限公司 生成候选词的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
WO2012159249A1 (en) * 2011-05-20 2012-11-29 Microsoft Corporation Advaced prediction
CN104182059A (zh) * 2013-05-23 2014-12-03 华为技术有限公司 自然语言的生成方法及***
CN104423623B (zh) * 2013-09-02 2018-10-12 联想(北京)有限公司 一种选词处理方法及电子设备
CN104850241A (zh) * 2015-05-28 2015-08-19 北京奇点机智信息技术有限公司 一种在移动终端中进行文字输入的方法及移动终端

Also Published As

Publication number Publication date
CN108073292A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
CN108073292B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN107870677B (zh) 一种输入方法、装置和用于输入的装置
CN107291260B (zh) 一种信息输入方法和装置、及用于信息输入的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110069624B (zh) 文本处理方法及装置
CN109101505B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN108073294B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN112987941B (zh) 生成候选词的方法及装置
CN114115550A (zh) 联想候选的处理方法、装置和用于处理联想候选的装置
CN109992120B (zh) 一种输入纠错方法和装置
CN109388252B (zh) 一种输入方法及装置
CN114610163A (zh) 推荐方法、装置和介质
CN113589954A (zh) 一种数据处理方法、装置和电子设备
CN112306252A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112181163A (zh) 一种输入方法、装置和用于输入的装置
CN110781270A (zh) 一种解码网络中非关键词模型的构建方法和装置
CN111103986A (zh) 用户词库管理方法及装置、输入方法及装置
CN111381685B (zh) 一种句联想方法和装置
CN110716653B (zh) 一种联想源确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant