CN107422872B - 一种输入方法、装置和用于输入的装置 - Google Patents

一种输入方法、装置和用于输入的装置 Download PDF

Info

Publication number
CN107422872B
CN107422872B CN201610350134.5A CN201610350134A CN107422872B CN 107422872 B CN107422872 B CN 107422872B CN 201610350134 A CN201610350134 A CN 201610350134A CN 107422872 B CN107422872 B CN 107422872B
Authority
CN
China
Prior art keywords
word
sequence
vector
score
multivariate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610350134.5A
Other languages
English (en)
Other versions
CN107422872A (zh
Inventor
崔欣
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610350134.5A priority Critical patent/CN107422872B/zh
Publication of CN107422872A publication Critical patent/CN107422872A/zh
Application granted granted Critical
Publication of CN107422872B publication Critical patent/CN107422872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种输入方法、装置和用于输入的装置,其中的输入方法具体包括:获取输入串对应的第一向量序列;依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;依据所述第一多元关系得分,确定所述输入串对应的候选项。本发明实施例可以存储用于获得上述第一向量序列的向量,而可以不存储大于等于2的所有的多元关系,因此可以节省大量的存储空间。

Description

一种输入方法、装置和用于输入的装置
技术领域
本发明涉及输入法技术领域,特别是涉及一种输入方法、装置和用于输入的装置。
背景技术
对于中文、日文、韩文等用户而言,一般都需要通过输入法***与计算机进行交互。例如,用户可以通过键盘键入输入串,然后由输入法***依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
随着输入法技术的不断发展,以及对输入体验的不断提升,用户对于输入长词或者句子的需求也在增加,例如输入长词:“海边抓螃蟹”、“公积金天天降”、“***合众国德州”、“今天天气真是阳光明媚”等。为了满足用户对于上述长词或者句子的输入需求,按照传统的n-gram(n元关系)存储方式,***词库中需要存储“海边|抓|螃蟹”这样的三元组或者多元组。
然而,在实际应用中,当n元关系大于等于3时,所需要存储的多元关系将以几何的倍数增长,对于内存有限的输入设备,如手机、平板电脑等显然不能满足对n-gram存储结构的完整存储,因此,***词库通常采用n-gram中的2元关系。可以看出,现有的n-gram存储方式在存储空间有限的情况下,无法满足对多元关系的需求。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的输入方法、装置和用于输入的装置,能够简化数学表达式的输入过程,提高输入效率。
为了解决上述问题,本发明实施例公开了一种输入方法,包括:
获取输入串对应的第一向量序列;
依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
依据所述第一多元关系得分,确定所述输入串对应的候选项。
可选地,所述获取输入串对应的第一向量序列的步骤,包括:
依据元词对用户的输入串进行切分,以得到第一字符切分结果;
获取所述第一字符切分结果对应的第一元词序列;
查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
可选地,通过如下步骤建立所述词向量库:
获取词库中元词对应的元词号;
对所述词库中的元词生成对应的向量;
依据所述元词号与所述向量之间的映射关系,建立词向量库。
可选地,所述方法还包括:
获取所述输入串对应的***词序列;
确定所述***词序列对应的第二多元关系得分;
则所述依据所述第一多元关系得分,确定所述输入串对应的候选项的步骤,包括:
依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
可选地,所述获取所述输入串对应的***词序列的步骤,包括:
依据***词对所述输入串进行切分,以得到第二字符切分结果;
获取所述第二字符切分结果对应的***词序列。
可选地,所述确定所述***词序列对应的第二多元关系得分的步骤,包括:
在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
可选地,所述方法还包括:
获取所述输入串的上文和/或下文对应的第二元词序列;
查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
可选地,所述方法还包括:
依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
获取所述联想候选项对应的第三向量序列;
计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
另一方面,本发明实施例公开了一种输入装置,包括:
第一向量序列获取模块,用于获取输入串对应的第一向量序列;
第一多元关系计算模块,用于依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;以及
候选项确定模块,用于依据所述第一多元关系得分,确定所述输入串对应的候选项。
又一方面,本发明实施例公开了一种用于输入的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取输入串对应的第一向量序列;
依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
依据所述第一多元关系得分,确定所述输入串对应的候选项。
本发明实施例包括以下优点:
在本发明实施例中,可以按照预置的多元关系计算规则,对输入串对应的第一向量序列进行计算,从而得到所述第一向量序列对应的多元关系得分,并且依据所述多元关系得分,确定所述输入串对应的候选项,使得获取的候选项可以体现输入串中的多元关系。由于本发明实施例的多元关系得分是通过对第一向量序列计算得到的,而不是从词库中获取的,也即,本发明实施例仅需存储用于获得上述第一向量序列的向量,而可以不存储大于等于2的所有的多元关系,因此可以节省大量的存储空间。
附图说明
图1是本发明的一种输入方法实施例一的步骤流程图;
图2是本发明的一种生成词向量库的方法实施例的步骤流程图;
图3是本发明的一种输入方法实施例三的步骤流程图;
图4是本发明的一种输入方法实施例四的步骤流程图;
图5是本发明的一种输入方法实施例五的步骤流程图;
图6是本发明的一种输入装置实施例的结构框图;
图7是本发明的一种用于输入的装置800的框图;及
图8是本发明的一种服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提出一种在使用输入法输入过程中,通过预置的多元关系计算规则,计算得到多元关系得分的方案,并且可以依据所述多元关系得分,确定输入串对应的候选项,使得获取的候选项可以体现输入串中的多元关系。在该方案中,由于本发明实施例的多元关系得分是通过对第一向量序列计算得到的,而不是从词库中获取的,也即,本发明实施例可以仅需存储用于获得上述第一向量序列的向量,而可以不存储大于等于2的所有的多元关系,因此可以节省大量的存储空间。
方法实施例一
参照图1,示出了本发明的一种输入方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101、获取输入串对应的第一向量序列;
步骤102、依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
步骤103、依据所述第一多元关系得分,确定所述输入串对应的候选项。
本发明实施例可以应用于各种输入方式的输入法***,例如,拼音输入、英文输入、笔画输入、语音输入和手写输入等。用户可以通过上述任意输入方式完成输入串的输入,也即,用户可以通过实体键盘、虚拟键盘、手写板、触摸屏、声音采集装置等进行输入。其中,输入串可以是由数字、符号、拼音、英文字母等中任一项或几项组成的。为了便于描述,本发明实施例均以拼音串作为输入串进行说明,其它类型的输入串相互参照即可。
在使用输入法进行输入的过程中,为了能够获取更多的n元关系(n大于等于2),需要耗费相当大的存储空间来存储n-gram结构,然而,对于存储空间有限的终端设备(如手机)来说,难以实现对所有n大于等于2的n元关系进行存储,通常仅存储2-gram结构,也就是二元关系,然而,仅存储二元关系又难以满足用户对于输入长词或者句子的需求。因此,为解决上述问题,本发明实施例提出一种通过对输入串对应的输入向量进行计算,以获取n元关系的方案,本发明实施例提出的获取n元关系的方法,可以在不存储大于等于2的所有的多元关系的情况下,能够满足用户对于输入长词或者句子的需求,进而可以节省存储空间。其中,所述大于等于2的所有的多元关系,具体可以包括完整的n-gram结构,如2-gram、3-gram、4-gram直到n-gram结构;或者,具有多元关系的长词或者句子,如“我们一起吃饭”、“今天天气真是阳光明媚”等。
在本发明的一种可选实施例中,所述获取输入串对应的第一向量序列的步骤,具体可以包括:
子步骤S11、依据元词对用户的输入串进行切分,以得到第一字符切分结果;
子步骤S12、获取所述第一字符切分结果对应的第一元词序列;
子步骤S13、查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
子步骤S14、对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
本发明实施例中,元词可用于表示具有概念的独立性与概念的单元性的词汇。概念的独立性系指词汇所表现的概念具有独立而完整的含义;概念的单元性系指元词所表现的概念是一个最基本的概念单元,即无论在含义上还是在字面上都不能再拆分。例如,“数学”是一个元词,它表现了一个独立的概念,又是一个单元概念,不能再拆分为“数”与“学”;“数学模型”则不是一个元词,它虽然表现了一个独立的概念,但可以进一步拆分为“数学”与“模型”两个元词。
本发明实施例将元词用向量来表示,并且建立词向量库,该词向量库中可以存储元词与向量之间的对应关系,通过查询该词向量库,可以得到元词对应的向量。本发明实施例用向量表示元词,可以在不存储n-gram结构的n元关系的情况下,通过数值计算得到元词之间的相关性,进而可以通过模型计算得到元词之间的n元关系。
在本发明的一种应用示例中,假设接收到的输入串为“mantiandaxue”,依据元词对该输入串进行切分,可以得到如下字符切分结果:[mantian][daxue],该字符切分结果对应的元词序列可以包括:漫天|大雪、满天|大雪、漫天|大雪、满天|大雪等。通过查询已建立的词向量库,获取所述元词序列中各元词对应的向量具体可以为:元词“漫天”对应的向量为V1,元词“满天”对应的向量为V2,元词“大雪”对应的向量为V3,元词“大学”对应的向量为V4;则输入串“mantiandaxue”对应的第一向量序列可以包括:(V1,V3)、(V1,V4)、(V2,V3)、(V2,V4)。接下来,可以依据预置的多元关系计算规则,计算得到上述第一向量序列对应的第一多元关系得分,此处为计算二元关系得分,比如经过计算得到第一向量序列(V1,V3)的二元关系得分为90,(V1,V4)的二元关系得分为10,(V2,V3)的二元关系得分为60、(V2,V4)的二元关系得分为2;可以看出,第一向量序列(V1,V3)的二元关系得分最高,也即元词“漫天”与“大雪”之间的连接关系最强,因此,可以将“漫天大雪”作为候选项输出。
可选地,可以将多元关系得分满足预设阈值的候选项进行排序输出,例如在上述应用示例中,设置预设阈值为55,则可以将“漫天大雪”和“满天大雪”作为候选项,并且按照二元关系得分排序输出。
在本发明实施例中,可以利用预置模型计算所述第一向量序列的第一多元关系得分。其中,所述预置模型,具体可以是一个多层神经网络。该预置模型的输入可以为向量序列,输出可以为一个概率值,用于表示多元关系得分。在训练该预置模型时,可以利用已有的上文以及对应的候选项作为训练集合,得到每一个元词的向量表达,以及期望输出(0或1)进行训练,最后得到多层神经网络中的所有节点的参数即可。
例如,将三个元词对应的向量串接后得到向量序列(V1,V2,V3),可以将向量序列(V1,V2,V3)作为这个模型的输入,这个模型的输出是一个概率值,该概率值越大,则表示三个元词之间的三元关系越强;反之,表示三元关系越弱。可以理解,上述通过向量串接的方式得到向量序列,仅作为本发明的一种应用示例,本发明实施例对于获取向量序列的具体方式不加以限制。例如还可以利用类似于卷积的方式进行操作以得到固定窗口大小的向量序列。具体地,可以利用CNN(卷积神经网络,Convolutional Neural Network)方法对若干个向量进行处理,对于CNN模型而言,无论向其中输入向量的数目和大小如何,该CNN模型都有能力对输入的向量进行整合,输出一个固定维度的向量序列。
在本发明的另一种应用示例中,假设用户想要输入“今天天气真是阳光明媚”,获取输入串对应的元词序列,并且以一个大小为3的滑动窗口向右滑动,以获取输入串中每三个相邻元词之间的三元关系。首先在第一个滑动窗口内的元词序列可以为“今天|天气|真是”;通过查询词向量库得到其中各元词对应的向量,将向量首尾串接可以得到对应的向量序列,将这个向量序列作为预置模型的输入,预置模型的输出即为计算得到的三元关系得分。然后将窗口向右滑动,继续计算“天气|真是|阳光”的三元关系得分,以及将三元关系得分高的作为候选项输出。
综上,在本发明实施例中,可以按照预置的多元关系计算规则,对输入串对应的第一向量序列进行计算,从而得到所述第一向量序列对应的多元关系得分,并且依据所述多元关系得分,确定所述输入串对应的候选项,使得获取的候选项可以体现输入串中的多元关系。由于本发明实施例的多元关系得分是通过对第一向量序列计算得到的,而不是从词库中获取的,也即,本发明实施例仅需存储用于获得上述第一向量序列的向量,而可以不存储大于等于2的所有的多元关系,因此可以节省大量的存储空间。
方法实施例二
本实施例在上述实施例一的基础上,详细说明生成词向量库的具体过程。参照图2,示出了本发明的一种生成词向量库的方法实施例的步骤流程图,具体可以包括:
步骤201、获取词库中元词对应的元词号;
步骤202、对所述词库中的元词生成对应的词向量;
步骤203、依据所述元词号与所述词向量之间的映射关系,建立词向量库。
本发明实施例中的词库具体可以包括:***词库、用户词库、***n元库、以及词向量库。其中,所述***词库可以为根据语料统计得到的输入频率较高的一元词表;所述用户词库为依据用户的输入行为收集的、符合用户输入习惯的一元或多元词表;所述***n元库可以为根据语料中两个或者多个词的连接关系,统计得到的n-gram多元词表,通常为2-gram的二元词表;所述词向量库可以为对***词库中元词利用向量表示,得到的向量词表。
可以理解,本发明实施例中建立的词向量库,可以根据上述词库中的任一词库进行建立,为便于描述,本发明实施例中以依据***词库中的元词建立词向量库为例进行说明,依据其它词库中的元词建立词向量库的场景相互参照即可。
为节省词库占用的存储空间,本发明实施例中使用的***n元库,可以只存储二元关系,对三元及三元以上的多元关系,可以通过向量计算得到。当然,在实际应用中,可以依据***的处理或存储能力选择存储的多元关系,例如也可以存储三元及三元以上的多元关系等,并且对于未存储的多元关系,还可以配合本发明的向量计算得到。总之,本发明实施例对于***n元库存储的具体内容不加以限制。
在具体应用中,n-gram多元词表可用于表示两个或者多个词的连接关系,以二元关系“漫天|大雪”为例,在n-gram多元词表中,可以利用这两个词的二元频率表示这两个词之间连接关系的强弱。本发明实施例将***词库中的元词利用向量表示,通过对两个向量进行计算得到一个分值来表示两个元词之间连接关系的强弱。由此,只需要存储元词对应的词向量,通过计算即可得到多元关系,可以不用存储实际的n元关系,从而可以节省大量的存储空间。
在本发明实施例中,***词库中可以存储***词以及该***词对应的词频、元词号等信息,具体地,可以按照如下格式存储***词:***词条i|词频i|元词号i。其中,所述元词号可以为正整数,即用一个整数表示***词条。例如,***词库中存储有如下***词:满天|506|39、漫天|501|23、大学|701|67、大雪|302|89等。其中,***词“满天”对应的词频为506,且***词“满天”本身就是元词,“满天”对应的元词号为39。在本发明的另一种示例中,***词库中存储有如下***词:***合众国|368|0,其中,***词“***合众国”对应的词频为368,由于***词“***合众国”不是元词,则可以将对应的元词号标识为0。
在本发明实施例中,***n元库中可以存储元词号之间的多元关系。具体地,以二元关系为例,可以按照如下格式存储元词号之间的二元关系:元词i|元词j|二元频率。其中,所述二元频率可用于表示元词i与元词j之间连接关系的强弱。例如,***n元库中存储有如下二元关系:23|89|8、23|67|1。通过查询***词库可知,元词号23对应的元词为“漫天”,元词号89对应的元词为“大雪”,则元词“漫天”和“大雪”之间的二元频率为8;以及,元词号67对应的元词为“大学”,则元词“漫天”和“大学”之间的二元频率为1。可以看出,“漫天”与“大雪”之间的连接关系强于“漫天”与“大学”之间的连接关系。
在具体应用中,由于存储空间的限制,***n元库通常只存储二元关系,为了能够获取更多的n元关系,本发明实施例对***词库中的元词利用向量来表示,通过对向量进行计算得到元词之间的n元关系。具体地,可以按照如下格式存储元词对应的向量:元词号i|向量<v1,v2,…,vd>。其中,该向量可以为一个多维向量,例如上述向量<v1,v2,…,vd>为一个d维向量。
在本发明的一种应用示例中,词向量库中存储有如下向量:39|<0.5,0.97,....,0.65>、89|<0.43,0.67,…,0.12>。通过查询***词库可知,元词号39对应的元词为“满天”,则元词“满天”可以表示为向量<0.5,0.97,....,0.65>;元词号89对应的元词为“大雪”,则元词“大雪”可以表示为向量<0.43,0.67,…,0.12>。通过对上述两个向量进行计算,可以得到元词“满天”和“大雪”之间的二元关系的强弱。
其中,元词对应的向量可以依据词汇的分布式表示方法得到,即可以用一个多维的向量来表示词汇。例如,在上述示例中,用向量<0.5,0.97,....,0.65>表示词汇“满天”。
将词汇用向量表示之后,对于词汇之间连接关系的强弱,可以通过对多个词汇对应的向量进行计算得到。具体地,对多个向量进行计算,具体可以采用向量内积的计算方式或者其他模型类的计算方式,可以理解,本发明实施例对向量的计算方式不加以限制。
在本发明的一种可选实施例中,可以提供如下向量计算方式:
方式一
通过向量内积的方式进行计算。例如,计算向量d1(d11,d12,d13,...,d1n)和d2(d21,d22,d23,…,d2n)之间的多元关系得分,具体计算公式如下:
result=d11×d21+d12×d22+d13×d23+d14×d24+…+d1n×d2n (1)
方式二
通过NNLM(Neural Network Language Model,神经网络语言模型)进行计算。具体地,每一个NNLM会设置输入层的词汇个数,例如设置NNLM的输入词汇窗口是3,那么输入层的节点数即为3×D,其中,D为向量的维度。将最近三个词汇的向量V1,V2,V3进行收尾串接得到向量序列V(V1,V2,V3),将V(V1,V2,V3)输入到NNLM中,输出可以得到向量V1,V2,V3的多元关系得分。
方式三
通过RNN(Recurrent Neural Networks,循环神经网络)进行计算。具体地,可以不限定输入词汇窗口内词汇的数目,将每一个词汇的向量都输入到RNN中,得到隐含层表示;这个隐含层表示会和下一次输入联合起来作为下一次RNN的输入;输出层的神经元个数与元词词表大小相同,每一个神经元的输出则为该词汇被预测的概率。
在本发明的一种可选实施例中,一个元词可以对应有多种不同的向量表示,以使在不同的输入场景中,根据向量计算得到的多元关系更加准确。例如,对于不同的输入场景如QQ(即时通信软件),地图,游戏,word(文字处理程序)等,可以采用不同的向量表示。例如,某一个元词在地图中可以表示某个地名,但是在其它场景中却具有不同的含义。因此,对元词设置多种不同的向量,可以在不同的输入场景中,获取与输入场景相对应的向量,以提高向量表示的准确性。
可以理解,在实际应用中,对于词向量库的具体使用方法,本发明实施例不加以限制,例如,在输入过程中,可以单独使用词向量库来计算多元关系;或者,还可以使用***词库、***n元库、以及词向量库的组合方式,通过综合计算得到多元关系等。
本发明实施例通过词向量库,可以查询得到各元词对应的向量,从而可以计算得到元词之间的多元关系得分,以表示元词之间连接关系的强弱。由于词向量库仅需存储元词对应的向量,可以不存储实际的n元关系,因此,在词库大小有限的情况下,可以得到更多的n元关系,使得n元关系的覆盖更广。
方法实施例三
本实施例在上述实施例二的基础上,可以结合***n元库中的多元关系,以及通过向量计算得到的多元关系来确定输入串对应的候选项,以利用***n元库在高频词汇方面的优势,以及词向量库在多元关系覆盖方面的优势,使得组词结果更加准确。
参照图3,示出了本发明的一种输入方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤301、获取输入串对应的第一向量序列;
步骤302、依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
步骤303、获取所述输入串对应的***词序列;
步骤304、确定所述***词序列对应的第二多元关系得分;
步骤305、依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
在本发明实施例中,在接收到用户的输入串后,首先,获取该输入串对应的第一向量序列以及***词序列;然后,分别计算得到第一向量序列对应的第一多元关系得分,以及***词序列对应的第二多元关系得分;最后,根据第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。其中,所述获取所述输入串对应的***词序列的步骤,具体可以包括:
步骤S21、依据***词对所述输入串进行切分,以得到第二字符切分结果;
步骤S22、获取所述第二字符切分结果对应的***词序列。
其中,所述***词可以采用现有的***词库中存储的***词。在本发明的一种应用示例中,接收到用户的输入串为“meilijianhezhongguodezhou”,通过查询***词库,可以将该输入串按照***词进行切分,得到对应的***词序列可以为“***合众国|德州”,在***词库中,***词可以包括元词或者复合词,由于复合词“***合众国”为一个常用的专有名词,其整体具有特殊意义,因此,复合词“***合众国”也可以作为一个***词进行存储。而如果按照元词对该输入串进行切分,则可以得到如下元词序列:“***|合众国|德州”。
本发明实施例通过两种切分方式,对输入串进行切分,以获得输入串对应的元词序列和***词序列,分别计算元词序列中各元词之间的多元关系得分,以及***词序列中各***词之间的多元关系得分,最终根据得分排序确定输入串对应的候选项,以使得获得的候选项更加准确。具体地,可以通过如下步骤确定所述***词序列对应的第二多元关系得分:
步骤S31、在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
在具体应用中,***词库中存储有***词以及***词对应的词频,通过查询***词库,可以得到所述***词序列中各***词对应的词频,通过计算各词频的乘积可以得到所述***词序列对应的一元组词得分。
在本发明的一种应用示例中,假设接收到用户的输入串为“gongjijintiantianjiang”(对应中文为:公积金天天降)。依据***词对该输入串进行切分,可以切分成若干种音节序列,例如:Gongji|jintian|tianjiang,gongjijin|tiantian|jiang,gong|jijin|tiantian|jiang等;其中每一种音节序列都可以对应一个或多个***词序列,例如“gongji|jintian|tianjiang”可能对应的***词序列包括“攻击|今天|天降”,“公鸡|今天|天降”等等;“gongjijin|tiantian|jiang”可以对应“公积金|天天|降”等***词序列。
依据上述***词序列中各***词对应的词频,计算每一个***词序列对应的一元组词得分,例如,对于***词序列“公积金|天天|降”,通过查询***词库,得到***词对应的词频为:p(公积金)、p(天天)、p(降);则通过计算各词频的乘积可以得到该***词序列对应的一元组词得分scoreA,具体地,scoreA=p(公积金)×p(天天)×p(降)。
步骤S32、在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
在计算上述一元组词得分之后,可以进一步判断所述***词序列中是否存在二元关系,具体地,可以利用所述***词序列中的***词查询***n元库,例如,查询得到***词“天天”和“降”具有二元关系,并查询得到该二元关系得分为scoreB,***词“公积金”和“天天”之间不存在二元关系,因此,可以得到该***词序列对应的二元组词得分为scoreB。
步骤S33、依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
在本发明的一种可选实施例中,可以依据所述一元组词得分以及二元组词得分的乘积,确定所述***词序列对应的第二多元关系得分score,则score=scoreA×scoreB。通过上述步骤,可以计算得到所有***词序列对应的第二多元关系得分score1、score2、……scoreN。
在上述应用示例中,输入串可以对应有如下第一元词序列:“攻击|今天|天降”、“公鸡|今天|天降”、“公积金|天天|降”,通过查询词向量库得到其中各元词对应的向量,从而得到上述各第一元词序列对应的第一向量序列,通过计算得到各第一向量序列对应的第一多元关系得分score1’、score2’、……scoreN’。
最后,将计算得到的第一多元关系得分以及第二多元关系得分一起进行排序,依据得分的高低,输出所述输入串对应的候选项。例如,第一元词序列“公积金|天天|降”对应的第一多元关系得分最高,***词序列“公积金|天天讲”对应的第二多元关系得分次高,则可以将“公积金天天降”、“公积金|天天讲”作为候选项输出,并且将候选项“公积金天天降”排在候选项“公积金|天天讲”的前面。
由此,完成了结合***词库、***n元库、以及词向量库进行组词的过程,利用***n元库在高频词汇方面的优势,以及词向量库在多元关系覆盖方面的优势,使得组词结果更加准确。
可以理解,在上述应用示例中,对输入串进行元词和***词两种方式的切分,以及分别计算对应的第一多元关系得分和第二多元关系得分,再确定候选项,该过程综合对比了***n元库中的多元关系,以及通过向量计算得到的多元关系,虽然可以保证最终获得的候选项更加准确,但是需要的计算量也比较大。因此,在实际的输入过程中,可以根据需要灵活使用***词库、***n元库、以及词向量库。例如,可以先依据***词对输入串进行切分,以得到***词序列,通过查询***n元库,计算得到第二多元关系得分,如果该第二多元关系得分已经足够高,例如大于某一预设阈值,则认为可以通过该***词序列确定候选项,不用再执行对输入串按照元词进行切分,以及计算第一多元关系得分的过程了。从而可以节省一部分的计算量,进一步提高输入效率。
综上,在本发明实施例中,在接收到用户的输入串后,首先,获取该输入串对应的第一向量序列以及***词序列;然后,分别计算得到第一向量序列对应的第一多元关系得分,以及***词序列对应的第二多元关系得分;最后,根据第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。由此,本发明实施例可以结合***n元库以及词向量库综合计算多元关系得分,以利用***n元库在高频词汇方面的优势,以及词向量库在多元关系覆盖方面的优势,使得组词结果更加准确。
方法实施例四
本实施例在上述实施例二的基础上,详细说明在输入过程中,利用已建立的词向量库进行调频的过程。参照图4,示出了本发明的一种输入方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤401、获取输入串对应的第一向量序列;
步骤402、依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
步骤403、依据所述第一多元关系得分,确定所述输入串对应的候选项;
步骤404、获取所述输入串的上文和/或下文对应的第二元词序列;
步骤405、查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
步骤406、对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
步骤407、计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
本发明实施例还可以根据已建立的词向量库对候选项的排序进行调整。在本发明的一种应用示例中,例如当前输入串为“px”,该输入串的上文为“去海边抓”,可以对输入串“px”在***词库、用户词库等词库中进行查词,获取该输入串对应的候选项可以包括:“排序”、“皮鞋”、“培训”、“螃蟹”等。
首先,获取上文“去海边抓”对应的第二元词序列为“去|海边|抓”,通过查询词向量库,得到上述第二元词序列“去|海边|抓”中各元词对应的向量,其中,“去”对应的向量为V1,“海边”对应的向量为V2,“抓”对应的向量为V3。对上述第二元词序列中各元词对应的向量依次串接,得到第二向量序列(V1,V2,V3)。
可以理解,上述将各向量串接得到第二向量序列,仅作为本发明的一种应用示例,在实际应用中,所述第二向量序列还可以通过其它方式得到,例如还可以利用RNN(Recurrent neural Network、循环神经网络)模型等,将各元词对应的向量表示为整体上文对应的第二向量序列。
然后,获取输入串“px”对应的第一向量序列,由于输入串“px”对应的候选项本身就是元词,可以不用进行元词划分,通过查询词向量库得到“排序”对应的向量为V4,“皮鞋”对应的向量为V5,“培训”对应的向量为V6,“螃蟹”对应的向量为V7。也即第一向量序列包括V4、V5、V6或者V7等。
接下来,计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。具体地,计算V4与(V1,V2,V3)之间的二元关系得分,V5与(V1,V2,V3)之间的二元关系得分,V6与(V1,V2,V3)之间的二元关系得分等等。假设V7与(V1,V2,V3)之间的二元关系得分最高,则可以将V7对应的候选项“螃蟹”排在最前面。
在本发明实施例中,可以利用预置模型计算所述第一向量序列与第二向量序列之间的第三多元关系得分,以及根据该第三多元关系得分修改候选项的词频,对候选列表重新排序。
在上述示例中,将“去海边抓”作为输入串的上文,可以理解,在实际应用中,对于获取的上文长度本发明实施例不加以限制,例如,也可以仅将“抓”作为上文,则可以分别计算“抓”与“排序”、“皮鞋”、“培训”、“螃蟹”等候选项之间的二元关系得分,或者将“海边抓”作为上文等。本发明实施例优选地将上文中的多个元词拼接作为上文,例如上述示例中的上文“去海边抓”,该上文由三个元词组词,由此使得在调频时,对上文考虑的更加全面,进而将更加符合上下文环境的候选项排在前面。例如,在现有技术中,仅将“抓”作为上文,与“抓”具有二元关系的候选词有可能包括“螃蟹”、“小偷”等,甚至“抓|小偷”比“抓|螃蟹”的二元关系得分更高。而将“去海边抓”整体作为上文的话,则“去|海边|抓|螃蟹”显然比“去|海边|抓|小偷”更加合理,二元关系得分也很有可能更大,从而使得候选项“螃蟹”可以排在靠前的位置。
本发明实施例可以获取输入串对应的第一向量序列,以及输入串的上文和/或下文对应的第二向量序列,依据预置的多元关系计算规则,计算所述第一向量序列与第二向量序列之间的二元关系得分,依据所述二元关系得分对所述输入串对应的候选项的排序进行调整,相对于现有技术,可以在调频时考虑更多的上文,从而可以提高调频的准确度。
方法实施例五
本实施例在上述实施例二的基础上,详细说明在输入过程中,利用已建立的词向量库进行联想的过程。参照图5,示出了本发明的一种输入方法实施例五的步骤流程图,具体可以包括如下步骤:
步骤501、依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
步骤502、获取所述联想候选项对应的第三向量序列;
步骤503、计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
在本发明的一种应用示例中,假设接收到用户当前的输入串为“p”,上文为“去海边抓”,则可以通过当前已经输入的输入串“p”和对应的上文,联想出最有可能的候选项。具体地,首先,获取所述上文对应的第二元词序列:“去|海边|抓”;通过查询词向量库,得到上文对应的第二向量序列(V1,V2,V3)。然后,遍历目标候选集合,找出其中和输入串“p”匹配的联想候选,例如联想候选项可以包括:“螃蟹”、“捕”、“破”等,其中,所述目标候选集合具体可以为***词库、用户词库等;在词向量库中查找上述每一个联想候选对应的向量,以及分别得到对应的第三向量序列,记为Ui;最后,将(V1,V2,V3)和Ui输入到预置模型,计算(V1,V2,V3)和Ui之间的二元关系得分,利用该二元关系得分对联想候选进行排序。
在实际应用中,在上文为“去海边抓”,且用户还没有输入任何输入串时,即可使用联想功能获取上文“去海边抓”对应的最有可能的候选项。
本发明实施例在用户输入过程中,可以通过获取上文对应的第二向量序列,以及联想候选项对应的第三向量序列,计算得到上文与联想候选项之间的二元关系得分,从而可以按得分高低确定联想候选项。本发明实施例可以在联想过程中,考虑到2-gram以上的多元关系,从而可以使得到的联想候选项更加准确。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种输入装置实施例的结构框图,具体可以包括如下模块:
第一向量序列获取模块601,用于获取输入串对应的第一向量序列;
第一多元关系计算模块602,用于依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;以及
候选项确定模块603,用于依据所述第一多元关系得分,确定所述输入串对应的候选项。
在本发明的一种可选实施例中,所述第一向量序列获取模块601,具体可以包括:
第一切分子模块,用于依据元词对用户的输入串进行切分,以得到第一字符切分结果;
第一元词序列获取子模块,用于获取所述第一字符切分结果对应的第一元词序列;
第一查询子模块,用于查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
第一向量序列确定子模块,用于对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
在本发明的另一种可选实施例中,可以通过如下步骤建立所述词向量库:
获取词库中元词对应的元词号;
对所述词库中的元词生成对应的向量;
依据所述元词号与所述向量之间的映射关系,建立词向量库。
在本发明的又一种可选实施例中,所述装置还可以包括:
***词序列获取模块,用于获取所述输入串对应的***词序列;
第二多元关系得分确定模块,用于确定所述***词序列对应的第二多元关系得分;
则所述候选项确定模块603,具体可以包括:
候选项确定子模块,用于依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
在本发明的再一种可选实施例中,所述***词序列获取模块,具体可以包括:
第二切分子模块,用于依据***词对所述输入串进行切分,以得到第二字符切分结果;
***词序列确定子模块,用于获取所述第二字符切分结果对应的***词序列。
在本发明的再一种可选实施例中,所述第二多元关系得分确定模块,具体可以包括:
一元组词得分计算子模块,用于在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
二元组词得分计算子模块,用于在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
第二多元关系得分计算子模块,用于依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
在本发明的再一种可选实施例中,所述装置还可以包括:
第二元词序列获取模块,用于获取所述输入串的上文和/或下文对应的第二元词序列;
第二查询模块,用于查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
第二向量序列确定模块,用于对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
排序调整模块,用于计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
在本发明的再一种可选实施例中,所述装置还可以包括:
联想候选项获取模块,用于依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
第三向量序列获取模块,用于获取所述联想候选项对应的第三向量序列;
联想候选排序模块,用于计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于输入的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种输入方法,所述方法包括:获取输入串对应的第一向量序列;依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;依据所述第一多元关系得分,确定所述输入串对应的候选项。
图8是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种输入方法、一种输入装置和一种用于输入的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种输入方法,其特征在于,包括:
获取输入串对应的第一向量序列;
依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
依据所述第一多元关系得分,确定所述输入串对应的候选项;
所述获取输入串对应的第一向量序列的步骤,包括:
依据元词对用户的输入串进行切分,以得到第一字符切分结果;
获取所述第一字符切分结果对应的第一元词序列;
查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
2.根据权利要求1所述的方法,其特征在于,通过如下步骤建立所述词向量库:
获取词库中元词对应的元词号;
对所述词库中的元词生成对应的向量;
依据所述元词号与所述向量之间的映射关系,建立词向量库。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述输入串对应的***词序列;
确定所述***词序列对应的第二多元关系得分;
则所述依据所述第一多元关系得分,确定所述输入串对应的候选项的步骤,包括:
依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
4.根据权利要求3所述的方法,其特征在于,所述获取所述输入串对应的***词序列的步骤,包括:
依据***词对所述输入串进行切分,以得到第二字符切分结果;
获取所述第二字符切分结果对应的***词序列。
5.根据权利要求3所述的方法,其特征在于,所述确定所述***词序列对应的第二多元关系得分的步骤,包括:
在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述输入串的上文和/或下文对应的第二元词序列;
查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
获取所述联想候选项对应的第三向量序列;
计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
8.一种输入装置,其特征在于,包括:
第一向量序列获取模块,用于获取输入串对应的第一向量序列;
第一多元关系计算模块,用于依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;以及
候选项确定模块,用于依据所述第一多元关系得分,确定所述输入串对应的候选项;
所述第一向量序列获取模块包括:
第一切分子模块,用于依据元词对用户的输入串进行切分,以得到第一字符切分结果;
第一元词序列获取子模块,用于获取所述第一字符切分结果对应的第一元词序列;
第一查询子模块,用于查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
第一向量序列确定子模块,用于对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
建立模块,用于建立所述词向量库:
所述建立模块,包括:
元词号获取模块,用于获取词库中元词对应的元词号;
向量生成模块,用于对所述词库中的元词生成对应的向量;
库建立模块,用于依据所述元词号与所述向量之间的映射关系,建立词向量库。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
***词序列获取模块,用于获取所述输入串对应的***词序列;
第二多元关系得分确定模块,用于确定所述***词序列对应的第二多元关系得分;
则所述候选项确定模块,包括:
候选项确定子模块,用于依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
11.根据权利要求10所述的装置,其特征在于,所述***词序列获取模块,包括:
第二切分子模块,用于依据***词对所述输入串进行切分,以得到第二字符切分结果;
***词序列确定子模块,用于获取所述第二字符切分结果对应的***词序列。
12.根据权利要求10所述的装置,其特征在于,所述第二多元关系得分确定模块,包括:
一元组词得分计算子模块,用于在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
二元组词得分计算子模块,用于在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
第二多元关系得分计算子模块,用于依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二元词序列获取模块,用于获取所述输入串的上文和/或下文对应的第二元词序列;
第二查询模块,用于查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
第二向量序列确定模块,用于对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
排序调整模块,用于计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
联想候选项获取模块,用于依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
第三向量序列获取模块,用于获取所述联想候选项对应的第三向量序列;
联想候选排序模块,用于计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
15.一种用于输入的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取输入串对应的第一向量序列;
依据预置的多元关系计算规则,计算得到所述第一向量序列对应的第一多元关系得分;
依据所述第一多元关系得分,确定所述输入串对应的候选项;
所述获取输入串对应的第一向量序列,包括:
依据元词对用户的输入串进行切分,以得到第一字符切分结果;
获取所述第一字符切分结果对应的第一元词序列;
查询已建立的词向量库,获取所述第一元词序列中各元词对应的向量;
对所述第一元词序列中各元词对应的向量依次串接,得到所述输入串对应的第一向量序列。
16.根据权利要求15所述的装置,其特征在于,通过如下步骤建立所述词向量库:
获取词库中元词对应的元词号;
对所述词库中的元词生成对应的向量;
依据所述元词号与所述向量之间的映射关系,建立词向量库。
17.根据权利要求15所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取所述输入串对应的***词序列;
确定所述***词序列对应的第二多元关系得分;
则所述依据所述第一多元关系得分,确定所述输入串对应的候选项,包括:
依据所述第一多元关系得分以及第二多元关系得分的排序,确定所述输入串对应的候选项。
18.根据权利要求17所述的装置,其特征在于,所述获取所述输入串对应的***词序列,包括:
依据***词对所述输入串进行切分,以得到第二字符切分结果;
获取所述第二字符切分结果对应的***词序列。
19.根据权利要求17所述的装置,其特征在于,所述确定所述***词序列对应的第二多元关系得分,包括:
在***词库中查询得到所述***词序列中各***词对应的词频,计算得到所述***词序列对应的一元组词得分;
在所述***词序列中存在二元关系时,依据所述二元关系,计算得到所述***词序列对应的二元组词得分;
依据所述一元组词得分以及二元组词得分,确定所述***词序列对应的第二多元关系得分。
20.根据权利要求15所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取所述输入串的上文和/或下文对应的第二元词序列;
查询已建立的词向量库,获取所述第二元词序列中各元词对应的向量;
对所述第二元词序列中各元词对应的向量依次串接,得到第二向量序列;
计算所述第一向量序列与第二向量序列之间的第三多元关系得分,依据所述第三多元关系得分对所述输入串对应的候选项的排序进行调整。
21.根据权利要求 20所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据所述输入串的上文和/或下文,获取所述输入对应的联想候选项;
获取所述联想候选项对应的第三向量序列;
计算所述第二向量序列与第三向量序列之间的第四多元关系得分,依据所述第四多元关系得分对所述联想候选项进行排序展示。
22.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的输入方法。
CN201610350134.5A 2016-05-24 2016-05-24 一种输入方法、装置和用于输入的装置 Active CN107422872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610350134.5A CN107422872B (zh) 2016-05-24 2016-05-24 一种输入方法、装置和用于输入的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610350134.5A CN107422872B (zh) 2016-05-24 2016-05-24 一种输入方法、装置和用于输入的装置

Publications (2)

Publication Number Publication Date
CN107422872A CN107422872A (zh) 2017-12-01
CN107422872B true CN107422872B (zh) 2021-11-30

Family

ID=60422811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610350134.5A Active CN107422872B (zh) 2016-05-24 2016-05-24 一种输入方法、装置和用于输入的装置

Country Status (1)

Country Link
CN (1) CN107422872B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110292B (zh) * 2018-01-29 2023-11-14 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110244861B (zh) * 2018-03-09 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置
CN111752397B (zh) * 2019-03-29 2024-06-04 北京搜狗科技发展有限公司 一种候选词确定方法及装置
CN112684909B (zh) * 2020-12-29 2024-05-31 科大讯飞股份有限公司 输入法联想效果评测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
CN101644961A (zh) * 2009-08-14 2010-02-10 北京搜狗科技发展有限公司 一种编码串排序的方法、装置和一种文字输入方法、装置
CN101697109A (zh) * 2009-10-26 2010-04-21 北京搜狗科技发展有限公司 一种获取输入法候选项的方法及***
CN102455845A (zh) * 2010-10-14 2012-05-16 北京搜狗科技发展有限公司 一种文字输入方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
CN101644961A (zh) * 2009-08-14 2010-02-10 北京搜狗科技发展有限公司 一种编码串排序的方法、装置和一种文字输入方法、装置
CN101697109A (zh) * 2009-10-26 2010-04-21 北京搜狗科技发展有限公司 一种获取输入法候选项的方法及***
CN102455845A (zh) * 2010-10-14 2012-05-16 北京搜狗科技发展有限公司 一种文字输入方法和装置

Also Published As

Publication number Publication date
CN107422872A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
CN107608532B (zh) 一种联想输入方法、装置及电子设备
CN107221330B (zh) 标点添加方法和装置、用于标点添加的装置
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN107305438B (zh) 候选项的排序方法和装置、用于候选项排序的装置
CN111368541B (zh) 命名实体识别方法及装置
CN107291704B (zh) 处理方法和装置、用于处理的装置
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN107422872B (zh) 一种输入方法、装置和用于输入的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108628819B (zh) 处理方法和装置、用于处理的装置
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN108628461B (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN108073294B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN112987941B (zh) 生成候选词的方法及装置
CN109426359B (zh) 一种输入方法、装置以及机器可读介质
CN109471538B (zh) 一种输入方法、装置和用于输入的装置
CN113589949A (zh) 一种输入方法、装置和电子设备
CN109976548B (zh) 一种输入方法及输入装置
CN112214114A (zh) 一种输入方法、装置和电子设备
CN112149748B (zh) 图像分类方法及装置、电子设备和存储介质
US20230196001A1 (en) Sentence conversion techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant