CN109426358B - 信息输入方法和装置 - Google Patents

信息输入方法和装置 Download PDF

Info

Publication number
CN109426358B
CN109426358B CN201710781155.7A CN201710781155A CN109426358B CN 109426358 B CN109426358 B CN 109426358B CN 201710781155 A CN201710781155 A CN 201710781155A CN 109426358 B CN109426358 B CN 109426358B
Authority
CN
China
Prior art keywords
word
character string
sub
words
substring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710781155.7A
Other languages
English (en)
Other versions
CN109426358A (zh
Inventor
李阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710781155.7A priority Critical patent/CN109426358B/zh
Publication of CN109426358A publication Critical patent/CN109426358A/zh
Application granted granted Critical
Publication of CN109426358B publication Critical patent/CN109426358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了信息输入方法和装置。该方法的一具体实施方式包括:获取用户输入的字符串,以及将字符串划分为多个子字符串;基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语;基于每一个子字符串对应的词语,生成字符串对应的语句。实现了在生成语句的过程中,仅在已经确定出的词语的基础上通过词语序号查询出与已经确定出的词语具有组合关系的词语,无需判断每一个子字符串对应的所有词语之间是否存在组合关系,提升了生成语句的速度。

Description

信息输入方法和装置
技术领域
本申请涉及计算机领域,具体涉及输入法领域,尤其涉及信息输入方法和装置。
背景技术
目前,在一些输入法中,提供对用户输入的字符串进行整句变换,生成字符串对应的语句的功能。通常的整句变换方式为:将字符串划分为多个子字符串,依次查询出每一个子字符串对应的所有词语,判断每一个子字符串对应的所有词语之间是否存在组合关系,根据判断结果,最终确定用于生成字符串对应的语句的每一个子字符串对应的词语,生成字符串对应的语句。
然而,上述整句变换方式需要分别判断每一个子字符串对应的所有词语之间是否存在组合关系,一些与待生成的整句无关联的词语也需要判断是否与其他词语存在组合关系,导致生成语句的开销较大。
发明内容
本申请提供了信息输入方法和装置,用于解决上述背景技术部分存在的技术问题。
第一方面,本申请提供了信息输入方法,该方法包括:获取用户输入的字符串,以及将字符串划分为多个子字符串;基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,词语组合信息包括:具有组合关系的词语的词语序号,词语的词语序号基于词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定;基于每一个子字符串对应的词语,生成字符串对应的语句。
第二方面,本申请提供了信息输入装置,该装置包括:获取单元,配置用于获取用户输入的字符串,以及将字符串划分为多个子字符串;查询单元,配置用于基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,词语组合信息包括:具有组合关系的词语的词语序号,词语的词语序号基于词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定;生成单元,配置用于基于每一个子字符串对应的词语,生成字符串对应的语句。
本申请提供的信息输入方法和装置,通过获取用户输入的字符串,以及将字符串划分为多个子字符串;基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,词语组合信息包括:具有组合关系的词语的词语序号,词语的词语序号基于词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定;基于每一个子字符串对应的词语,生成字符串对应的语句。实现了在生成语句的过程中,仅在已经确定出的词语的基础上通过词语序号查询出与已经确定出的词语具有组合关系的词语,无需判断每一个子字符串对应的所有词语之间是否存在组合关系,提升了生成语句的速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请的信息输入方法或装置的实施例的示例性***架构;
图2示出了根据本申请的信息输入方法的一个实施例的流程图;
图3示出了字符串序号与词语序号的对应关系的一个效果示意图;
图4示出了二元关系表的一个结构示意图;
图5示出了从字典树中查询一个字符串的字符串序号的示意图;
图6示出了根据本申请的信息输入装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息输入方法或装置的实施例的示例性***架构。
如图1所示,***架构可以包括终端101、102、103,网络104和服务器105。网络104用以在终端101、102、103和服务器105之间提供传输链路的介质。网络104可以包括各种连接类型,例如有线、无线传输链路或者光纤电缆等等。
用户可以使用终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端101、102、103上可以安装有输入法应用、浏览器应用。
终端101、102、103可以是具有显示屏并且支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
服务器105可以是对终端101、102、103上的输入法应用提供支持的服务器。服务器105可以接收终端101、102、103发送的包含终端101、102、103的用户输入的字符串的输入请求,查询出终端101、102、103的用户输入的字符串对应的语句,将查询出的用户输入的字符串对应的语句发送至终端101、102、103。
应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络和服务器。
请参考图2,其示出了根据本申请的信息输入方法的一个实施例的流程。需要说明的是,本实施例所提供的信息输入方法可以由终端或服务器(例如图1中的终端101、102、103或服务器105)执行。该方法包括以下步骤:
步骤201,获取用户输入的字符串,以及将字符串划分为多个子字符串。
在本实施例中,用户输入的字符串的长度可以大于长度阈值,在接收到用户输入的字符串之后,可以查询出用户输入的字符串对应的语句。
在本实施例中,可以由终端或服务器获取用户输入的字符串,以及将用户输入的字符串划分为多个子字符串。当由终端生成用户输入的字符串对应的语句时,可以在终端上检测用户的输入操作,在终端上获取到用户输入的字符串。当由服务器生成终端的用户输入的字符串对应的语句时,可以首先在终端检测用户的输入操作,获取到用户输入的字符串之后,由终端向服务器发送包含终端的用户输入的字符串的输入请求,从而,服务器可以获取到终端的用户输入的字符串。
在获取到用户输入的字符串之后,可以将用户输入的字符串划分为多个子字符串。例如,用户输入的字符串为“jinjitongzhi”,可以将该字符串划分为子字符串“jinji”和子字符串“tongzhi”。
步骤202,基于每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语。
在本实施例中,用户输入的字符串可以为多个词语的拼音,可以由终端或服务器基于将用户输入的字符串划分得到的多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语。
在本实施例中,一个字符串可以具有一个唯一的字符串序号,字符串序号为整数。一个字符串的字符串序号对应的词语集合可以包含对应的拼音均为该字符串的所有的词语。例如,字符串“tongzhi”的字符串序号为2,字符串序号2对应的词语集合包含对应的拼音均为“tongzhi”的所有词语,例如,字符串序号2对应的词语集合包含“通知”、“统治”、“同治”等词语。
在本实施例中,一个词语集合中的每一个词语可以具有一个唯一的词语序号,词语序号为整数。一个词语的词语序号可以基于该词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定。一个词语集合中的一个词语的词语序号可以比该词语的前一个词语的词语序号大1。一个词语集合中的首个词语的词语序号可以比该词语集合对应的字符串序号的前一字符串序号对应的词语集合中的最后一个词语的词语序号大1。
例如,字符串“jinjin”的字符串序号为1,字符串“tongzhi”的字符串序号为2。字符串序号1对应的词语集合包含对应的拼音均为“jinjin”的所有词语,例如字符串序号1对应的词语集合包含“紧急”、“晋级”、“谨记”。字符串序号2对应的词语集合包含对应的拼音均为“tongzhi”的所有词语,例如字符串序号2对应的词语集合包含“通知”、“统治”、“同治”。字符串序号1对应的词语集合中的“紧急”、“晋级”、“谨记”的词语序号可以为1、2、3。字符串序号2对应的词语集合中的首个词语的词语序号则可以从4开始,字符串序号2对应的词语集合中的“通知”、“统治”、“同治”的词语序号可以分别为4、5、6。
在本实施例的一些可选的实现方式中,词语集合中的每一个词语在词语集合中的次序可以根据词语对应的输入次数即词语被输入到输入区域中的次数而确定。例如,字符串“tongzhi”的字符串序号为2,字符串序号2对应的词语集合包含“通知”、“统治”、“同治”,字符串序号2对应的词语集合中的首个词语的词语序号从4开始,“通知”、“统治”、“同治”对应的输入次数由高至低依次为“通知”、“统治”、“同治”,则在字符串序号2对应的词语集合中对应的次序也依次为“通知”、“统治”、“同治”,“通知”、“统治”、“同治”的词语序号可以分别为4、5、6。
在本实施例中,词语组合信息包括:具有组合关系的词语的词语序号,组合关系可以为二元关系。词语组合信息可以包含多个信息项,例如,当组合关系为二元关系时,每一个信息项可以包含两个具有组合关系的词语的词语序号。例如,词语“紧急”和“通知”具有组合关系,词语“紧急”和“通知”可以对应一个信息项,该信息项可以包含词语“紧急”和“通知”的词语序号1、4。
请参考图3,其示出了字符串序号与词语序号的对应关系的一个效果示意图。
在本实施例中,可以预先建立表示字符串的字符串序号和字符串序号对应的词语集合以及字符串序号对应的词语集合中的词语的词语序号的对应关系的对应关系表,一个字符串对应的词语集合中的词语可以为多个,则在该对应关系表中,一个字符串序号可以对应多个词语的词语序号。该对应关系表中的每一个表项可以包含一个字符串的字符串序号、该字符串序号对应的词语集合和该字符串序号对应的词语集合中的每一个词语的词语序号。
在本实施例中,在基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语时,可以首先从预先建立的字符串与字符串序号的对应关系表中查询出用户输入的字符串中的每一个子字符串的字符串序号。然后,可以从表示字符串的字符串序号和字符串序号对应的词语集合以及字符串序号对应的词语集合中的词语的词语序号的对应关系的对应关系表中查询出将用户输入的字符串划分得到的多个子字符串中的每一个子字符串的字符串序号对应的词语集合和每一个子字符串的字符串序号对应的词语集合中的每一个词语的词语序号。
在本实施例中,一个字符串具有一个唯一字符串序号,对于将用户输入的字符串划分得到的多个子字符串中的相邻的子字符串,两个相邻的子字符串的各自的字符串序号对应的词语集合中的词语的词语序号也可称之为相邻的词语序号。
在查询出每一个子字符串的字符串序号对应的词语集合和每一个子字符串的字符串序号对应的词语集合中的每一个词语的词语序号之后,可以查询出满足以下条件的词语序号:相邻的词语序号均对应词语组合信息中的一个信息项。
例如,组合关系可以为二元关系,词语组合信息中的每一个信息项可以包含两个具有二元关系的词语的词语序号,查询出满足上述条件的相邻的词语序号可以相当于查询出的相邻的词语序号对应的词语均具有二元关系。从而,可以将查询出的满足上述条件的每一个词语序号对应的词语作为每一个子字符串对应的词语,生成用户输入的字符串对应的语句。
在本实施例的一些可选的实现方式中,在基于对用户输入的字符串进行划分得到的多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语时,可以通过执行一次查询操作,查询出最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语即查询出最新查询出的词语。可以执行多次查询操作,直至查询出每一个子字符串对应的词语。查询操作包括:确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号,其中,当首次执行查询操作时,最新查询出的词语为从多个子字符串中的首个子字符串对应的词语集合中选取出的词语;确定与最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合和词语集合中的词语的词语序号;从二元关系表中查询出包含最新查询出的词语的词语序号和最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号的表项,二元关系表中的表项包含具有组合关系的两个词语的词语序号;将查询出的表项中的最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号对应的词语作为最新查询出的词语对应的子字符串的后一子字符串对应的词语;判断最新查询出的词语对应的子字符串的后一子字符串是否为最后一个子字符串;若最新查询出的词语对应的子字符串的后一子字符串为最后一个子字符串,停止执行查询操作;若最新查询出的词语对应的子字符串的后一子字符串不是最后一个子字符串,将查询出的最新查询出的词语对应的子字符串的后一子字符串对应的词语作为最新查询出的词语,再次执行查询操作。
在本实施例中,分别查询出每一个字符串对应的一个词语的过程可以称之为依次查询过程。在一次查询过程中首次执行查询操作之前,当首个子字符串的字符串序号对应的词语集合中包含一个词语时,则可以将该词语作为最新查询出的词语,然后,再执行一个查询过程中的首次查询操作。
在执行一个查询过程的首次查询操作之前,当首个子字符串的字符串序号对应的词语集合中仅包含多个个词语时,可以从首个子字符串的字符串序号对应的词语集合中的多个词语中选取出一个词语作为最新查询出的词语。然后,再执行该查询过程的首次查询操作,在执行多次查询操作查询出每一个子字符串对应的词语之后,可以再次从首个子字符串的字符串序号对应的词语集合中的多个词语中选取出另一个词语作为最新查询出的词语,再执行下一个查询过程的首次查询操作,再次执行多次查询操作查询出每一个子字符串对应的词语。
在本实施例中,可以从对用户输入的字符串进行划分得到的多个子字符串中的首个子字符串开始,每执行一次查询操作,均可以根据最新查询出对用户输入的字符串进行划分得到的多个子字符串中的一个子字符串对应的词语,查询出该子字符串的后一子字符串对应的词语,直至依次查询出用户输入的字符串中的每一个子字符串对应的词语。
请参考图4,其示出了二元关系表的一个结构示意图。
在图4中,示出了二元关系表中包含具有二元关系的“紧急”和“通知”的词语序号1和4的表项和具有二元关系的“河神”和“剧透”的词语序号9和11的表项。
以用户输入的字符串包含的相邻的子字符串为“jinji”、“tongzhi”,最新查询出的词语为子字符串“jinji”所属的词语集合中的词语为“紧急”,执行查询操作确定最新查询出的词语对应的子字符串“jinji”的后一字符串“tongzhi”对应的词语为例,字符串“jinjin”的字符串序号为1,字符串“tongzhi”的字符串序号为2。字符串序号1对应的词语集合包含对应的拼音均为“jinjin”的所有词语,例如字符串序号1对应的词语集合包含“紧急”、“晋级”、“谨记”。字符串序号2对应的词语集合包含对应的拼音均为“tongzhi”的所有词语,例如字符串序号2对应的词语集合包含“通知”、“统治”、“同治”。字符串序号1对应的词语集合中的“紧急”、“晋级”、“谨记”的词语序号可以为1、2、3。字符串序号2对应的词语集合中的首个词语的词语序号则可以从4开始,字符串序号2对应的词语集合中的“通知”、“统治”、“同治”的词语序号可以分别为4、5、6。二元关系表中包含具有二元关系的词语的序号。“紧急”和“通知”在二元关系表中对应一个表项,该表项可以包含“紧急”和“通知”的词语序号即1和4。
当最新查询出的词语为子字符串“jinji”所属的词语集合中的词语为“紧急”,执行查询操作查询子字符串“jinji”的后一子字符串“tongzhi”对应的词语时,首先确定最新查询出的词语“紧急”对应的子字符串“jinji”的后一子字符串“tongzhi”的字符串序号即2。然后,可以获取字符串序号2对应的词语集合和字符串序号2对应的词语集合中的词语“通知”、“统治”、“同治”的词语序号即4、5、6。可以查询二元关系表中是否包含词语的序号4、5、6中的任意一个词语的序号和最新查询出的词语“紧急”的词语序号1的表项。当从二元关系表中查询出包含词语序号1和词语序号4的表项时,可以确定词语序号1对应的词语和词语序号4对应的词语具有二元关系,可以将词语序号4对应的词语“通知”作为最新查询出的词语“紧急”对应的子字符串“jinji”的后一子字符串“tongzhi”对应的词语。然后,可以将“通知”作为最新查询出的词语,再次执行查询操作,继续查询出子字符串“tongzhi”的后一子字符串对应的词语。
在本实施例的一些可选的实现方式中,可以预先构建字典树,字典树中的每一个非叶节点对应一个音节元素,每一个叶节点对应一个字符串,叶节点对应的字符串为叶节点至根节点之间的路径上的非叶节点对应的音节元素组成的字符串。音节元素可以为声母或韵母。在字典树中,可以根据每一个叶节点的位置,对所有叶节点进行排序,排序之后,一个叶节点可以具有一个节点序号,该节点序号也可以作为叶节点对应的字符串的字符串序号。在查询操作中确定一个子字符串的字符串序号时,可以在字典树中查询出该子字符串对应的叶节点,读取该叶节点的节点数据中的节点序号,则可以获取到该子字符串的字符串序号。例如,在查询操作中确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号,可以在字典树中查找出最新查询出的词语对应的子字符串的后一子字符串对应的叶节点,读取该叶节点的节点数据中的该叶节点的节点序号,则可以获取到该最新查询出的词语对应的子字符串的后一子字符串的字符串序号。
请参考图5,其示出了从字典树中查询一个字符串的字符串序号的示意图。
在图5中,示出了利用0表示的根节点,分别利用“sh”、“i”、“d”、“e”表示的非叶节点和利用“e”表示的非叶节点的子节点中的叶节点即字符串“shide”对应的叶节点。该叶节点对应的字符串为“shide”,即由该叶节点至根节点之间的路径上的非叶节点对应的字符串即“sh”、“i”、“d”、“e”组成的字符串。相应地,该叶节点对应字符串“shide”的字符串序号对应的包含“是的”、“似得”、“使得”等词语的词语集合。在需要查询字符串“shide”的字符串序号时,可以依序在字典树中查询出“sh”、“i”、“d”、“e”对应的非叶节点,从而,快速查询到字符串“shide”对应的叶节点,可以读取该叶节点的属性信息中的节点序号,确定该叶节点的节点序号,由于该叶节点的节点序号为该叶节点对应的字符串序号,因此,可以确定该字符串“shide”对应的字符串序号。
在本实施例的一些可选的实现方式中,可以预先构建查询数组,查询数组中的每一个数组元素的下标对应一个字符串序号。每一个数组元素包括:该数组元素的下标对应的字符串序号对应的词语集合和词语集合中的每一个词语的词语序号。在查询操作中获取与最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合和词语集合中的词语的词语序号时,可以读取出查询数据中的下标为最新查询出的词语对应的子字符串的后一子字符串的字符串序号的数组元素,该数组元素中包含最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合和该词语集合中的每一个词语的词语序号。
步骤203,基于每一个子字符串对应的词语,生成字符串对应的语句。
在本实施例中,可以由终端或服务器基于查询出的每一个子字符串对应的词语,生成用户输入的字符串对应的语句。当由终端基于查询出的每一个子字符串对应的词语,生成用户输入的字符串对应的语句时,可以在生成用户输入的字符串对应的语句之后,将生成的用户输入的字符串对应的语句作为候选结果呈现给用户,当用户选择该候选结果进行输入时,将生成的用户输入的字符串对应的语句输入到输入区域中。当由服务器基于查询出的每一个子字符串对应的词语,生成用户输入的字符串对应的语句时,服务器可以将生成的用户输入的字符串对应的语句发送至终端。终端在接收到该用户输入的字符串对应的语句之后,可以将该用户输入的字符串对应的语句作为候选结果呈现给用户,当用户选择该候选结果进行输入时,将生成的用户输入的字符串对应的语句输入到输入区域中。
在本实施例中,通过查询操作查询出的一个子字符串对应的词语可以为多个,即通过查询操作查询出的该子字符串对应的多个词语中每一个词语均与通过查询操作查询出的该子字符串的上一个子字符串对应的词语具有二元关系。
在本实施例中,可以根据查询出的每一个将用户输入的字符串进行划分得到的子字符串对应的词语之间的关联度,最终确定出用于生成语句的每一个将用户输入的字符串进行划分得到的子字符串对应的词语。例如,在词图中,通过查询操作查询出的每一个子字符串对应的词语与查询出的相邻的其他子字符对应的词语之间具有一个表示关联度的权重,可以在词图中查找出对应的权重最大的路径,将该路径上的每一个子字符串对应的词语作为最终的用于生成语句的子字符串对应的词语,从而,生成用户输入的字符串对应的语句。
请参考图6,作为对上述各图所示方法的实现,本申请提供了一种信息输入装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的信息输入装置包括:获取单元601,查询单元602,生成单元603。其中,获取单元601配置用于获取用户输入的字符串,以及将字符串划分为多个子字符串;查询单元602配置用于基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,词语组合信息包括:具有组合关系的词语的词语序号,词语的词语序号基于词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定;生成单元603配置用于基于每一个子字符串对应的词语,生成用户输入的字符串对应的语句。
在本实施例的一些可选的实现方式中,查询单元602包括:逐词查询单元,配置用于执行查询操作:确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号,其中,当首次执行查询操作时,最新查询出的词语为从多个子字符串中的首个子字符串的字符串序号对应的词语集合中选取出的词语;获取与确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号对应的词语集合和词语集合中的词语的词语序号;从二元关系表中查询出包含最新查询出的词语的词语序号和最新查询出的词语的词语序号的后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号的表项,其中,二元关系表中的表项包含具有组合关系的两个词语的词语序号;将查询出的表项中的最新查询出的词语的词语序号的后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号对应的词语作为后一子字符串对应的词语;判断后一子字符串是否为最后一个子字符串;若是,停止执行查询操作;若否,将后一子字符串对应的词语作为最新查询出的词语,以及再次执行查询操作。
在本实施例的一些可选的实现方式中,查询单元602进一步配置用于:在字典树中查询出最新查询出的词语对应的子字符串的后一子字符串对应的叶节点,其中,字典树中的每一个非叶节点对应一个音节元素,每一个叶节点对应的字符串为叶节点至根节点之间的路径上的非叶节点对应的音节元素组成的字符串;将最新查询出的词语对应的子字符串的后一子字符串对应的叶节点的节点序号作为最新查询出的词语对应的子字符串的后一子字符串的字符串序号。
在本实施例的一些可选的实现方式中,查询单元602进一步配置用于:在查询数组中查询出后一子字符串的字符串序号对应的数组元素,其中,查询数组中的每一个数组元素的下标对应一个字符串序号,查询数组中的数组元素包括:数组元素的下标对应的字符串序号对应的词语集合和词语集合中的词语的词语序号。
图7示出了适于用来实现本申请实施例的服务器的计算机***的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机***包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有计算机***操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:输入部分706;输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述实施例中的步骤201-203中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述实施例中的步骤201-203中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:获取用户输入的字符串,以及将字符串划分为多个子字符串;基于多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,词语组合信息包括:具有组合关系的词语的词语序号,词语的词语序号基于词语所属的词语集合对应的字符串序号和词语在词语集合中的次序而确定;基于每一个子字符串对应的词语,生成字符串对应的语句。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种信息输入方法,其特征在于,所述方法包括:
获取用户输入的字符串,以及将所述字符串划分为多个子字符串,其中,每一个子字符串具有一个唯一的字符串序号,一个字符串的字符串序号对应的词语集合包含对应的拼音均为该字符串的所有的词语,一个词语集合中的每一个词语具有一个唯一的词语序号;
通过预先建立的表示字符串的字符串序号和字符串序号对应的词语集合以及字符串序号对应的词语集合中的词语的词语序号的对应关系的对应关系表,基于所述多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,包括:基于迭代的方式,从所述多个子字符串中逐一查询与当前子字符串对应的词语具有组合关系的、所述当前子字符串的后一子字符串对应的词语;所述词语组合信息包括:具有组合关系的词语的词语序号,组合关系包括二元关系,所述词语组合信息的每个信息项包含两个具有组合关系的词语的词语序号,词语的词语序号基于所述词语所属的词语集合对应的字符串序号和所述词语在所述词语集合中的次序而确定;
基于所述每一个子字符串对应的词语,生成所述字符串对应的语句,
其中,所述基于所述每一个子字符串对应的词语,生成所述字符串对应的语句,包括:
在词图中,通过查询操作查询出的每一个子字符串对应的词语与查询出的相邻的其他子字符对应的词语之间具有一个表示关联度的权重,在词图中查找出对应的权重最大的路径,将该路径上的每一个子字符串对应的词语作为最终的用于生成语句的子字符串对应的词语。
2.根据权利要求1所述的方法,其特征在于,基于所述多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语包括:
执行查询操作:
确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号,其中,当首次执行查询操作时,最新查询出的词语为从多个子字符串中的首个子字符串的字符串序号对应的词语集合中选取出的词语;
获取与所述后一子字符串的字符串序号对应的词语集合和所述词语集合中的词语的词语序号;
从二元关系表中查询出包含最新查询出的词语的词语序号和所述后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号的表项,其中,二元关系表中的表项包含具有组合关系的两个词语的词语序号;
将查询出的表项中的所述后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号对应的词语作为所述后一子字符串对应的词语;
判断所述后一子字符串是否为最后一个子字符串;
若是,停止执行查询操作;
若否,将所述后一子字符串对应的词语作为最新查询出的词语,以及再次执行查询操作。
3.根据权利要求2所述的方法,其特征在于,所述确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号包括:
在字典树中查询出最新查询出的词语对应的子字符串的后一子字符串对应的叶节点,其中,字典树中的每一个非叶节点对应一个音节元素,每一个叶节点对应的字符串为所述叶节点至根节点之间的路径上的非叶节点对应的音节元素组成的字符串;
将最新查询出的词语对应的子字符串的后一子字符串对应的叶节点的节点序号作为最新查询出的词语对应的子字符串的后一子字符串的字符串序号。
4.根据权利要求3所述的方法,其特征在于,所述获取与所述后一子字符串的字符串序号对应的词语集合和所述词语集合中的词语的词语序号包括:
在查询数组中查询出所述后一子字符串的字符串序号对应的数组元素,其中,查询数组中的每一个数组元素的下标对应一个字符串序号,查询数组中的数组元素包括:所述数组元素的下标对应的字符串序号对应的词语集合和所述词语集合中的词语的词语序号。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于词语对应的输入次数,确定所述词语在所述词语所属的词语集合中的次序。
6.一种信息输入装置,其特征在于,所述装置包括:
获取单元,配置用于获取用户输入的字符串,以及将所述字符串划分为多个子字符串,其中,每一个子字符串具有一个唯一的字符串序号,一个字符串的字符串序号对应的词语集合包含对应的拼音均为该字符串的所有的词语,一个词语集合中的每一个词语具有一个唯一的词语序号;
查询单元,配置用于通过预先建立的表示字符串的字符串序号和字符串序号对应的词语集合以及字符串序号对应的词语集合中的词语的词语序号的对应关系的对应关系表,基于所述多个子字符串中的每一个子字符串的字符串序号和词语组合信息,分别确定每一个子字符串对应的词语,包括:基于迭代的方式,从所述多个子字符串中逐一查询与当前子字符串对应的词语具有组合关系的、所述当前子字符串的后一子字符串对应的词语;所述词语组合信息包括:具有组合关系的词语的词语序号,组合关系包括二元关系,所述词语组合信息的每个信息项包含两个具有组合关系的词语的词语序号,词语的词语序号基于所述词语所属的词语集合对应的字符串序号和所述词语在所述词语集合中的次序而确定;
生成单元,配置用于基于所述每一个子字符串对应的词语,生成所述字符串对应的语句;
其中,所述生成单元进一步配置用于在词图中,通过查询操作查询出的每一个子字符串对应的词语与查询出的相邻的其他子字符对应的词语之间具有一个表示关联度的权重,在词图中查找出对应的权重最大的路径,将该路径上的每一个子字符串对应的词语作为最终的用于生成语句的子字符串对应的词语。
7.根据权利要求6所述的装置,其特征在于,查询单元包括:
逐词查询单元,配置用于执行查询操作:确定最新查询出的词语对应的子字符串的后一子字符串的字符串序号,其中,当首次执行查询操作时,最新查询出的词语为从多个子字符串中的首个子字符串的字符串序号对应的词语集合中选取出的词语;获取与所述后一子字符串的字符串序号对应的词语集合和所述词语集合中的词语的词语序号;从二元关系表中查询出包含最新查询出的词语的词语序号和所述后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号的表项,其中,二元关系表中的表项包含具有组合关系的两个词语的词语序号;将查询出的表项中的所述后一子字符串的字符串序号对应的词语集合中的一个词语的词语序号对应的词语作为所述后一子字符串对应的词语;判断所述后一子字符串是否为最后一个子字符串;若是,停止执行查询操作;若否,将所述后一子字符串对应的词语作为最新查询出的词语,以及再次执行查询操作。
8.根据权利要求7所述的装置,其特征在于,查询单元进一步配置用于:在字典树中查询出最新查询出的词语对应的子字符串的后一子字符串对应的叶节点,其中,字典树中的每一个非叶节点对应一个音节元素,每一个叶节点对应的字符串为所述叶节点至根节点之间的路径上的非叶节点对应的音节元素组成的字符串;将最新查询出的词语对应的子字符串的后一子字符串对应的叶节点的节点序号作为最新查询出的词语对应的子字符串的后一子字符串的字符串序号。
9.根据权利要求8所述的装置,其特征在于,查询单元进一步配置用于:在查询数组中查询出所述后一子字符串的字符串序号对应的数组元素,其中,查询数组中的每一个数组元素的下标对应一个字符串序号,查询数组中的数组元素包括:所述数组元素的下标对应的字符串序号对应的词语集合和所述词语集合中的词语的词语序号。
10.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710781155.7A 2017-09-01 2017-09-01 信息输入方法和装置 Active CN109426358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710781155.7A CN109426358B (zh) 2017-09-01 2017-09-01 信息输入方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710781155.7A CN109426358B (zh) 2017-09-01 2017-09-01 信息输入方法和装置

Publications (2)

Publication Number Publication Date
CN109426358A CN109426358A (zh) 2019-03-05
CN109426358B true CN109426358B (zh) 2023-04-07

Family

ID=65513079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710781155.7A Active CN109426358B (zh) 2017-09-01 2017-09-01 信息输入方法和装置

Country Status (1)

Country Link
CN (1) CN109426358B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035597B (zh) * 2020-09-04 2023-11-21 常州新途软件有限公司 一种车载输入方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754736A (en) * 1994-09-14 1998-05-19 U.S. Philips Corporation System and method for outputting spoken information in response to input speech signals
CN103823814A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN106843520A (zh) * 2017-02-27 2017-06-13 百度在线网络技术(北京)有限公司 用于输出整句的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
CN100444167C (zh) * 2005-12-21 2008-12-17 中国科学院计算技术研究所 完美双数组trie树词典管理与检索方法
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
CN101290632B (zh) * 2008-05-30 2011-09-14 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法***
CN101644961A (zh) * 2009-08-14 2010-02-10 北京搜狗科技发展有限公司 一种编码串排序的方法、装置和一种文字输入方法、装置
CN102147796B (zh) * 2010-02-05 2014-10-15 阿里巴巴集团控股有限公司 一种词汇检索方法及其装置
CN103198149B (zh) * 2013-04-23 2017-02-08 中国科学院计算技术研究所 一种查询纠错方法和***
CN103927299A (zh) * 2014-04-25 2014-07-16 百度在线网络技术(北京)有限公司 输入法中候选语句的提供方法、输入内容推荐方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754736A (en) * 1994-09-14 1998-05-19 U.S. Philips Corporation System and method for outputting spoken information in response to input speech signals
CN103823814A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN106843520A (zh) * 2017-02-27 2017-06-13 百度在线网络技术(北京)有限公司 用于输出整句的方法和装置

Also Published As

Publication number Publication date
CN109426358A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
US10795939B2 (en) Query method and apparatus
US11062089B2 (en) Method and apparatus for generating information
JP6272417B2 (ja) 文抽出方法及びシステム
US10546002B2 (en) Multiple sub-string searching
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN111247528B (zh) 查询处理
CN112988753B (zh) 一种数据搜索方法和装置
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN110245357B (zh) 主实体识别方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN109426358B (zh) 信息输入方法和装置
CN107656627B (zh) 信息输入方法和装置
CN112784596A (zh) 一种识别敏感词的方法和装置
CN108664535B (zh) 信息输出方法和装置
CN113468529B (zh) 一种数据搜索方法和装置
CN110555204A (zh) 情绪判断的方法和装置
CN114490400A (zh) 一种处理测试用例的方法和装置
CN110209829B (zh) 信息处理方法和装置
CN109308299B (zh) 用于搜索信息的方法和装置
CN110647623B (zh) 用于更新信息的方法及装置
CN109426357B (zh) 信息输入方法和装置
CN109426356B (zh) 信息输入方法和装置
CN113127416A (zh) 数据查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant