CN110688837B - 数据处理的方法及装置 - Google Patents

数据处理的方法及装置 Download PDF

Info

Publication number
CN110688837B
CN110688837B CN201910926182.8A CN201910926182A CN110688837B CN 110688837 B CN110688837 B CN 110688837B CN 201910926182 A CN201910926182 A CN 201910926182A CN 110688837 B CN110688837 B CN 110688837B
Authority
CN
China
Prior art keywords
synonymous
pointer
phrase
question
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910926182.8A
Other languages
English (en)
Other versions
CN110688837A (zh
Inventor
田孟
周环宇
冯欣伟
余淼
戴松泰
***
时鸿剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910926182.8A priority Critical patent/CN110688837B/zh
Publication of CN110688837A publication Critical patent/CN110688837A/zh
Application granted granted Critical
Publication of CN110688837B publication Critical patent/CN110688837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种数据处理的方法及装置,涉及智能搜索领域,具体包括:基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。

Description

数据处理的方法及装置
技术领域
本申请涉及数据处理技术领域的智能搜索,尤其涉及一种数据处理的方法及装置。
背景技术
在提供搜索服务的搜索***中,用户可以在搜索框中输入搜索问题,搜索***可以为搜索问题匹配适应的答复结果。
现有技术中,搜索***中通常是基于用户输入的搜索问题的关键词,匹配关键词对应的答复结果。
但是在现有技术中的基于关键词搜索答复结果的方式中,因为关键词对应的答复结果可能较少,导致为用户提供的答复结果不够丰富,不能满足用户的搜索需求。
发明内容
本申请实施例提供一种数据处理的方法及装置,以解决现有技术中为用户提供的答复结果不够丰富的技术问题。
本申请实施例第一方面提供一种数据处理的方法,包括:
接收用户输入的搜索问题;
根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的;
确定所述至少一个目标搜索问题的答复结果;
输出所述答复结果。
本申请实施例中,在接收到用户输入的搜索问题后,先根据预先提取的同义词组集合对该搜索问题进行泛化,得到至少一个目标搜索问题,其中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,进而确定至少一个目标搜索问题的答复结果,并输出答复结果。即本申请实施例中,可以基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。
可选的,还包括:
从所述服务器的泛化***获取多个同义问题;
聚合所述多个同义问题,得到至少一个同义问题集合;
针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合。
本申请实施例中的根据泛化***的同义问题自动提取同义词组,相较于现有技术中只是根据字典或用户标注的同义词,可以具有下述优点:第一,能够获得更加复杂的同义词组,而不仅仅是传统意义的同义词,例如“三国志”,在用户提出的问题中可以为“三国志”或“名著三国志”等,通过同义问题可以将这种类型的同义词组提取出来,但是通过词典或百度词条的方式很难将这种同义词组提取出来。第二,能够获取一些非传统意义的同义词组,例如常见的拼写错误,如“红高梁”和“红高粱”,还有为了防止屏蔽,对输入做一些特殊的变换,如“张三”可能会被替换为“张san”等,而从词典或的百度词条中无法获取这些非传统意义的同义词。第三,能够获得一些热点新词的同义词组,例如“LOL”和“英雄联盟”,在字典中和百度词条中这些词的更新速度较慢,而泛化***的同义问题是根据线上的实时搜索的结果产生的,能够较快捕捉这些热点新词。
可选的,所述采用指针对每个组合进行对齐,得到所述同义词组集合,包括:
针对每个组合包括的第一同义问题和第二同义问题:
若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,
用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;
若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;
若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;
若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于所述第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
可选的,还包括:
按照预设的筛选条件对所述同义组集合进行筛选。
可选的,所述按照预设的筛选条件对所述同义组集合进行筛选,包括:
对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
本申请实施例中,考虑了同义词组是否在任何情况下都可以相互替换,因此筛选后的同义词组具有更高的准确率。
可选的,所述聚合所述多个同义问题之前,还包括:
将所述多个同义问题进行标准变换处理和去无用词处理;
所述聚合所述多个同义问题包括:聚合处理后的多个同义问题。
可选的,所述将所述多个同义问题进行标准变换处理,包括:
对每个所述同义问题进行英文字母的大写或小写变换;以及,
去除每个所述同义问题中的特殊符号和标点符号。
本申请实施例中,为了减少多个同义问题的标准不统一可能对提取同义问题造成的干扰,在聚合多个同义问题之前,可以将多个同义问题进行标准变换处理和去无用词处理,使得处理后的多个同义问题具有统一的标准,从而在根据处理后的多个同义问题进行后续步骤时,能得到较为准确的同义词组集合。
可选的,所述根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题,包括:
向服务器发送所述搜索问题;
接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
本申请实施例中,目标搜索问题由服务器确定,因此可以节约终端设备的计算资源。
本申请实施例第二方面提供一种数据处理的装置,包括:
接收模块,用于接收用户输入的搜索问题;
目标搜索问题得到模块,用于根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的;
答复结果确定模块,用于确定所述至少一个目标搜索问题的答复结果;
答复结果输出模块,用于输出所述答复结果。
可选的,还包括:
获取模块,用于从所述服务器的泛化***获取多个同义问题;
同义问题集合得到模块,用于聚合所述多个同义问题,得到至少一个同义问题集合;
同义词组集合得到模块,用于针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合。
可选的,所述同义词组集合得到模块具体用于:
针对每个组合包括的第一同义问题和第二同义问题:
若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,
用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;
若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;
若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;
若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于所述第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
可选的,还包括:
筛选模块,用于按照预设的筛选条件对所述同义组集合进行筛选。
可选的,所述筛选模块具体用于:
对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
可选的,还包括:
处理模块,用于将所述多个同义问题进行标准变换处理和去无用词处理;
所述聚合模块具体用于:聚合处理后的多个同义问题。
可选的,所述处理模块具体用于:
对每个所述同义问题进行英文字母的大写或小写变换;以及,
去除每个所述同义问题中的特殊符号和标点符号。
可选的,所述目标搜索问题模块具体用于:
向服务器发送所述搜索问题;
接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
本申请实施例第三方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述第一方面任一项所述的方法。
本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述第一方面中任一项所述的方法。
综上所述,本申请实施例相对于现有技术的有益效果:
本申请实施例中提供了一种数据处理的方法及装置,在接收到用户输入的搜索问题后,先根据预先提取的同义词组集合对该搜索问题进行泛化,得到至少一个目标搜索问题,其中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,进而确定至少一个目标搜索问题的答复结果,并输出答复结果。即本申请实施例中,可以基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。
附图说明
图1为本申请实施例提供的数据处理的方法适用的***架构示意图;
图2为本申请实施例提供的数据处理的方法的流程示意图;
图3为本申请实施例提供的数据处理的方法的另一流程示意图;
图4为本申请实施例提供的数据处理的方法的指针对齐示意图;
图5为本申请提供的数据处理装置的装置实施例的结构示意图;
图6是用来实现本申请实施例的数据处理的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例的终端设备可以包括:手机、平板电脑、笔记本电脑、台式电脑或者服务器等电子设备。
本申请实施例所描述的同义词组集合可以是包括多个同义词组的集合。需要说明的是,本申请实施例的同义词组不同于传统意义中的同义词,传统意义中的同义词通常是字典中记载的同义词,例如“猜测”的同义词为“推测”;而本申请实施例中,同义词组指的是具有相同含义的词或词组,其包括但不限于传统意义中的同义词,示例的,在本申请实施例中,词组“名著三国志”和“三国志”可以为同义词组,“驾照考试科目二”和“科二”可以为同义词组,“红高梁”和“红高粱”可以为同义词组等。
本申请实施例所描述的泛化***可以是现有技术中的泛化***,泛化***可以根据实时搜索的结果确定同义问题,本申请实施例对泛化***得到同义问题的具体方式不作限定。
如图1所示,图1为本申请实施例提供的方法所适用的应用场景架构示意图。
本申请实施例中,用户可以在终端设备11中输入搜索问题,则终端设备11可以接收到该搜索问题,终端设备11可以将该搜索问题发送给服务器12,服务器12中可以存储有预先根据泛化***的同义问题自动提取的同义词组集合,进而服务器12可以根据该预先提取的同义词组集合对搜索问题泛化得到至少一个目标搜索问题,进一步的,服务器12还可以确定至少一个目标搜索问题的答复结果,并将答复结果发送给终端设备11,终端设备11可以为用户输出该答复结果。
或者,终端设备11可以预先从服务器获取该同义词组集合,则终端设备11可以根据该同义词组集合对搜索问题泛化得到至少一个目标搜索问题,进一步的,终端设备11可以向服务器12发送该至少一个目标搜索问题,服务器12可以进一步确定该至少一个目标搜索问题的答复结果,并将答复结果发送给终端设备11,终端设备11可以为用户输出该答复结果。
或者,终端设备11可以预先从服务器获取该同义词组集合,则终端设备11可以根据该同义词组集合对搜索问题泛化得到至少一个目标搜索问题,进一步的,终端设备11可以进一步确定该至少一个目标搜索问题的答复结果,并为用户输出该答复结果。
或者,终端设备11可以预先根据服务器的泛化***自动提取该同义词组集合,则终端设备11可以根据该同义词组集合对搜索问题泛化得到至少一个目标搜索问题,进一步的,终端设备11可以进一步确定该至少一个目标搜索问题的答复结果,并为用户输出该答复结果。
可以理解,具体应用中,还可能存在其他的应用场景,本申请实施例对此不作具体限定。
如图2所示,图2为本申请实施例提供的数据处理的方法的流程示意图。该方法具体可以包括:
步骤S101:接收用户输入的搜索问题。
本申请实施例中,可以在终端设备中提供图形用户界面(graphical userinterface,GUI),在图形用户界面中可以设置用于接收用户输入的输入框、语音录入按钮等,使得用户可以在图形用户界面中通过文字、语音等方式输入搜索问题,可以理解,图形用户界面的具体内容可以根据实际的应用场景确定,本申请实施例对此不作具体限定。
本申请实施例中,搜索问题可以是用户根据自身需求输入的任意内容,搜索问题可以是句子,也可以是关键词等,本申请实施例对搜索问题不作具体限定。
步骤S102:根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的。
本申请实施例中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,具体应用中,可以根据实际的应用场景采取任意方式根据泛化***中的多个同义问题自动提取得到同义词组集合,本申请实施例对此不作具体限定。需要说明的是,具体的同义词组提取方式将在后续的实施例中详细说明,在此不作赘述。
本申请实施例中,根据同义词组集合对搜索问题进行泛化,得到至少一个目标搜索问题的具体实现可以是:确定搜索问题中的词组,对于每个词组,将该词组与同义词组集合进行匹配,得到每个词组对应的同义词组,进而根据各词组的同义词组对搜索问题中的词组进行替换,得到至少一个目标搜索问题。可以理解,具体应用中,可以根据实际的应用场景采取任意方式根据同义词组集合对搜索问题进行泛化,本申请实施例对此不作具体限定。
可选的,所述根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题,包括:向服务器发送所述搜索问题;接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
本申请实施例中,通过服务器对搜索问题进行泛化,得到至少一个目标搜索问题,因此,可以节约终端设备的计算资源,提升终端设备的计算资源。
步骤S103:确定所述至少一个目标搜索问题的答复结果。
本申请实施例中,终端设备可以在本地确定该至少一个目标搜索问题的答复结果。终端设备也可以从服务器接收该至少一个目标搜索问题的答复结果,可以节约终端设备的计算资源,提升终端设备的计算资源,本申请实施例对确定至少一个目标搜索问题的答复结果不作具体限定。
本申请实施例中,答复结果可以是与至少一个目标搜索问题匹配的任意内容,本申请实施例对答复结果不作具体限定。
即本申请前实施例中,考虑到自然语言的多样性,同一个搜索问题可能会有很多种不同的问法,尤其是在汉语中,同一个问句的表达方式多种多样,例如在问题“驾照考试科目二一共能考多少次”中“驾照考试”可以替换为“考驾照”,“科目二”可以替换为“科二、科2”,“一共”可以替换为”总共”,“能”可以替换为“可以”,“多少次”可以替换为“几次”,甚至“驾照考试科目二”直接可以替换为“科二”,这些同义词组相互替换组合起来会形成很多种不同问,每一种问句都有可能成为用户提出的问题。因此,本申请实施例中,基于用户输入的搜索问题泛化得到多个搜索问题后,能够准确回答同一个问句的不同问法,得到丰富的答复结果。
步骤S104:输出所述答复结果。
本申请实施例中,终端设备可以通过在图形用户界面中显示该答复结果的方式输出该答复结果,也可以通过其他任意形式输出答复结果,使得用户可以得到答复结果,本申请实施例催输出答复结果不作具体限定。
综上所述,本申请实施例中提供了一种数据处理的方法及装置,在接收到用户输入的搜索问题后,先根据预先提取的同义词组集合对该搜索问题进行泛化,得到至少一个目标搜索问题,其中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,进而确定至少一个目标搜索问题的答复结果,并输出答复结果。即本申请实施例中,可以基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。
可选的,如图3所示,示出了本申请实施例的数据处理方法中,提取同义词组集合的一种具体实现流程示意图,该方法包括:
步骤S201:从所述服务器的泛化***获取多个同义问题。
本申请实施例中,终端设备可以向服务器发送泛化***的同义问题获取请求,则服务器可以将泛化***的多个同义问题发送给终端设备。或者,在泛化***的同义问题库发生更新时,服务器主动将多个同义问题发送给终端设备,可以理解,还可以根据实际的应用场景采用其他方式从服务器的泛化***获取多个同义问题,本申请实施例对此不作具体限定。
本申请实施例的同义问题可以是泛化***是根据线上的实时搜索的结果产生的、具有相同含义的问题。示例性的,“驾照考试科目二一共能考多少次”和“科目二总共能考几次”可以被确定为同义问题。
本申请实施例中的根据泛化***的同义问题自动提取同义词组,相较于现有技术中只是根据字典或用户标注的同义词,可以具有下述优点:第一,能够获得更加复杂的同义词组,而不仅仅是传统意义的同义词,例如“三国志”,在用户提出的问题中可以为“三国志”或“名著三国志”等,通过同义问题可以将这种类型的同义词组提取出来,但是通过词典或百度词条的方式很难将这种同义词组提取出来。第二,能够获取一些非传统意义的同义词组,例如常见的拼写错误,如“红高梁”和“红高粱”,还有为了防止屏蔽,对输入做一些特殊的变换,如“张三”可能会被替换为“张san”等,而从词典或的百度词条中无法获取这些非传统意义的同义词。第三,能够获得一些热点新词的同义词组,例如“LOL”和“英雄联盟”,在字典中和百度词条中这些词的更新速度较慢,而泛化***的同义问题是根据线上的实时搜索的结果产生的,能够较快捕捉这些热点新词。
步骤S202:聚合所述多个同义问题,得到至少一个同义问题集合。
本申请实施例中,将多个同义问题聚合,能够扩大同义问题集合,进而根据具有丰富内容的同义问题集合可以提高同义词组提取的召回率。
示例性的,假设问题A的同义问题集合为A_set,问题B的同义问题集合为B_set,根据已有的同义词组集合,若经过同义词组替换之后A_set和B_set的交集不为空,则说明存在问题集合C,使得A==C且B==C,可得A==B,A_set中的所有问题与B_set中的所有问题同义,所以可以并将A_set和B_set合并。可选的,在实际应用中,在泛化***的正确率较低时,可以进一步设置A_set和B_set的交集的大小大于某一阈值时,才将A_set和B_set合并,以提高聚合的准确度。
可选的,所述聚合所述多个同义问题之前,还包括:将所述多个同义问题进行标准变换处理和去无用词处理;所述聚合所述多个同义问题包括:聚合处理后的多个同义问题。
本申请实施例中,为了减少多个同义问题的标准不统一可能对提取同义问题造成的干扰,在聚合多个同义问题之前,可以将多个同义问题进行标准变换处理和去无用词处理,使得处理后的多个同义问题具有统一的标准,从而在根据处理后的多个同义问题进行后续步骤时,能得到较为准确的同义词组集合。
作为本申请实施例的一种可选实现方式,所述将所述多个同义问题进行标准变换处理,包括:对每个所述同义问题进行英文字母的大写或小写变换;以及,去除每个所述同义问题中的特殊符号和标点符号。
本身是实施例中,对多个同义问题进行标准变换处理具体可以是,对问题中包括的英文字母进行统一的大写变换或小写表换,使得处理后的同义问题中英文字母大小写统一,以及去除同义问题中的特殊符号和标点符号,特殊符号例如可以是下划线,波浪线等,本申请实施例对多个同义问题进行标准变换处理不作具体限定。
本申请实施例中,无用词是和问题本身的含义无关的词。这些无用词会影响同义词组的提取,例如在问题“龙门石窟的河被称为”中“的”和“被”就是无用词,去掉之后并不影响问题的理解。示例性的,本申请实施例可以使用字阶(wordrank)去除问题中的无用词,具体的,wordrank会给问题中的每一个词的重要程度打分,分数为0的词作为无用词,去掉无用词不仅能够提高同义词组提取的速度,而且有利于提取更多同义词组。
步骤S203:针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合。
本申请实施例中,从每一个同义问题集合中提取同义词组。具体的,对于每个同义问题集合,可以将该同义问题集合中所有的同义问题一次两两组合,并采用指针对每组同义问题进行对齐得到同义词组集合。其中,对齐具体可以是通过指针确定出两个同义问题中不同的部分,从而提取出同义词组,本申请实施例对对齐不作具体限定。
可选的,所述采用指针对每个组合进行对齐,得到所述同义词组集合,包括:针对每个组合包括的第一同义问题和第二同义问题:若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
示例性的,如图4所示,设两个同义问题分别为第一同义问题和第二同义问题,将各同义问题包含词的个数作为同义问题的长度,则第一同义问题“驾照考试科目二一共能考多少次”的长度为7,则第二同义问题“驾照科二一共能考多少次”的长度为6,则第一同义问题和第二同义问题的长度之差小于1,则进行对齐操作,否则丢弃并处理下一组同义问题,因为若第一同义问题和第二同义问题的长度之差过长,则提取的同义词组包含的词的数量可能过多,则可能无法得到合适的同义词组,因此,本申请实施例中,第一个数阈值可以设定为2或3等值,本申请实施例对第一个数阈值不作具体限定。
进一步的,用第一指针bp1指向第一同义问题的第一个词,用第二指针bp2指向第二同义问题的第一个词,用第三指针ep1指向第一同义问题的最后一个词,用第四指针ep2指向第二同义问题的最后一个词。若bp1和bp2指向的词相等或属于同一个同义词组,则bp1和bp2同时向后移动一位,直到bp1和bp2中任意一个指针越界,或bp1和bp2指向的词不相等且不属于同一个同义词组。若ep1和ep2指向的词相等或属于同一个同义词组,则两个指针同时向前移动一位,直到ep1==bp1或ep2==bp2,或ep1和ep2指向的词不相等且不属于同一个同义词组。
若bp1指向第一同义问题中的最后一个词或bp2指向第二同义问题中的最后一个词,并且bp1和bp2指向的词相等,这说明同义词组不存在。
否则,若bp1和ep1的位置差距小于第二个数阈值且bp2和ep2的位置差距小于小于第二个数阈值,将第一同义问题中当前的bp1和ep1之间的词记为word1,将第二同义问题中当前bp2和ep2之间的词记为word2,将word1加入word2的同义词组候选集合,同时将word2加入word1的同义词组候选集合。重复上述步骤直到遍历完所有的同问题组合。可以理解,第二个数阈值可以与第一个数阈值相等或不等,例如第二个数阈值可以为2或3等值,本申请实施例对第二个数阈值不作具体限定。
示例性的,如上述步骤,在图4对应的第一同义问题和第二同义问题中,初始时,bp1指向“驾照”,ep1指向“多少次”,bp2指向“驾照”,ep2指向“多少次”,经过上述的指针移动规则后,最后bp1指向“考试”,ep1指向“科目二”,bp2指向“科二”,ep2指向“科二”,则可以得到同义词组“考试科目二”和“科二”。
可选的,在得到同义词组集合后,还包括:按照预设的筛选条件对所述同义组集合进行筛选。
本申请实施例中,考虑到仅根据对齐的方式提取的同义词组,由于偶然因素的存在会出现很多错误的同义词组,例如A在一个地方能替换B,并不代表A在所有情况下都能替换B。另外A能替换B,也不能代表B能替换A,例如“多久”可以替换“多少天”,但是“多少天”并不一定能够替换“多久”,因为“多久”可以指多少天,也可以指多少年,多少个月,多少分钟等,但是“多少天”并没有这些含义。所有要对对齐方式得到的所有同义词组进行筛选,以得到更准确的同义词组。
可选的,所述按照预设的筛选条件对所述同义组集合进行筛选,包括:对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
本申请实施例中,可以设置第一词组A替换第二词组B的次数必须大于某一阈值,即第一词组在对齐操作中的对齐次数与第二词组在对齐操作中的对齐次数的差值大于次数阈值,可以理解,次数阈值的大小和同义词组集合的质量和大小有关,可以根据具体的提取效果调优,本申请实施例对此不作具体限定。为了保证A任何情况下都可以替换B,可以设定A的候选同义词组集合包含B的候选同义词组集合,也就说B能替换的所有词组A都能替换,才认为A在任何情况下都可以替换B,可以确定第一词组A是第二词组B的同义词组;否则可以在同义词组集合中删除第一词组A是第二词组B。
另外A能替换B,并不代表B一定能替换A,因为A的候选同义词组集合包含B的候选同义词组集合,但B的候选同义词组集合并不一定包含A的候选同义词组集合,因此还可以采用相同的方法验证B的同义词组集合,在此不再赘述。
本申请实施例中,经过筛选之后,如果有新的同义词组产生则可以将这些同义词组加入到最终的同义词组中,还可以进一步从同义问题聚合开始新一轮迭代,提取新的同义词组,如果没有同义词组产生,则将已经产生的所有同义词组集合输出作为最终的结果。
本申请实施例中,考虑了同义词组是否在任何情况下都可以相互替换,因此筛选后的同义词组具有更高的准确率。
需要说明的是,本申请实施例所提取的同义词组集合,还可以应用于需要过滤掉一些特定含义词组的问题,但是一个特定含义词组会有多种不同的表达方式的场景,例如根据同义词组集合进行更准确的敏感词过滤等,本申请实施例对同义词组集合的具体应用场景不作具体限定。
图5为本申请提供的数据处理的装置一实施例的结构示意图。如图5所示,本实施例提供的数据处理的装置包括:
接收模块51,用于接收用户输入的搜索问题;
目标搜索问题得到模块52,用于根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的;
答复结果确定模块53,用于确定所述至少一个目标搜索问题的答复结果;
答复结果输出模块54,用于输出所述答复结果。
可选的,还包括:
获取模块,用于从所述服务器的泛化***获取多个同义问题;
同义问题集合得到模块,用于聚合所述多个同义问题,得到至少一个同义问题集合;
同义词组集合得到模块,用于针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合。
可选的,所述同义词组集合得到模块具体用于:
针对每个组合包括的第一同义问题和第二同义问题:
若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,
用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;
若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;
若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;
若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于所述第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
可选的,还包括:
筛选模块,用于按照预设的筛选条件对所述同义组集合进行筛选。
可选的,所述筛选模块具体用于:
对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
可选的,还包括:
处理模块,用于将所述多个同义问题进行标准变换处理和去无用词处理;
所述聚合模块具体用于:聚合处理后的多个同义问题。
可选的,所述处理模块具体用于:
对每个所述同义问题进行英文字母的大写或小写变换;以及,
去除每个所述同义问题中的特殊符号和标点符号。
可选的,所述目标搜索问题模块具体用于:
向服务器发送所述搜索问题;
接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
本申请实施例中提供了一种数据处理的方法及装置,在接收到用户输入的搜索问题后,先根据预先提取的同义词组集合对该搜索问题进行泛化,得到至少一个目标搜索问题,其中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,进而确定至少一个目标搜索问题的答复结果,并输出答复结果。即本申请实施例中,可以基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。
本申请各实施例提供的数据处理的装置可用于执行如前述各对应的实施例所示的方法,其实现方式与原理相同,不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据处理的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据处理的方法对应的程序指令/模块(例如,附图5所示的接收模块51、目标搜索问题得到模块52、答复结果确定模块53和答复结果输出模块54)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据处理的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据处理的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,本申请实施例中提供了一种数据处理的方法及装置,在接收到用户输入的搜索问题后,先根据预先提取的同义词组集合对该搜索问题进行泛化,得到至少一个目标搜索问题,其中,同义词组集合是根据服务器的泛化***中的多个同义问题自动提取得到的,进而确定至少一个目标搜索问题的答复结果,并输出答复结果。即本申请实施例中,可以基于服务器的泛化***的多个同义问题自动提取同义词组集合,并根据同义词组集合对用户输入的搜索问题进行泛化,得到与该搜索问题同义的、范围更广的至少一个目标搜索问题,进而基于该至少一个目标搜索问题确定数量更多、范围更广的答复结果,则本申请实施例的答复结果相对于现有技术中的根据关键词确定的答复结果更加丰富,能较好满足用户的搜索需求。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种数据处理的方法,其特征在于,应用于终端设备,所述方法包括:
接收用户输入的搜索问题;
根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的;
确定所述至少一个目标搜索问题的答复结果;
输出所述答复结果;
从所述服务器的泛化***获取多个同义问题;
聚合所述多个同义问题,得到至少一个同义问题集合;
针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合;
所述采用指针对每个组合进行对齐,得到所述同义词组集合,包括:
针对每个组合包括的第一同义问题和第二同义问题:
若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,
用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;
若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;
若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;
若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于所述第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
2.根据权利要求1所述的方法,其特征在于,还包括:
按照预设的筛选条件对所述同义词组集合进行筛选。
3.根据权利要求2所述的方法,其特征在于,所述按照预设的筛选条件对所述同义词组集合进行筛选,包括:
对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
4.根据权利要求1所述的方法,其特征在于,所述聚合所述多个同义问题之前,还包括:
将所述多个同义问题进行标准变换处理和去无用词处理;
所述聚合所述多个同义问题包括:聚合处理后的多个同义问题。
5.根据权利要求4所述的方法,其特征在于,所述将所述多个同义问题进行标准变换处理,包括:
对每个所述同义问题进行英文字母的大写或小写变换;以及,
去除每个所述同义问题中的特殊符号和标点符号。
6.根据权利要求1所述的方法,其特征在于,所述根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题,包括:
向服务器发送所述搜索问题;
接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
7.一种数据处理的装置,其特征在于,应用于终端设备,包括:
接收模块,用于接收用户输入的搜索问题;
目标搜索问题得到模块,用于根据预先提取的同义词组集合对所述搜索问题进行泛化,得到至少一个目标搜索问题;其中,所述同义词组集合为:根据服务器的泛化***中的多个同义问题自动提取得到的;
答复结果确定模块,用于确定所述至少一个目标搜索问题的答复结果;
答复结果输出模块,用于输出所述答复结果;
获取模块,用于从所述服务器的泛化***获取多个同义问题;
同义问题集合得到模块,用于聚合所述多个同义问题,得到至少一个同义问题集合;
同义词组集合得到模块,用于针对每个所述同义问题集合,将该同义问题集合中包括的同义问题依次两个一组进行组合,以及采用指针对每个组合进行对齐,得到所述同义词组集合;
所述同义词组集合得到模块具体用于:
针对每个组合包括的第一同义问题和第二同义问题:
若所述第一同义问题包含的词的个数与所述第二同义问题包含的词的个数的差小于第一个数阈值,则用第一指针指向所述第一同义问题中的第一个词,用第二指针指向所述第二同义问题中的第一个词;以及,
用第三指针指向所述第一同义问题中的最后一个词,用第四指针指向所述第二同义问题中的最后一个词;
若所述第一指针指向的词与所述第二指针指向的词相同或属于同一个同义词组,则所述第一指针和所述第二指针向后移动移位,直到第一指针越界,或第二指针越界,或第一指针指向的词与第二指针指向的词不相同或不属于同一个同义词组;
若所述第三指针指向的词与所述第四指针指向的词相同或属于同一个同义词组,则所述第三指针和所述第四指针向前移动移位,直到第三指针越界,或第四指针越界,或第三指针指向的词与第四指针指向的词不相同或不属于同一个同义词组;
若所述第一指针与所述第三指针的位置差小于第二个数阈值,且所述第二指针与所述第四指针的位置差小于所述第二个数阈值,将所述第一同义问题中当前的第一指针与当前的第三指针之间的词,以及所述第二同义问题中当前的第二指针与当前的第四指针之间的词,确定为同义词组。
8.根据权利要求7所述的装置,其特征在于,还包括:
筛选模块,用于按照预设的筛选条件对所述同义词组集合进行筛选。
9.根据权利要求8所述的装置,其特征在于,所述筛选模块具体用于:
对于包括第一词组和第二词组的同义词组集合,若所述第一词组在对齐操作中的对齐次数与所述第二词组在对齐操作中的对齐次数的差值大于次数阈值,且所述第一词组对应的同义词组集合包含所述第二词组对应的同义词组集合,确定所述第一词组是所述第二词组的同义词组;否则在所述同义词组集合中删除所述第一词组和所述第二词组。
10.根据权利要求7所述的装置,其特征在于,还包括:
处理模块,用于将所述多个同义问题进行标准变换处理和去无用词处理;
聚合模块,用于聚合处理后的多个同义问题。
11.根据权利要求10所述的装置,其特征在于,所述处理模块具体用于:
对每个所述同义问题进行英文字母的大写或小写变换;以及,
去除每个所述同义问题中的特殊符号和标点符号。
12.根据权利要求7所述的装置,其特征在于,所述目标搜索问题得到模块具体用于:
向服务器发送所述搜索问题;
接收所述服务器发送的至少一个目标搜索问题,所述至少一个目标搜索问题为所述服务器根据预先提取的同义词组集合对所述搜索问题泛化得到的。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法的指令。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使所述计算机执行如权利要求1-6任一项所述的方法。
CN201910926182.8A 2019-09-27 2019-09-27 数据处理的方法及装置 Active CN110688837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910926182.8A CN110688837B (zh) 2019-09-27 2019-09-27 数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910926182.8A CN110688837B (zh) 2019-09-27 2019-09-27 数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN110688837A CN110688837A (zh) 2020-01-14
CN110688837B true CN110688837B (zh) 2023-10-31

Family

ID=69110739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910926182.8A Active CN110688837B (zh) 2019-09-27 2019-09-27 数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN110688837B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307160A (zh) * 2020-02-26 2021-02-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN113822051B (zh) * 2020-06-19 2024-01-30 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1728177A2 (en) * 2004-03-24 2006-12-06 BRITISH TELECOMMUNICATIONS public limited company Induction of grammar rules
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN103136262A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 信息检索方法及装置
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
US9183297B1 (en) * 2006-08-01 2015-11-10 Google Inc. Method and apparatus for generating lexical synonyms for query terms
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
US9361362B1 (en) * 2009-08-15 2016-06-07 Google Inc. Synonym generation using online decompounding and transitivity
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
CN106663092A (zh) * 2014-10-24 2017-05-10 谷歌公司 具有罕见词处理的神经机器翻译***
CN106844332A (zh) * 2016-12-16 2017-06-13 中国科学院自动化研究所 基于锚点的增长式实时双语词对齐的对齐方法及对齐***
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN107562713A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 同义文本的挖掘方法及装置
CN107704474A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 属性对齐方法和装置
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930176B2 (en) * 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US10546012B2 (en) * 2014-06-27 2020-01-28 Shutterstock, Inc. Synonym expansion

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
EP1728177A2 (en) * 2004-03-24 2006-12-06 BRITISH TELECOMMUNICATIONS public limited company Induction of grammar rules
US9183297B1 (en) * 2006-08-01 2015-11-10 Google Inc. Method and apparatus for generating lexical synonyms for query terms
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
US9361362B1 (en) * 2009-08-15 2016-06-07 Google Inc. Synonym generation using online decompounding and transitivity
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN103136262A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 信息检索方法及装置
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN106663092A (zh) * 2014-10-24 2017-05-10 谷歌公司 具有罕见词处理的神经机器翻译***
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
CN107562713A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 同义文本的挖掘方法及装置
CN107704474A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 属性对齐方法和装置
CN106844332A (zh) * 2016-12-16 2017-06-13 中国科学院自动化研究所 基于锚点的增长式实时双语词对齐的对齐方法及对齐***
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning Textual Entailment Classification from a Chinese RITE Dataset Specialized for Linguistic Phenomena;Chi-Ting Liu 等;《2016 IEEE 17th International Conference on Information Reuse and Integration》;20161219;第1-7页 *
双向词典和语义相似度计算相结合的词对齐算法;尹宝生 等;《沈阳航空航天大学学报》;20150425;第32卷(第02期);第67-74页 *
基于众包的知识库索引对齐算法;沈秉文 等;《计算机学报》;20170601;第41卷(第08期);第1814-1826页 *

Also Published As

Publication number Publication date
CN110688837A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
EP3913499A1 (en) Method and apparatus for processing dataset, electronic device and storage medium
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
CN111414482B (zh) 一种事件论元抽取方法、装置以及电子设备
EP3832488A2 (en) Method and apparatus for generating event theme, device and storage medium
CN110427627B (zh) 基于语义表示模型的任务处理方法和装置
CN111241819B (zh) 词向量生成方法、装置及电子设备
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
CN111859997B (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN111339268B (zh) 实体词识别方法和装置
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN111090991B (zh) 场景纠错方法、装置、电子设备和存储介质
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
US20210406299A1 (en) Method and apparatus for mining entity relationship, electronic device, and storage medium
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN112580324A (zh) 文本纠错方法、装置、电子设备以及存储介质
CN112560499B (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN110688837B (zh) 数据处理的方法及装置
CN111737966B (zh) 文档重复度检测方法、装置、设备和可读存储介质
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN111984775A (zh) 问答质量确定方法、装置、设备和存储介质
CN112084150A (zh) 模型训练、数据检索方法,装置,设备以及存储介质
CN111339314B (zh) 一种三元组数据的生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant