CN113807082B - 一种目标用户确定方法、装置和用于确定目标用户的装置 - Google Patents

一种目标用户确定方法、装置和用于确定目标用户的装置 Download PDF

Info

Publication number
CN113807082B
CN113807082B CN202010544461.0A CN202010544461A CN113807082B CN 113807082 B CN113807082 B CN 113807082B CN 202010544461 A CN202010544461 A CN 202010544461A CN 113807082 B CN113807082 B CN 113807082B
Authority
CN
China
Prior art keywords
corpus
determining
user
rule expression
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010544461.0A
Other languages
English (en)
Other versions
CN113807082A (zh
Inventor
张小川
孙琨
李洋
谢本银
居梦月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010544461.0A priority Critical patent/CN113807082B/zh
Publication of CN113807082A publication Critical patent/CN113807082A/zh
Application granted granted Critical
Publication of CN113807082B publication Critical patent/CN113807082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种目标用户确定方法、装置和用于确定目标用户的装置。该方法的实施例包括:接收用户自定义的规则表达式,所述规则表达式采用自定义语法编写且用于进行语料匹配;获取候选用户产生的语料;将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户。该实施方式提供了一种基于规则表达式与用户语料的匹配情况确定目标用户的方式,提高了目标用户的选取范围,并降低了确定目标用户过程中的人力成本。

Description

一种目标用户确定方法、装置和用于确定目标用户的装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种目标用户确定方法、装置和用于确定目标用户的装置。
背景技术
在很多场景下,需要主动将功能、服务、信息等推荐给满足某些条件的用户,或者获取满足某些条件的用户的相关信息(如语料等)以进行分析、模型训练等。在执行这些操作时,需要首先确定目标用户。
现有技术中,可通过人工为用户设定用户标签,并通过设定一些查询条件查询具有某些特定用户标签的用户,从而确定出目标用户。然而,对于一些尚未设定用户标签的用户,则无法确定其是否为目标用户,导致目标用户的选取范围较小。同时,这种方式在人工设定用户标签时,对于每一种标签,均需要编写专业的代码来对用户的信息进行检测,以判定各用户是否满足该标签,导致人力成本较高。
发明内容
本申请实施例提出了一种目标用户确定方法、装置和用于确定目标用户的装置,以提高目标用户的选取范围,并同时降低确定目标用户过程中的人力成本。
第一方面,本申请实施例提供了一种目标用户确定方法,该方法包括:接收用户自定义的规则表达式,规则表达式采用自定义语法编写且用于进行语料匹配;获取候选用户产生的语料;将语料与规则表达式进行匹配,基于匹配结果确定候选用户中的目标用户。
第二方面,本申请实施例提供了一种目标用户确定装置,该装置包括:接收单元,被配置成接收用户自定义的规则表达式,规则表达式采用自定义语法编写且用于进行语料匹配;获取单元,被配置成获取候选用户产生的语料;确定单元,被配置成将语料与规则表达式进行匹配,基于匹配结果确定候选用户中的目标用户。
第三方面,本申请实施例提供了一种用于确定目标用户的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:接收用户自定义的规则表达式,规则表达式采用自定义语法编写且用于进行语料匹配;获取候选用户产生的语料;将语料与规则表达式进行匹配,基于匹配结果确定候选用户中的目标用户。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所描述的方法。
本申请实施例提供的目标用户确定方法、装置和用于确定目标用户的装置,接收用户自定义的规则表达式,而后获取候选用户产生的语料,之后将语料与规则表达式进行匹配,从而基于匹配结果确定候选用户中的目标用户,其中,规则表达式采用自定义语法编写且用于进行语料匹配。由于规则表达式能够筛选出一些满足特定条件的语料,用户的语料能够反映出用户的类型、喜好等,因而通过规则表达式与用户的语料进行匹配的方式,能够有效选取出目标用户。此过程能够在不具备用户标签的情况下确定出目标用户,提高目标用户的选取范围。同时,通过设定规则表达式,无需编写专业的代码即可进行用户筛选,降低了确定目标用户过程中的人力成本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的目标用户确定方法的一个实施例的流程图;
图2是根据本申请的目标用户确定方法的又一个实施例的流程图;
图3是根据本申请的目标用户确定装置的一个实施例的结构示意图;
图4是根据本申请的一种用于确定目标用户的装置的结构示意图;
图5是根据本申请的一些实施例中服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的目标用户确定方法的一个实施例的流程100。上述目标用户确定方法可运行于各种电子设备,上述电子设备包括但不限于:服务器、智能手机、平板电脑、膝上型便携计算机、台式计算机等。
上述电子设备中可以安装有各种客户端应用,如输入法应用、即时通讯应用、社交类应用等。本申请实施例中所提到的输入法应用是一种实现文字输入的软件。也可称为输入法编辑器(Input Method Editor)、输入法软件、输入法平台、输入法框架或输入法***等。用户可以使用输入法应用便利地将需要的字符或者字符串输入电子设备。输入法应用能够支持多种输入法和输入方式。其中,输入法是为将各种符号输入到如计算机、手机等电子设备而采用的编码方法。例如,除了支持常见的中文输入法(比如拼音输入法、五笔输入法、注音输入法、语音输入法、手写输入法等)以外,还可以支持其他语种的输入法(比如英文输入法、日文平假名输入法、韩文输入法等)。输入方式可以包括但不限于编码输入方式、语音输入方式等。在此不对输入法的语言种类和输入方式做任何限定。
本实施例中的目标用户确定方法,可以包括以下步骤:
步骤101,接收用户自定义的规则表达式。
在本实施例中,目标用户确定方法的执行主体(如上述电子设备)可以接收用户自定义的规则表达式。上述规则表达式可采用自定义语法编写且可用于进行语料匹配。上述规则表达式的执行逻辑可通过Java、C或C++等常用的计算机编程语言实现。
在本实施例中,规则表达式可以表征筛选条件,不同的规则表达式可以表征不同的筛选条件。将规则表达式与某一语料进行匹配的过程,即为检测该语料是否满足规则表达式所表征的筛选条件的过程。由于语料由用户产生,因而将规则表达式与语料进行匹配,可筛选出满足一定条件的目标用户。规则表达式的语法可以根据需要进行设定,本实施例对语法规则不作限定。
在本实施例的一些可选的实现方式中,规则表达式可以包括至少一个子规则表达式。不同的上述子规则表达式可通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑。其中,逻辑符号可以包括但不限于“&”、“|”、“!”、“(”、“)”等。其中,“&”表示逻辑关系且,“|”表示逻辑关系或,“!”表示逻辑关系非,“(”和“)”成对使用,用于设定子规则表达式的优先级。
作为一个示例,规则表达式为:(子规则表达式1)&(子规则表达式2)|(子规则表达式3),则表示筛选出两类用户,一类用户为满足子规则表达式1且满足子规则表达式2的用户,另一类用户为满足子规则表达式3的用户。
作为又一示例,规则表达式为:(子规则表达式1)&((子规则表达式2)|(子规则表达式3)),则表示筛选出满足子规则表达式1、同时满足子规则表达式2及子规则表达式3中的至少一项的用户。
在本实施例的一些可选的实现方式中,子规则表达式可以包括场景规则表达式和词汇规则表达式。场景规则表达式和词汇规则表达式以预设符号相隔。上述预设符号可以是冒号“:”等各种预先设定的符号,且该符号不同于上述逻辑符号。
作为一个示例,子规则表达式为:场景规则表达式1:词汇规则表达式1,则表示筛选出在场景规则表达式1指示的场景下产生包含满足词汇规则表达式1的语料的用户。
作为又一示例,当规则表达式中包含多个子规则表达式时,如规则表达式为:(场景规则表达式1:词汇规则表达式1)&(场景规则表达式2:词汇规则表达式2),则表示筛选出同时满足以下条件的用户:在场景规则表达式1指示的场景下产生满足词汇规则表达式1的语料、在场景规则表达式2指示的场景产生满足词汇规则表达式2的语料。
需要说明的是,场景规则表达式和词汇规则表达式均可以为空。为空时表示不进行限制。如词汇规则表达式为空而场景规则表达式不为空,则表示筛选出满足在场景规则表达式指示的场景下产生过语料的用户。
在本实施例的一些可选的实现方式中,场景规则表达式在不为空时,可包括以下至少一项:至少一个场景标识、至少一个场景包标识。
其中,场景标识可用于指示语料产生的场景,如在不同的应用中产生的语料对应不同场景。对于每一个场景标识,如“app1”,表示判断是否存在一句语料,该句语料在app1环境下出现过。上述app1环境可指示某一应用环境。场景包标识可以指示一个场景包,场景包中可以包括一个或多个场景标识。对于每一个场景包标识,如“{appBag}”,表示在appBag所定义的至少一个场景下出现过。
在场景规则表达式包括至少两个场景标识时,不同的场景标识通过分隔符号(如逗号“,”)相隔,表示或的关系。作为示例,场景规则表达式为:app1,app2。则表示判断是否存在一句语料,该句语料在app1或app2的环境下出现过。同理,在场景规则表达式包括至少两个场景包标识时,不同的场景包标识通过分隔符号(如逗号“,”)相隔,表示或的关系。
可以理解的是,在场景规则表达式同时包括至少一个场景标识和至少一个场景包标识时,也可以通过分隔符号(如逗号“,”)相隔,表示或的关系。
在本实施例的一些可选的实现方式中,词汇规则表达式可以包括以下至少一项:至少一个词汇、至少一个词包标识、至少一个正则表达式。上述词包标识指示的词包中可以包括一个或多个词汇。下面分别以词汇规则表达式包括词汇、词包、正则表达式等不同情况进行说明:
当词汇规则表达式为一个词汇,如“word1”时,表示判断是否存在一句语料,该句语料包含词汇word1。
当词汇规则表达式包括至少两个词汇时,不同的词汇可通过目标符号相隔,不同的目标符号用于指示不同的逻辑关系。例如,目标符号可以包括加号“+”、减号“-”、分割符号(如逗号“,”)。其中,“+”表示逻辑关系且,“-”表示逻辑关系非,分割符号(如逗号“,”)表示逻辑关系或。
例如,词汇规则表达式为word2+word3-word4,表示判断是否存在一句语料,该句语料中同时出现word2和word3,但不包含word4。
再例如,词汇规则表达式为word1,word2,表示判断是否存在一句语料,该句语料中同时出现word1、word2中的至少一项。
综合场景规则表达式举例,当规则表达式或子规则表达式为app1,app2:word1,word2时,表示筛选出在场景app1或app2下,语料中出现过word1或者word2的用户。
当词汇规则表达式包括词包时,可由{s}{min-max}的形式表示。其中,min表示在筛选用户时,用户的语料中词汇在词包中至少出现的最小频次,在min为空时可默认为1。max表示用户的语料中词汇在词包中至少出现的最大频次。在max为空时可默认为0,表示没有上限。s用于指示词包,且可具有两种表达方式。一种表达方式下,s为词包标识(如名称),如{A1}{2-},可表示筛选出的语料中包括至少2次词包A1中的词的用户。在另一种表达方式下,s为以分割符号(如逗号“,”)隔开的一系列词包标识,如{word2,word3}{0-5},表示筛选出语料中包括不超过5次{word2,word3}中的词的用户。
综合场景规则表达式举例,当规则表达式或子规则表达式为app1:{word2,word3}{2-},{word4,word5}{0-5}时,表示筛选出在app1场景下所产生的语料中包括{word2,word3}中的词的总频次至少2次的用户,或者,筛选出在app1场景下所产生的语料中包括{word4,word5}中的词的总频次不超过5次的用户。
当词汇规则表达式包括正则表达式时,可在正则表达式前后均设置某一预设符号(如“/”)。例如:app1:/我.*买车/,表示筛选出在app1场景下输入过满足正则条件“我.*买车”的用户。其中,“我.*买车”表示匹配以“我”开始,以“买车”结束的最长字符串。例如,若语料为“我不想买车了,你呢”,则会匹配到字符串“我不想买车”。
可以理解的是,上述可选的实现方式中的规则表达式、子规则表达式、表示不同子规则表达式的逻辑关系的逻辑符号、场景规则表达式、词汇规则表达式、以及各表达式中的内容的形式、关系等,均可以采用其他实现方式,不限于上述描述和示例,本实施例对此不作限定。
在自定义规则表达式的语法后,用户(如技术人员、开发人员等)可以通过该语法灵活自定义所需的规则表达式,以确定满足所需条件的目标用户。从而可灵活便捷地进行目标用户的查找和筛选,不需要进行代码编写,能够大大降低人力成本和学习成本。
步骤102,获取候选用户产生的语料。
在本实施例中,上述执行主体可以获取候选用户产生的语料。此处的候选用户可以是***或平台中所关系的部分或全部用户。候选用户产生的语料,可以包括但不限于候选用户输入、发送或上屏的历史语句。
步骤103,将语料与规则表达式进行匹配,基于匹配结果确定候选用户中的目标用户。
在本实施例中,由于规则表达式可以表征筛选条件,将规则表达式与某一语料进行匹配的过程,即为检测该语料是否满足规则表达式所表征的筛选条件的过程。由于语料由用户产生,因而将规则表达式与语料进行匹配,可筛选出满足一定条件的目标用户。
实践中,对于每一个候选用户,在将该候选用户的语料与规则表达式进行匹配时,可采用精确匹配的方式,也可采用模糊匹配方式,本实施例不作限定。其中,精确匹配可以指检测语料是否满足规则表达式所指示的筛选条件。模糊匹配可以指先对语料进行扩展,而后检测扩展后的语料是否满足规则表达式所指示的筛选条件。若该候选用户的语料或扩展后的语料满足规则表达式指示的筛选条件,则可认为该候选用户为目标用户。反之,可认为该候选用户不为目标用户。
在本实施例的一些可选的实现方式中,上述执行主体还可以获取与上述规则表达式相关联的目标标签,上述目标标签可由发送上述规则表达式的用户自定义。在确定出目标用户后,可以为各目标用户添加上述目标标签。由此,可以实现基于用户的语料自动为用户添加标签的操作,相较于人工分析用户数据来进行用户标签添加的方式,可提高标签添加操作的便捷性和所添加的标签的准确性。
在本实施例的一些可选的实现方式中,在确定出目标用户后,还可以统计目标用户的人数、频次等信息,并将该信息返回给发送规则表达式的用户(如技术人员、开发人员等),从而便于该用户进行数据统计等操作。
本申请的上述实施例提供的方法,接收用户自定义的规则表达式,而后获取候选用户产生的语料,之后将语料与规则表达式进行匹配,从而基于匹配结果确定候选用户中的目标用户,其中,规则表达式采用自定义语法编写且用于进行语料匹配。由于规则表达式能够筛选出一些满足特定条件的语料,用户的语料能够反映出用户的类型、喜好等,因而通过规则表达式与用户的语料进行匹配的方式,能够有效选取出目标用户。此过程能够在不具备用户标签的情况下确定出目标用户,提高目标用户的选取范围。同时,通过设定规则表达式,无需编写专业的代码即可进行用户筛选,降低了确定目标用户过程中的人力成本。
进一步参考图2,其示出了目标用户确定方法的又一个实施例的流程200。该目标用户确定方法的流程200,包括以下步骤:
步骤201,接收用户自定义的规则表达式。
步骤202,获取候选用户产生的语料。
本实施例的步骤201至步骤202可参见图1对应实施例的步骤101至步骤102,此处不再赘述。
步骤203,将语料与规则表达式中的子规则表达式进行匹配,基于匹配结果和规则表达式中的逻辑符号所指示的逻辑关系,确定候选用户的得分。
在本实施例中,规则表达式可以包括至少一个子规则表达式,不同的上述子规则表达式通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑关系。上述执行主体可以采用精确匹配方式,也可以采用模糊匹配方式,将语料与规则表达式中的子规则表达式进行匹配,并基于匹配结果和规则表达式中的逻辑符号所指示的逻辑关系,确定候选用户的得分。
在一些场景中,规则表达式仅包含一个子规则表达式,如app1:word1,则可以直接将各候选用户的语料与该规则表达式进行匹配。此处的匹配方式即可以采用精确匹配方式,也可以采用模糊匹配方式。若某一候选用户的语料与该规则表达式相匹配,即该候选用户的语料中包括在app1场景下产生的词汇word1,则可设定该候选用户的得分为第一数值(如1)。若不匹配,则可以设定该候选用户的得分为第二数值(如0)。
需要说明的是,得分还可以基于匹配情况进行其他设定。例如,若某一语料经扩展后才能与该规则表达式相匹配,即该语料只有通过模糊匹配方式才能满足该规则表达式,而通过精确匹配方式无法满足该规则表达式,则可以将产生该语料的用户的得分设置为第三数值(如0.8)。
在另一些场景中,规则表达式仅包含至少两个子规则表达式,不同子规则表达式之间通过逻辑符号连接。此时,可首先将各候选用户的语料与子规则表达式的匹配,进而基于子规则表达式之间的逻辑关系,确定各候选用户的得分。
作为一个示例,规则表达式为(app1:word1)&(app2:word2)。可分别将各候选用户的语料与各子规则表达式(app1:word1)、(app2:word2)匹配。对于某一候选用户,若该候选用户的语料与子规则表达式(app1:word1)、(app2:word2)均匹配,即该用户候选的语料中包括在app1场景下产生的词汇word1,且包括在app2场景下产生的词汇word2,则可设定该候选用户的得分为第一数值(如1)。若与至少一个子规则表达式不匹配,则可以设定该候选用户的得分为第二数值(如0)。
同理,这种情况下,得分也可以基于匹配情况设定。例如,若某一语料经扩展后才能上述示例中的(app1:word1)&(app2:word2)中的各子规则表达式相匹配,即该语料只有通过模糊匹配方式才能满足各子规则表达式,而通过精确匹配方式无法同时满足各子规则表达式,将产生该语料的用户的得分设置为第三数值(如0.8)。
实践中,对于具有逻辑关系且(如由“&”表示)的子规则表达式,为降低计算量,可在检测出某一语料不满足前一个子规则表达式后,不再将该语料与后一子规则表达式进行匹配。以上述示例中的规则表达式为例,在检测出某一语料不满足子规则表达式(app1:word1)后,可不再检测该语料是否匹配子规则表达式(app2:word2),从而提高处理效率。
作为又一示例,规则表达式为(app1:word1)|(app2:word2)。可分别将各候选用户的语料与各子规则表达式(app1:word1)、(app2:word2)匹配。对于某一候选用户,每检测出该候选用户的语料与一个子规则表达式相匹配,则将该候选用户的得分增加某一数值。
以所增加的数值为1举例,若某一候选用户的语料中包括在app1场景下产生的词汇word1,且包括在app2场景下产生的词汇word2,则该候选用户得分为2。若某一候选用户的语料中包括在app1场景下产生的词汇word1,但不包括在app2场景下产生的词汇word2,则该候选用户得分为1。若某一候选用户的语料中不包括在app1场景下产生的词汇word1,但包括在app2场景下产生的词汇word2,则该候选用户得分为1。若某一候选用户的语料中不包括在app1场景下产生的词汇word1,且不包括在app2场景下产生的词汇word2,则该候选用户得分为0。
需要说明的是,所增加的数值可基于匹配情况确定,不限于固定值。例如,若某一语料经扩展后才能上述示例中的子规则表达式(app1:word1)相匹配,即该语料只有通过模糊匹配方式才能满足各子规则表达式,而通过精确匹配方式无法同时满足各子规则表达式,则可将产生该语料的候选用户的得分增加0.8。若该语料通过精确匹配方式可满足另一规则表达式(app2:word2),则可将产生该语料的候选用户的得分再增加1,最终该候选用户的得分为1.8。
需要说明的是,用户得分的确定方式不限于上述描述和示例,可以根据需要进行各种得分规则的设定。
在本实施例的一些可选的实现方式中,在确定候选用户的得分时,可首先将规则表达式转换为树形结构。其中,树形结构的叶子节点为规则表达式中的子规则表达式,树形结构的非叶子节点为规则表达式中的逻辑符号。而后,将语料与树形结构的叶子节点进行匹配,基于匹配结果和树形结构的非叶子节点所指示的逻辑关系,确定候选用户的得分。通过将规则表达式解析为树形结构,可便于确定各项子规则表达式的逻辑关系和顺序。
在本实施例的一些可选的实现方式中,子规则表达式可以包括场景规则表达式和词汇规则表达式。场景规则表达式和词汇规则表达式可以以预设符号相隔。词汇规则表达式为包括以下至少一项:至少一个词汇、至少一个词包标识、至少一个正则表达式。词包标识指示的词包中可以包括一个或多个词汇。
此时,上述执行主体可以通过如下子步骤S11至子步骤S14将上述语料与上述规则表达式中的子规则表达式进行匹配:
子步骤S11,将子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对语料进行分词,得到分词结果。
词汇规则表达式所涉及的词汇包括词汇表达式中的词汇,以及词汇表达式中的词包标识所指示的词包中的词汇。此处可采用各种现有的分词方式进行分词,且分词时可优先基于目标词汇进行分词,以保证语料中与目标词汇相同的词汇的完整性和独立性。不同候选用户的语料可对应不同的分词结果。
子步骤S12,检测分词结果中是否包含目标词汇,并生成第一检测结果。
此处的第一检测结果可指示分词结果中是否包含目标词汇。例如,目标词汇为“word1”,若某一候选用户的语料的分词结果中也包含“word1”,则第一检测结果可以指示分词结果中包含目标词汇。
需要说明的是,若目标词汇有两个或多个,如词汇表达式为“word1+word2”、“word1,word2”或“word1-word2”。此时的第一检测结果可以包括两个检测结果,分别为指示分词结果中是否包含目标词汇“word1”的检测结果和指示分词结果中是否包含目标词汇“word2”的检测结果。
子步骤S13,检测语料中是否包含与正则表达式指示的句法一致的句子,并生成第二检测结果。
此处的第二检测结果可指示语料中是否包含与正则表达式指示的句法一致的句子。例如,正则表达式为/我.*买车/,用于匹配以“我”开始,以“买车”结束的最长字符串。若某一语料为“我不想买车了,你呢”,则会匹配到字符串“我不想买车”,则第二检测结果可指示该语料中包含与正则表达式指示的句法一致的句子。若某一语料为“我喜欢吃水果”,则第二检测结果可指示该语料中部包含与正则表达式指示的句法一致的句子。
子步骤S14,基于第一检测结果、第二检测结果和语料产生的场景,确定语料与上述子规则表达式的匹配结果。
作为示例,词汇规则表达式为“word1+word2,/我.*买车/”,上述“,”表示或的关系。对于某一语料,若该语料的第一检测结果指示该语料中包括“word1”和“word2”,该语料的第二检测结果指示该语料中包括与正则表达式“/我.*买车/”指示的句法一致的句子(上述两项满足至少一项即可),同时该语料产生的场景满足子规则表达式中的场景规则表达式,则可认为该语料与子规则表达式相匹配。
需要说明的是,当词汇规则表达式中不包括词汇和词包标识,仅包含正则表达式时,可不执行上述子步骤S12,并在子步骤S14中直接基于第二检测结果确定与子规则表达式的匹配结果。同理,当词汇规则表达式中包括词汇或词包标识,但不包含正则表达式时,可不执行上述子步骤S13,并在子步骤S14中直接基于第一检测结果确定与子规则表达式的匹配结果。
在本实施例的一些可选的实现方式中,上述执行主体还可以通过如下子步骤S21至子步骤S24将上述语料与上述规则表达式中的子规则表达式进行匹配:
子步骤S21,将子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对语料进行分词,得到分词结果。子步骤S21可参见上述子步骤S11,此处不再赘述。
子步骤S22,基于预先训练的词汇相似度计算模型,检测分词结果中是否包含目标词汇的相似词汇,并生成第三检测结果。
此处的第三检测结果可指示分词结果中是否包含目标词汇的相似词汇。目标词汇的相似词汇指与目标词汇的相似度大于某一预设值的词汇。上述词汇相似度计算模型可采用机器学习方法对现有模型(如word2vec模型)训练得到。在训练词汇相似度计算模型时,可增加场景输入,以区分不同场景下的词汇相似度,如app1下的输入word1与app2下输入的word1相似度不为1。
可选的,基于预先训练的词汇相似度计算模型,可通过如下步骤生成第三检测结果:首先,基于子规则表达式中的场景规则表达式,确定第一场景信息。第一场景信息可代表场景规则表达式所指示的需要满足的场景。而后,获取语料的场景信息,并可称之为第二场景信息。第二场景信息即为语料产生的场景。之后,将第一场景信息和目标词汇作为第一输入信息,将第二场景信息和分词结果中的词作为第二输入信息,将第一输入信息和第二输入信息输入至预先训练的词汇相似度计算模型,得到目标词汇与分词结果中的词的第一相似度。目标词汇与分词结果中的词的第一相似度即为第一输入信息与第二输入信息的相似度。此处可以通过遍历的方式逐一确定目标词汇和分词结果中的词的第一相似度。最后,可以基于第一相似度,确定分词结果中是否包含目标词汇的相似词汇,并生成第三检测结果。例如,对于某一目标词汇,若分词结果中包含与该目标词汇的相似度大于某一预设值的词汇,则第三检测结果可以指示分词结果中包含该目标词汇的相似词汇。
子步骤S23,基于预先训练的句意相似度计算模型,检测语料中是否包含与正则表达式指示的句法相似的句子,并生成第四检测结果。
此处的第四检测结果可指示语料中是否包含与正则表达式指示的句法相似的句子。与正则表达式指示的句法相似指与正则表达式指示的句法的相似度大于某一预设值的句子。上述句意相似度计算模型可通过机器学习方法训练得到,如采用机器学习方法对现有模型(如BERT(Bidirectional Encoder Representation from Transformers,基于transformer结构的双向编码器)进行迁移学习方式得到。
可选的,基于预先训练的句意相似度计算模型,可通过如下步骤第四检测结果:首先,基于子规则表达式中的场景规则表达式,确定第一场景信息。而后,获取语料的第二场景信息。之后,将第一场景信息和正则表达式作为第三输入信息,将第二场景信息和语料中的句子作为第四输入信息,将第三输入信息和第四输入信息输入至预先训练的句意相似度计算模型,得到正则表达式与语料中的句子的第二相似度。最后,基于第二相似度,确定语料中是否包含与正则表达式指示的句法相似的句子,并生成第四检测结果。例如,对于词汇规则表达式中的正则表达式,若某一语料中包含与正则表达式指示的句法的相似度大于某一预设值的句子,则第四检测结果可以指示分词结果中包含该目标词汇的相似词汇。
需要说明的是,当词汇规则表达式中不包括词汇和词包标识,仅包含正则表达式时,可不执行上述子步骤S22,并在子步骤S24中直接基于第四检测结果确定与子规则表达式的匹配结果。同理,当词汇规则表达式中包括词汇或词包标识,但不包含正则表达式时,可不执行上述子步骤S23,并在子步骤S24中直接基于第三检测结果确定与子规则表达式的匹配结果。
在本实施例的一些可选的实现方式中,在词汇规则表达式包括至少两个词汇时,不同的词汇通过目标符号相隔,不同的目标符号用于指示不同的逻辑关系。
在本实施例的一些可选的实现方式中,场景规则表达式包括以下至少一项:至少一个场景标识、至少一个场景包标识,场景包标识所指示的场景包中包括一个或多个场景标识;以及,在场景规则表达式包括至少两个场景标识时,不同的场景标识通过分隔符号相隔。
步骤204,基于候选用户的得分,确定候选用户中的目标用户。
在本实施例中,上述执行主体可以基于候选用户的得分,采用多种方式确定候选用户中的目标用户。
作为示例,可以按照得分由高到低的次序,从候选用户中选取预设数量的用户,作为目标用户。
作为再一示例,可以将候选用户中选取得分高于预设数值(如0)的用户确定为目标用户。
从图2中可以看出,与图1对应的实施例相比,本实施例中的目标用户确定方法的流程200涉及了规则表达式的语法。即规则表达式可以包括至少一个子规则表达式,不同的上述子规则表达式通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑关系。同时,涉及了通过语料与规则表达式中的子规则表达式进行匹配,并基于匹配结果和规则表达式中的逻辑符号所指示的逻辑关系,确定候选用户的得分,最后基于得分确定目标用户的步骤。由此,提供了一种简单且有效的规则表达式设置方式,以及提供了针对这种规则表达式的有效的解析方式,由于规则表达式较为直观,学习成本较低,因而大大降低了确定目标用户过程中的人力成本。
进一步参考图3,作为对上述各图所示方法的实现,本申请提供了一种目标用户确定装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的目标用户确定装置300包括:接收单元301,被配置成接收用户自定义的规则表达式,上述规则表达式采用自定义语法编写且用于进行语料匹配;获取单元302,被配置成获取候选用户产生的语料;确定单元303,被配置成将上述语料与上述规则表达式进行匹配,基于匹配结果确定上述候选用户中的目标用户。
在本实施例的一些可选的实现方式中,上述装置还包括:添加单元,被配置成:获取与上述规则表达式相关联的目标标签,上述目标标签由发送上述规则表达式的用户自定义;为上述目标用户添加上述目标标签。
在本实施例的一些可选的实现方式中,上述规则表达式包括至少一个子规则表达式,不同的上述子规则表达式通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑关系。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:将上述语料与上述规则表达式中的子规则表达式进行匹配,基于匹配结果和上述规则表达式中的逻辑符号所指示的逻辑关系,确定上述候选用户的得分;基于上述候选用户的得分,确定上述候选用户中的目标用户。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:将上述规则表达式转换为树形结构,其中,上述树形结构的叶子节点为上述规则表达式中的子规则表达式,上述树形结构的非叶子节点为上述规则表达式中的逻辑符号;将上述语料与上述树形结构的叶子节点进行匹配,基于匹配结果和上述树形结构的非叶子节点所指示的逻辑关系,确定上述候选用户的得分。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:按照得分由高到低的次序,从上述候选用户中选取预设数量的用户,作为目标用户;或者将上述候选用户中选取得分高于预设数值的用户确定为目标用户。
在本实施例的一些可选的实现方式中,上述子规则表达式包括场景规则表达式和词汇规则表达式,上述场景规则表达式和上述词汇规则表达式以预设符号相隔。
在本实施例的一些可选的实现方式中,上述词汇规则表达式为包括以下至少一项:至少一个词汇、至少一个词包标识、至少一个正则表达式,上述词包标识指示的词包中包括一个或多个词汇。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:将上述子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对上述语料进行分词,得到分词结果;检测上述分词结果中是否包含上述目标词汇,并生成第一检测结果;检测上述语料中是否包含与上述正则表达式指示的句法一致的句子,并生成第二检测结果;基于上述第一检测结果、上述第二检测结果和上述语料产生的场景,确定上述语料与上述子规则表达式的匹配结果。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:将上述子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对上述语料进行分词,得到分词结果;基于预先训练的词汇相似度计算模型,检测上述分词结果中是否包含上述目标词汇的相似词汇,并生成第三检测结果;基于预先训练的句意相似度计算模型,检测上述语料中是否包含与上述正则表达式指示的句法相似的句子,并生成第四检测结果;基于上述第三检测结果和上述第四检测结果,确定上述语料与上述子规则表达式的匹配结果。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:基于上述子规则表达式中的场景规则表达式,确定第一场景信息;获取上述语料的第二场景信息;将上述第一场景信息和上述目标词汇作为第一输入信息,将上述第二场景信息和上述分词结果中的词作为第二输入信息,将上述第一输入信息和上述第二输入信息输入至预先训练的词汇相似度计算模型,得到上述目标词汇与上述分词结果中的词的第一相似度;基于上述第一相似度,确定上述分词结果中是否包含上述目标词汇的相似词汇,并生成第三检测结果。
在本实施例的一些可选的实现方式中,上述确定单元303,进一步被配置成:基于上述子规则表达式中的场景规则表达式,确定第一场景信息;获取上述语料的第二场景信息;将上述第一场景信息和上述正则表达式作为第三输入信息,将上述第二场景信息和上述语料中的句子作为第四输入信息,将上述第三输入信息和上述第四输入信息输入至预先训练的句意相似度计算模型,得到上述正则表达式与上述语料中的句子的第二相似度;基于上述第二相似度,确定上述语料中是否包含与上述正则表达式指示的句法相似的句子,并生成第四检测结果。
在本实施例的一些可选的实现方式中,在上述词汇规则表达式包括至少两个词汇时,不同的词汇通过目标符号相隔,不同的目标符号用于指示不同的逻辑关系。
在本实施例的一些可选的实现方式中,上述场景规则表达式包括以下至少一项:至少一个场景标识、至少一个场景包标识,上述场景包标识所指示的场景包中包括一个或多个场景标识;以及,在上述场景规则表达式包括至少两个场景标识时,不同的场景标识通过分隔符号相隔。
本申请的上述实施例提供的装置,接收用户自定义的规则表达式,而后获取候选用户产生的语料,之后将语料与规则表达式进行匹配,从而基于匹配结果确定候选用户中的目标用户,其中,规则表达式采用自定义语法编写且用于进行语料匹配。由于规则表达式能够筛选出一些满足特定条件的语料,用户的语料能够反映出用户的类型、喜好等,因而通过规则表达式与用户的语料进行匹配的方式,能够有效选取出目标用户。此过程能够在不具备用户标签的情况下确定出目标用户,提高目标用户的选取范围。同时,通过设定规则表达式,无需编写专业的代码即可进行用户筛选,降低了确定目标用户过程中的人力成本。
图4是根据一示例性实施例示出的用于输入的装置400的框图,该装置400可以为智能终端或者服务器。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在上述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如上述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,上述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是本申请的一些实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘556,和/或,一个或一个以上操作***541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时,使得装置能够执行一种目标用户确定方法,上述方法包括:接收用户自定义的规则表达式,所述规则表达式采用自定义语法编写且用于进行语料匹配;获取候选用户产生的语料;将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取与所述规则表达式相关联的目标标签,所述目标标签由发送所述规则表达式的用户自定义;为所述目标用户添加所述目标标签。
可选的,所述规则表达式包括至少一个子规则表达式,不同的所述子规则表达式通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑关系。
可选的,所述将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户,包括:将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分;基于所述候选用户的得分,确定所述候选用户中的目标用户。
可选的,所述将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分,包括:将所述规则表达式转换为树形结构,其中,所述树形结构的叶子节点为所述规则表达式中的子规则表达式,所述树形结构的非叶子节点为所述规则表达式中的逻辑符号;将所述语料与所述树形结构的叶子节点进行匹配,基于匹配结果和所述树形结构的非叶子节点所指示的逻辑关系,确定所述候选用户的得分。
可选的,所述基于所述候选用户的得分,确定所述候选用户中的目标用户,包括:按照得分由高到低的次序,从所述候选用户中选取预设数量的用户,作为目标用户;或者将所述候选用户中选取得分高于预设数值的用户确定为目标用户。
可选的,所述子规则表达式包括场景规则表达式和词汇规则表达式,所述场景规则表达式和所述词汇规则表达式以预设符号相隔。
可选的,所述词汇规则表达式为包括以下至少一项:至少一个词汇、至少一个词包标识、至少一个正则表达式,所述词包标识指示的词包中包括一个或多个词汇。
可选的,所述将所述语料与所述规则表达式中的子规则表达式进行匹配,包括:将所述子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对所述语料进行分词,得到分词结果;检测所述分词结果中是否包含所述目标词汇,并生成第一检测结果;检测所述语料中是否包含与所述正则表达式指示的句法一致的句子,并生成第二检测结果;基于所述第一检测结果、所述第二检测结果和所述语料产生的场景,确定所述语料与所述子规则表达式的匹配结果。
可选的,所述将所述语料与所述规则表达式中的子规则表达式进行匹配,包括:将所述子规则表达式中的词汇规则表达式所涉及的词汇确定为目标词汇,并对所述语料进行分词,得到分词结果;基于预先训练的词汇相似度计算模型,检测所述分词结果中是否包含所述目标词汇的相似词汇,并生成第三检测结果;基于预先训练的句意相似度计算模型,检测所述语料中是否包含与所述正则表达式指示的句法相似的句子,并生成第四检测结果;基于所述第三检测结果和所述第四检测结果,确定所述语料与所述子规则表达式的匹配结果。
可选的,所述基于预先训练的词汇相似度计算模型,检测所述分词结果中是否包含所述目标词汇的相似词汇,并生成第三检测结果,包括基于所述子规则表达式中的场景规则表达式,确定第一场景信息;获取所述语料的第二场景信息;将所述第一场景信息和所述目标词汇作为第一输入信息,将所述第二场景信息和所述分词结果中的词作为第二输入信息,将所述第一输入信息和所述第二输入信息输入至预先训练的词汇相似度计算模型,得到所述目标词汇与所述分词结果中的词的第一相似度;基于所述第一相似度,确定所述分词结果中是否包含所述目标词汇的相似词汇,并生成第三检测结果。
可选的,所述基于预先训练的句意相似度计算模型,检测所述语料中是否包含与所述正则表达式指示的句法相似的句子,并生成第四检测结果,包括:基于所述子规则表达式中的场景规则表达式,确定第一场景信息;获取所述语料的第二场景信息;将所述第一场景信息和所述正则表达式作为第三输入信息,将所述第二场景信息和所述语料中的句子作为第四输入信息,将所述第三输入信息和所述第四输入信息输入至预先训练的句意相似度计算模型,得到所述正则表达式与所述语料中的句子的第二相似度;基于所述第二相似度,确定所述语料中是否包含与所述正则表达式指示的句法相似的句子,并生成第四检测结果。
可选的,在所述词汇规则表达式包括至少两个词汇时,不同的词汇通过目标符号相隔,不同的目标符号用于指示不同的逻辑关系。
可选的,所述场景规则表达式包括以下至少一项:至少一个场景标识、至少一个场景包标识,所述场景包标识所指示的场景包中包括一个或多个场景标识;以及,在所述场景规则表达式包括至少两个场景标识时,不同的场景标识通过分隔符号相隔。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种目标用户确定方法、装置和一种用于确定目标用户的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种目标用户确定方法,其特征在于,所述方法包括:
接收用户自定义的规则表达式,所述规则表达式采用自定义语法编写且用于进行语料匹配;
获取候选用户产生的语料;
将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户;
所述将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户,包括:
将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分;
基于所述候选用户的得分,确定所述候选用户中的目标用户;
所述将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分,包括:
将所述规则表达式转换为树形结构,其中,所述树形结构的叶子节点为所述规则表达式中的子规则表达式,所述树形结构的非叶子节点为所述规则表达式中的逻辑符号;
将所述语料与所述树形结构的叶子节点进行匹配,基于匹配结果和所述树形结构的非叶子节点所指示的逻辑关系,确定所述候选用户的得分。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述规则表达式相关联的目标标签,所述目标标签由发送所述规则表达式的用户自定义;
为所述目标用户添加所述目标标签。
3.根据权利要求1所述的方法,其特征在于,所述规则表达式包括至少一个子规则表达式,不同的所述子规则表达式通过逻辑符号相隔,不同的逻辑符号指示不同的逻辑关系。
4.根据权利要求1所述的方法,其特征在于,所述基于所述候选用户的得分,确定所述候选用户中的目标用户,包括:
按照得分由高到低的次序,从所述候选用户中选取预设数量的用户,作为目标用户;或者
将所述候选用户中选取得分高于预设数值的用户确定为目标用户。
5.根据权利要求1所述的方法,其特征在于,所述子规则表达式包括场景规则表达式和词汇规则表达式,所述场景规则表达式和所述词汇规则表达式以预设符号相隔。
6.一种目标用户确定装置,其特征在于,所述装置包括:
接收单元,被配置成接收用户自定义的规则表达式,所述规则表达式采用自定义语法编写且用于进行语料匹配;
获取单元,被配置成获取候选用户产生的语料;
确定单元,被配置成将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户;
所述确定单元,进一步被配置成:将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分;基于所述候选用户的得分,确定所述候选用户中的目标用户;
所述确定单元,进一步被配置成:将所述规则表达式转换为树形结构,其中,所述树形结构的叶子节点为所述规则表达式中的子规则表达式,所述树形结构的非叶子节点为所述规则表达式中的逻辑符号;将所述语料与所述树形结构的叶子节点进行匹配,基于匹配结果和所述树形结构的非叶子节点所指示的逻辑关系,确定所述候选用户的得分。
7.一种用于确定目标用户的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收用户自定义的规则表达式,所述规则表达式采用自定义语法编写且用于进行语料匹配;
获取候选用户产生的语料;
将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户;
所述将所述语料与所述规则表达式进行匹配,基于匹配结果确定所述候选用户中的目标用户,包括:
将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分;
基于所述候选用户的得分,确定所述候选用户中的目标用户;
所述将所述语料与所述规则表达式中的子规则表达式进行匹配,基于匹配结果和所述规则表达式中的逻辑符号所指示的逻辑关系,确定所述候选用户的得分,包括:
将所述规则表达式转换为树形结构,其中,所述树形结构的叶子节点为所述规则表达式中的子规则表达式,所述树形结构的非叶子节点为所述规则表达式中的逻辑符号;
将所述语料与所述树形结构的叶子节点进行匹配,基于匹配结果和所述树形结构的非叶子节点所指示的逻辑关系,确定所述候选用户的得分。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202010544461.0A 2020-06-15 2020-06-15 一种目标用户确定方法、装置和用于确定目标用户的装置 Active CN113807082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010544461.0A CN113807082B (zh) 2020-06-15 2020-06-15 一种目标用户确定方法、装置和用于确定目标用户的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010544461.0A CN113807082B (zh) 2020-06-15 2020-06-15 一种目标用户确定方法、装置和用于确定目标用户的装置

Publications (2)

Publication Number Publication Date
CN113807082A CN113807082A (zh) 2021-12-17
CN113807082B true CN113807082B (zh) 2024-07-09

Family

ID=78944361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010544461.0A Active CN113807082B (zh) 2020-06-15 2020-06-15 一种目标用户确定方法、装置和用于确定目标用户的装置

Country Status (1)

Country Link
CN (1) CN113807082B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779049B1 (en) * 2004-12-20 2010-08-17 Tw Vericept Corporation Source level optimization of regular expressions
CN109545202A (zh) * 2018-11-08 2019-03-29 广东小天才科技有限公司 一种调整语义逻辑混乱的语料的方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376847A (zh) * 2018-08-31 2019-02-22 深圳壹账通智能科技有限公司 用户意图识别方法、装置、终端及计算机可读存储介质
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及***
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及***
CN110516175B (zh) * 2019-08-29 2022-05-17 秒针信息技术有限公司 一种确定用户标签的方法、装置、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779049B1 (en) * 2004-12-20 2010-08-17 Tw Vericept Corporation Source level optimization of regular expressions
CN109545202A (zh) * 2018-11-08 2019-03-29 广东小天才科技有限公司 一种调整语义逻辑混乱的语料的方法及***

Also Published As

Publication number Publication date
CN113807082A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN111368541B (zh) 命名实体识别方法及装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110069624B (zh) 文本处理方法及装置
EP3790001B1 (en) Speech information processing method, device and storage medium
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN110069143B (zh) 一种信息防误纠方法、装置和电子设备
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN111414766B (zh) 一种翻译方法及装置
CN112133295B (zh) 语音识别方法、装置及存储介质
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN111324214B (zh) 一种语句纠错方法和装置
CN112149403A (zh) 一种确定涉密文本的方法和装置
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN111079421A (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN113807082B (zh) 一种目标用户确定方法、装置和用于确定目标用户的装置
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN110084065B (zh) 数据脱敏方法及装置
CN111103986A (zh) 用户词库管理方法及装置、输入方法及装置
CN109669549B (zh) 候选内容生成方法和装置、用于候选内容生成的装置
CN112528129B (zh) 多语种翻译***语种搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant