CN110263127A - 基于用户查询词进行文本搜索方法及装置 - Google Patents

基于用户查询词进行文本搜索方法及装置 Download PDF

Info

Publication number
CN110263127A
CN110263127A CN201910544979.1A CN201910544979A CN110263127A CN 110263127 A CN110263127 A CN 110263127A CN 201910544979 A CN201910544979 A CN 201910544979A CN 110263127 A CN110263127 A CN 110263127A
Authority
CN
China
Prior art keywords
segment
participle
core
speech
participle segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910544979.1A
Other languages
English (en)
Inventor
王晓珂
潘希阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangxin Journey Network Technology Co Ltd
Original Assignee
Beijing Chuangxin Journey Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangxin Journey Network Technology Co Ltd filed Critical Beijing Chuangxin Journey Network Technology Co Ltd
Priority to CN201910544979.1A priority Critical patent/CN110263127A/zh
Publication of CN110263127A publication Critical patent/CN110263127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及基于用户查询词进行文本搜索方法,基于用户查询词进行文本搜索方法包括:对用户查询词进行分词,得到分词片段;调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;利用所述第一核心分词片段进行文本搜索。通过本发明实施例,可提高文本搜索精度。

Description

基于用户查询词进行文本搜索方法及装置
技术领域
本发明实施例涉及信息处理领域,特别地是涉及一种基于用户查询词进行文本搜索方法及装置。
背景技术
目前,搜索***主要根据用户输入的用户查询词进行分词,然后用得到的分词片段随机匹配,倒排索引库,进行文档搜索匹配,将匹配到的文档按照排序返回给用户,由于分词片段随机匹配去搜索匹配文档,在此过程中,会出现不太相关的文档被检索并展示或者分词片段错误的匹配后而导致搜索出大量的无关文档淹没了有用文档的现象。
发明内容
为了解决现有技术中存在的上述问题,本发明实施例提供了基于用户查询词进行文本搜索方法及装置。
第一方面,本发明实施例提供一种基于用户查询词进行文本搜索方法,该基于用户查询词进行文本搜索方法包括:对用户查询词进行分词,得到分词片段;调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;利用所述第一核心分词片段进行文本搜索。
在一实施例中,所述方法还包括:调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;利用所述第二核心分词片段进行文本搜索。
在一实施例中,所述方法还包括:确认所述第一核心分词片段的数量未达到预设数量阈值;所述第二核心分词片段的数量为所述预设数量阈值。
在一实施例中,所述方法还包括:采用如下方式预先确定所述命名实体:基于预先训练的命名实体模型和预设的命名实体匹配规则分别对每个所述分词片段进行命名实体识别;在所述命名实体模型和所述命名实体匹配规则二者之一识别得到命名实体之际,将识别得到的命名实体确定为所述分词片段的命名实体;在所述命名实体模型和所述命名实体匹配规则均识别得到命名实体之际,将所述命名实体匹配规则识别得到的命名实体确定为所述分词片段的命名实体。
在一实施例中,所述方法还包括:采用如下方式预先确定所述词性:
基于预先训练的词性标注模型和预设的词性匹配规则对每个所述分词片段进行词性识别;在所述词性标注模型和所述词性匹配规则二者之一识别得到词性之际,将识别得到的词性确定为所述分词片段的词性;在所述词性标注模型和所述词性匹配规则均识别得到词性之际,将所述词性匹配规则识别得到的词性确定为所述分词片段的词性。
在一实施例中,所述方法还包括:采用如下方式预先确定所述句法结构:基于预先训练的句法结构模型和预设的句法结构匹配规则对每个所述分词片段进行句法结构识别;在所述句法结构模型和所述句法结构匹配规则二者之一识别得到句法结构之际,将识别得到的词性确定为所述分词片段的句法结构;在所述句法结构模型和所述句法结构匹配规则均识别得到句法结构之际,将所述句法结构匹配规则的识别结果确定为所述分词片段的句法结构。
第二方面,本发明实施例提供一种基于用户查询词进行文本搜索装置,该基于用户查询词进行文本搜索装置包括:分词单元,用于对用户查询词进行分词,得到分词片段;调用单元,用于调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;处理单元,用于将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;搜索单元,用于利用所述第一核心分词片段进行文本搜索。
在一实施例中,所述调用单元还用于:调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;利用所述第二核心分词片段进行文本搜索。
第三方面,本发明实施例提供一种电子设备,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行上述任何方法。
第四方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在计算机上运行时,执行上述任何方法。
本发明实施例提供的基于用户查询词进行文本搜索方法及装置,通过对用户查询词进行分词,得到分词片段,调用预先设定的自然语言规则模型,该自然语言规则模型中预先确定了核心分词片段和非核心分词片段的规则,利用该自然语言规则模型可确定哪些分词片段是核心分词片段,利用确定的核心分词片段进行文本搜索,可提高文本搜索精度。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例提供的基于用户查询词进行文本搜索方法实施流程图;
图2是本发明实施例提供的基于用户查询词进行文本搜索方法另一实施流程图;
图3是本发明实施例提供的基于用户查询词进行文本搜索装置示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
本发明实施例提供的基于用户查询词进行文本搜索方法及装置,可以应用于网站根据用户输入的用户查询词进行文本搜索的应用场景。在该场景下,基于用户查询词进行文本搜索方法的执行主体可以是基于用户查询词进行文本搜索装置,该数据统计装置可以是服务器、计算机或者移动终端等终端,本发明实施例不做限定。
图1为本发明实施例提供的基于用户查询词进行文本搜索方法实施流程图。如图1所示,该方法包括:
S101:对用户查询词进行分词,得到分词片段。
本发明实施例中的用户查询词为用户根据搜索需要输入的词,例如用户根据搜索需要输入的“冬天俄罗斯好玩吗”就称为用户查询词。对用户查询词进行分词,得到分词片段,例如对用户查询词“冬天俄罗斯好玩吗”进行分词,得到的“冬天”,“俄罗斯”,“好玩”,“吗”即为分词后的分词片段。
S102:调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段。
本发明实施例中,为了识别分词片段中哪些分词片段是核心分词片段,可根据自然语言处理方式预先设定自然语言规则模型,该自然语言规则模型可以是基于自然语言描述过程中所用的自然语言构成属性确定,该自然语言构成属性例如可以是词性,或者也可以是句法结构,或者也可以是命名实体,或者还可以是词性、句法结构和命名实体中多个组合。可以理解的是,本公开中用于确定自然语言规则模型的语言成分属性并不限于词性、句法结构和命名实体,还可以是其他语言成分属性,例如可以是词长。
该自然语言规则模型可根据预设的词性规则库,或者预设的句法结构规则库,或者预设的命名实体规则库,对输入的分词片段基于字典匹配的方式进行词性或者句法结构或者命名实体的识别标记,自然语言规则模型又或者根据预设的词性规则库、句法结构规则库和预设的命名实体规则库中的多个组合,对输入的分词片段基于字典匹配的方式进行词性、句法结构和命名实体中的多个组合的识别标记。本公开中自然语言规则模型的输入可以是分词片段,输出为核心分词片段或非核心词片段。可能的实施方式中可预设自然语言规则模型中的规则。将分词片段输入至自然语言规则模型后,符合预先设定的核心分词片段规则的,输出该分词片段为核心分词片段。不符合核心分词片段规则的,输出该分词片段为非核心分词片段。
在一示例中,自然语言规则模型中的规则例如可采用如下方式预先确定:一方面可将句法结构是定语、主语或状语,并且词性是名词、专有名词或时间词的分词片段确定为核心分词片段,否则确定为非核心分词片段。另一方面可将句法结构是定语、主语,并且词性是名词或者时间词的分词片段确定为核心分词片段,否则确定为非核心分词片段。自然语言规则模型中设定的具体规则可根据实际应用进行调试,本发明实施例在此不做限定。
S103:将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言规则模型的输出对所述分词片段进行筛选,得到第一核心分词片段。
本发明实施例中,将分词片段作为输入参数输入自然语言规则模型,自然语言规则模型基于字典匹配的方式对输入的分词片段进行词性、句法结构和命名实体的识别,标记后,根据预设的规则,进行核心分词片段和非核心分词片段的筛选,得到分词片段中的核心分词片段。
本发明实施例中,例如自然语言规则模型中的规则为符合句子成分是定语/主语/状语,并且词性是名词/专有名词/时间词确定为核心分词片段,当输入的分词片段符合自然语言规则模型中的规则,就输出该分词片段并将该分词片段标记为核心分词片段,如果输入的分词片段不符合自然语言规则模型中的规则,就输出该分词片段并将该分词片段标记为非核心分词片段。
本发明实施例为描述方便,将经过自然语言规则模型筛选得到的核心分词片段称为第一核心分词片段。
S104:利用所述第一核心分词片段进行文本搜索。
本发明实施例中,可以利用第一核心分词片段以倒排索引的方式进行文本搜索,将匹配到的文档按照一定的排序展示给用户。
其中,利用第一核心分词片段去检索索引库时,所有检索得到的文本中必须含有第一核心分词片段,如果检索得到的文本中除了包含第一核心分词片段,还包含非核心分词片段,则该文本在检索得到的文本中的排序顺序相比只包含第一核心分词片段的文本靠前。
通过本发明实施例,能够准确的识别出用户搜索需要的核心分词片段,明显地提升搜索质量。
图2是本发明实施例提供的基于用户查询词进行文本搜索方法另一实施流程图。如图2所示,基于用户查询词进行文本搜索方法中,包括步骤S201至步骤S207。其中,步骤S201-步骤S203与图1中的步骤S101-步骤S103相同,在此不再赘述。下面就步骤S204-步骤S207做详细说明。
S204:调用预先训练的训练模型,所述训练模型基于自然语言描述过程中所用的自然语言构成属性确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值。
本发明实施例中,除了利用预先设定的自然语言规则模型识别分词片段中哪些是核心分词片段外,还可以利用预先训练的训练模型,补充识别分词片段中的核心分词片段。该训练模型可以是概率模型中的一种,例如该训练模型可以是CRF模型,基于通用语料库训练得到。该训练模型例如可根据自然语言构成属性中的词性,或者句法结构,或者命名实体确定,或者还可以基于自然语言构成属性中的词性、句法结构和命名实体中多个组合进行确定。可以理解的是,本公开中预先训练的训练模型的自然语言成分属性并不限于词性、句法结构和命名实体,还可以是其他语言成分属性,例如可以是词长或者在用户查询词中的位置。
基于通用语料库训练得到的训练模型可对分词片段进行词性或者句法结构或者命名实体的识别,标记。还可以对分词片段进行词性、句法结构和命名实体中多个组合进行识别,标记。
本发明实施例中,训练模型可基于如下方式进行确定:
对自然语言构成属性中包括的各类词性、词长、句法结构和命名实体分别预设权重系数,以及对各类词性、词长、句法结构和命名实体分别预设分值,根据各类词性、词长、句法结构和命名实体的权重系数和分值确定训练模型。
在一示例中,训练模型例如可采用如下方式预先确定:根据自然语言的处理方式,基于自然语言构成属性中的词性、词长、句法结构和命名实体进行权重系数的分配,并针对词性中例如动词、名词、形容词等进行分值预设,例如,针对词长例如为2,词长为3分别进行分值预设,针对句法结构中例如定语、状语、主语分别进行分值预设,和针对命名实体例如人名、地名、机构名分别进行分值预设,再利用公式:S=∑(a*S1+b*S2+c*S3+d*S4)得到每个分词片段的权重值。
其中,S为分词片段的权重值,a、b、c和d为权重系数,S1,S2、S3和S4为与权重系数相对应自然语言构成属性的分值。
可以理解的是,在另一示例中,训练模型例如可采用如下方式预先确定:根据自然语言的处理方式,基于自然语言构成属性中的词性、词长、进行权重系数的分配,并针对词性中例如动词、名词、形容词等进行分数预设,针对词长例如为2,词长为3进行分数预设,利用公式:S=∑(a*S1+b*S2)确定每个分词片段的权重值。
训练模型的确定可根据实际应用进行设定并训练调试,本发明实施例在此不做限定。
S205:将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值。
本发明实施例中,调用预先训练的训练模型,对分词片段进行权重值确定,并输出,根据输出的每个分词片段的权重值,确定核心分词片段。
S206:依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段。
本发明实施例中,例如可预设核心分词片段的数量,将训练模型输出的分词片段的权重值由高到低选取三个作为核心分词片段,并且核心分词片段中包括第一核心分词片段,或者可预设输出的权重值大于某个数值的分词片段作为核心分词片段,该核心分词片段中也包括第一核心分词片段。
本发明实施例为描述方便,将依据分词片段成为核心分词片段的权重值,确定的核心分词片段,即将包括第一核心分词片段的核心分词片段称为第二核心分词片段。
S207:利用所述第二核心分词片段进行文本搜索。
本发明实施例中,可利用自然语言规则模型输出的第二核心分词片段,以倒排索引的方式进行文本搜索,将匹配到的文档按照一定的排序展示给用户。
通过本发明实施例,可获得更多的核心分词片段,将包括第一核心分词片段的第二核心分词片段进行文本搜索,进一步提高了搜索的准确度,基于分词片段的权重值来确定核心分词片段时,不需要专门构建训练数据,减小了训练的数据量,并且训练模型中预设的权重规则可根据实际应用进行设定并训练调试,方便调整优化,提升了干预优化效率。
作为本发明的一个实施方式,基于用户查询词进行文本搜索方法在步骤S201-S207的基础上,还包括步骤S208。
S208:确认第一核心分词片段的数量未达到预设数量阈值,所述第二核心分词片段的数量为所述预设数量阈值。
本发明实施例中,可预设核心分词片段数量阈值,如果第一核心分词片段的数量少于预设数量阈值,则利用预先训练的训练模型,对分词片段进行核心分词片段的确定并增加,得到第二核心分词片段,并确定第二核心分词片段的数量为预设数量阈值。
例如,分词片段为“冬天”,“俄罗斯”,“好玩”,“吗”,预设数量阈值为2,其中,自然语言规则模型将“冬天”确定为核心分词片段,将“俄罗斯”确定为非核心分词片段,核心分词片段数量不足2个,此时可以依据预先训练的训练模型中设定的规则,确定分词片段“冬天”“俄罗斯”,“好玩”,“吗”的权重值,例如权重值由高到低依次为“冬天”“俄罗斯”“好玩”“吗”,则将包括第一核心分词片段“冬天”以及分词片段“俄罗斯”确定为第二核心分词片段。
通过本发明实施例,可获取到足够的核心分词片段,在搜索中可以准确定位需要搜索的文档。
本发明实施例中涉及的自然语言规则模型可根据如下方式预先设定自然语言规则模型中的命名实体、词性和句法结构,预先设定自然语言规则模型中的命名实体、词性和句法结构可由步骤S209-S211确定。下面就步骤S209-S211做详细说明。
S209:确定自然语言规则模型中的命名实体。
本发明实施例中的命名实体可以认为用户输入的用户查询词中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
本发明实施例中,可采用如下方式预先确定命名实体:基于预先训练的命名实体模型和预设的命名实体匹配规则分别对每个分词片段进行命名实体识别;在命名实体模型和命名实体匹配规则二者之一识别得到命名实体之际,将识别得到的命名实体确定为分词片段的命名实体;在命名实体模型和命名实体匹配规则均识别得到命名实体之际,将命名实体匹配规则识别得到的命名实体确定为分词片段的命名实体。
本发明实施例中的命名实体模型可以是基于命名实体识别(Named EntityRecognition,NER)模型和/或条件随机场(ConditionalRandom Fields,CRF)模型利用通用语料库预先训练得到。预先训练的命名实体模型具有通用性,广泛性。
本发明实施例中可以根据网站行业或者业务等实际需求而收集命名实体规则库,基于命名实体规则库利用命名实体匹配规则即字典匹配的规则对分词片段进行命名实体的识别,标记。例如根据旅游领域地名机构名收集的命名实体规则库具有旅游行业的特殊性,少而精。
通过预先训练的命名实体模型和预设的命名实体匹配规则可以相辅相成的确定命名实体。由于命名实体规则库根据行业或者业务等实际需求收集而来,基于命名实体规则库利用命名实体匹配规则对分词片段进行命名实体的识别,标记的准确度很高,如果命名实体模型和命名实体匹配规则都有识别结果,会将命名实体匹配规则识别得到的命名实体确定为分词片段的命名实体。如果命名实体模型和命名实体匹配规则二者之一识别得到命名实体之际,将命名实体匹配规则识别得到的命名实体确定为分词片段的命名实体。
例如分词片段“俄罗斯”通过预先训练的命名实体模型识别为地名,而通过预设的命名实体匹配规则识别为国家名,因此,最终分词片段“俄罗斯”的识别以预设的命名实体匹配规则中识别的国家名确定为分词片段“俄罗斯”的命名实体。
S210:确定自然语言规则模型中的词性。
本发明实施例中的词性可以包括例如名词、形容词、介词、时间词、动词和副词等。
本发明实施例中,可采用如下方式预先确定词性:基于预先训练的词性标注模型和预设的词性匹配规则对每个分词片段进行词性识别;在词性标注模型和词性匹配规则二者之一识别得到词性之际,将识别得到的词性确定为分词片段的词性;在词性标注模型和词性匹配规则均识别得到词性之际,将词性匹配规则识别得到的词性确定为分词片段的词性。
本发明实施例中可基于CRF模型利用通用语料库预先训练一个CRF词性标注模型,该CRF词性标注模型具有通用性,广泛性。
本发明实施例中为了纠正训练模型输出的词性与人工常识相比不准确的情况而建立词性规则库,基于词性规则库利用词性匹配规则即字典匹配的规则对分词片段进行词性的识别,标记。词性匹配规则库根据自然语言常识收集而来,少而精。
通过预先训练的词性标注模型和预设的词性匹配规则可以相辅相成的确定分词片段的词性。由于词性规则库是根据自然语言常识收集而来,基于词性规则库利用预设的词性匹配规则对分词片段进行词性的识别,标记的准确度很高,如果词性标注模型和词性匹配规则都有识别结果,会将词性匹配规则识别得到的词性确定为分词片段的词性。如果词性标注模型和词性匹配规则二者之一识别得到词性之际,将词性匹配规则识别得到的词性确定为分词片段的词性。
例如,词性标注模型将分词片段“冬天”被识别为时间词,将分词片段“俄罗斯”识别为名词,将分词片段“好玩”识别为名词,将分词片段“吗”识别为语气词,而“冬天”其实为更加具体的季节时间词,通过在词性匹配规则识别为季节词,因此最终分词片段“冬天”的识别以预设的词性匹配规则中识别的季节词确定为分词片段“冬天”的词性。
S211:确定自然语言规则模型中的句法结构。
本发明实施例中的句法结构可以包括例如是主语、谓语、宾语和定语的句子成分等。
本发明实施例中,可采用如下方式预先确定句法结构:基于预先训练的句法结构模型和预设的句法结构匹配规则对每个分词片段进行句法结构识别;在句法结构模型和句法结构匹配规则二者之一识别得到句法结构之际,将识别得到的词性确定为分词片段的句法结构;在句法结构模型和句法结构匹配规则均识别得到句法结构之际,将句法结构匹配规则的识别结果确定为分词片段的句法结构。
本发明实施例中可基于CRF模型利用通用语料库预先训练一个CRF句法结构模型,该CRF句法结构模型具有通用性,广泛性。
本发明实施例中为了纠正训练模型输出的句法结构与人工常识相比不准确的情况而建立句法结构规则库,基于句法结构规则库利用句法结构匹配规则即字典匹配的规则对分词片段进行词性的识别,标记。句法结构匹配规则根据自然语言常识收集而来,少而精。
通过预先训练的句法结构模型和预设的句法结构匹配规则可以相辅相成的确定分词片段的句法结构。由于句法结构规则库是根据自然语言常识收集而来,基于句法结构规则库利用预设的句法结构匹配规则对分词片段进行词性的识别,标记的准确度很高,如果预先训练的句法结构模型和预设的句法结构匹配规则都有识别结果,会将句法结构匹配规则识别得到的句法结构确定为分词片段的句法结构。如果句法结构模型和句法结构匹配规则二者之一识别得到句法结构之际,将句法结构匹配规则识别得到的句法结构确定为分词片段的句法结构。
例如,时间词一定是时间状语,地名一定是主语或者地点状语等,如果符合规则情况就强行使用句法结构匹配规则来干预覆盖。如此分词片段“冬天”,“俄罗斯”,“好玩”,“吗”“冬天”被识别为地点状语,“俄罗斯”被识别成主语。
通过本发明实施例,可基于自然语言处理方式准确的识别出分词片段的命名实体、词性和句法结构,有利于通过分词片段的命名实体、词性和句法结构,确定核心分词片段,进而提高文本搜索精度。
本发明实施例提供的基于用户查询词进行文本搜索方法,通过预先设定的自然语言规则模型和预先训练的训练模型对分词片段进行核心分词片段的确定,并基于确定的核心分析片段进行文本搜索,可提高文本搜索精度。
基于相同的发明构思,本发明实施例还提供了一种基于用户查询词进行文本搜索装置,如图3所示,本发明实施例提供的基于用户查询词进行文本搜索装置300,该装置300包括:分词单元301,用于对用户查询词进行分词,得到分词片段;调用单元302,用于调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;处理单元303,用于将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;搜索单元304,用于利用所述第一核心分词片段进行文本搜索。
在一实施例中,所述调用单元302还用于:调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;利用所述第二核心分词片段进行文本搜索。
在一实施例中,所述分词单元301还用于:确认所述第一核心分词片段的数量未达到预设数量阈值;所述第二核心分词片段的数量为所述预设数量阈值。
在一实施例中,所述处理单元303还用于:采用如下方式预先确定所述命名实体:基于预先训练的命名实体模型和预设的命名实体匹配规则分别对每个所述分词片段进行命名实体识别;在所述命名实体模型和所述命名实体匹配规则二者之一识别得到命名实体之际,将识别得到的命名实体确定为所述分词片段的命名实体;在所述命名实体模型和所述命名实体匹配规则均识别得到命名实体之际,将所述命名实体匹配规则识别得到的命名实体确定为所述分词片段的命名实体。
在一实施例中,所述处理单元303还用于:采用如下方式预先确定所述词性:基于预先训练的词性标注模型和预设的词性匹配规则对每个所述分词片段进行词性识别;在所述词性标注模型和所述词性匹配规则二者之一识别得到词性之际,将识别得到的词性确定为所述分词片段的词性;在所述词性标注模型和所述词性匹配规则均识别得到词性之际,将所述词性匹配规则识别得到的词性确定为所述分词片段的词性。
在一实施例中,所述处理单元303还用于:采用如下方式预先确定所述句法结构:基于预先训练的句法结构模型和预设的句法结构匹配规则对每个所述分词片段进行句法结构识别;在所述句法结构模型和所述句法结构匹配规则二者之一识别得到句法结构之际,将识别得到的词性确定为所述分词片段的句法结构;在所述句法结构模型和所述句法结构匹配规则均识别得到句法结构之际,将所述句法结构匹配规则的识别结果确定为所述分词片段的句法结构。
本发明实施例还提供一种电子设备,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行上述可能的实施方式中任一所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行上述可能的实施方式中任一所述的方法。
可以理解的是,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (10)

1.一种基于用户查询词进行文本搜索方法,其中,所述方法包括:
对用户查询词进行分词,得到分词片段;
调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;
将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;
利用所述第一核心分词片段进行文本搜索。
2.根据权利要求1所述的方法,其中,所述方法还包括:
调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;
将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;
依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;
利用所述第二核心分词片段进行文本搜索。
3.根据权利要求2所述的方法,其中,所述方法还包括:
确认所述第一核心分词片段的数量未达到预设数量阈值;
所述第二核心分词片段的数量为所述预设数量阈值。
4.根据权利要求1或2所述的方法,其中,所述方法还包括:
采用如下方式预先确定所述命名实体:
基于预先训练的命名实体模型和预设的命名实体匹配规则分别对每个所述分词片段进行命名实体识别;
在所述命名实体模型和所述命名实体匹配规则二者之一识别得到命名实体之际,将识别得到的命名实体确定为所述分词片段的命名实体;
在所述命名实体模型和所述命名实体匹配规则均识别得到命名实体之际,将所述命名实体匹配规则识别得到的命名实体确定为所述分词片段的命名实体。
5.根据权利要求1或2所述的方法,其中,所述方法还包括:
采用如下方式预先确定所述词性:
基于预先训练的词性标注模型和预设的词性匹配规则对每个所述分词片段进行词性识别;
在所述词性标注模型和所述词性匹配规则二者之一识别得到词性之际,将识别得到的词性确定为所述分词片段的词性;
在所述词性标注模型和所述词性匹配规则均识别得到词性之际,将所述词性匹配规则识别得到的词性确定为所述分词片段的词性。
6.根据权利要求1或2所述的方法,其中,所述方法还包括:
采用如下方式预先确定所述句法结构:
基于预先训练的句法结构模型和预设的句法结构匹配规则对每个所述分词片段进行句法结构识别;
在所述句法结构模型和所述句法结构匹配规则二者之一识别得到句法结构之际,将识别得到的词性确定为所述分词片段的句法结构;
在所述句法结构模型和所述句法结构匹配规则均识别得到句法结构之际,将所述句法结构匹配规则的识别结果确定为所述分词片段的句法结构。
7.一种基于用户查询词进行文本搜索装置,其中,所述装置包括:
分词单元,用于对用户查询词进行分词,得到分词片段;
调用单元,用于调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;
处理单元,用于将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;
搜索单元,用于利用所述第一核心分词片段进行文本搜索。
8.根据权利要求7所述的装置,其中,所述调用单元还用于:
调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;
将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;
依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;
利用所述第二核心分词片段进行文本搜索。
9.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1至6中任一项所述的基于用户查询词进行文本搜索方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在计算机上运行时,执行权利要求1至6中任一项所述的基于用户查询词进行文本搜索方法。
CN201910544979.1A 2019-06-21 2019-06-21 基于用户查询词进行文本搜索方法及装置 Pending CN110263127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544979.1A CN110263127A (zh) 2019-06-21 2019-06-21 基于用户查询词进行文本搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544979.1A CN110263127A (zh) 2019-06-21 2019-06-21 基于用户查询词进行文本搜索方法及装置

Publications (1)

Publication Number Publication Date
CN110263127A true CN110263127A (zh) 2019-09-20

Family

ID=67920439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544979.1A Pending CN110263127A (zh) 2019-06-21 2019-06-21 基于用户查询词进行文本搜索方法及装置

Country Status (1)

Country Link
CN (1) CN110263127A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111159343A (zh) * 2019-12-26 2020-05-15 上海科技发展有限公司 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN111931480A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本主要内容的确定方法、装置、存储介质及计算机设备
CN111986768A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 诊所查询报告生成方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及***、移动终端、中转服务器
CN102929925A (zh) * 2012-09-20 2013-02-13 百度在线网络技术(北京)有限公司 一种基于浏览内容的搜索方法及装置
CN103123624A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和***
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答***和方法
US9116977B2 (en) * 2011-10-10 2015-08-25 Alibaba Group Holding Limited Searching information
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN109815396A (zh) * 2019-01-16 2019-05-28 北京搜狗科技发展有限公司 搜索词权重确定方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US9116977B2 (en) * 2011-10-10 2015-08-25 Alibaba Group Holding Limited Searching information
CN103123624A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及***、移动终端、中转服务器
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和***
CN102929925A (zh) * 2012-09-20 2013-02-13 百度在线网络技术(北京)有限公司 一种基于浏览内容的搜索方法及装置
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答***和方法
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN109815396A (zh) * 2019-01-16 2019-05-28 北京搜狗科技发展有限公司 搜索词权重确定方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159343A (zh) * 2019-12-26 2020-05-15 上海科技发展有限公司 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111104488B (zh) * 2019-12-30 2023-10-24 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111931480A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本主要内容的确定方法、装置、存储介质及计算机设备
CN111931480B (zh) * 2020-07-03 2023-07-18 北京新联财通咨询有限公司 文本主要内容的确定方法、装置、存储介质及计算机设备
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN111737974B (zh) * 2020-08-18 2020-12-04 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN111986768A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 诊所查询报告生成方法、装置、电子设备及存储介质
CN111986768B (zh) * 2020-09-03 2023-06-09 深圳平安智慧医健科技有限公司 诊所查询报告生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
EP2480995A1 (en) Searching for information based on generic attributes of the query
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN103914533B (zh) 推广搜索结果的展现方法和装置
US11651014B2 (en) Source code retrieval
CN112287656B (zh) 文本比对方法、装置、设备和存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN114282513A (zh) 文本语义相似度的匹配方法、***、智能终端及存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN106776590A (zh) 一种获取词条译文的方法及***
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination