CN110309252B

CN110309252B - 一种自然语言处理方法及装置

Info

Publication number: CN110309252B
Application number: CN201810164982.6A
Authority: CN
Inventors: 李生; 王剑; 曹元斌; 温建华; 郎君; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2023-11-24
Anticipated expiration: 2038-02-28
Also published as: CN110309252A

Abstract

本申请实施例公开了一种自然语言处理方法及装置。所述方法包括：获取用户输入的自然语言内容；对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；利用机器学习模型组件获取所述依存关系特征数据对应的用户意图；其中，所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。利用本申请实施例，不仅可以弱化现有技术强匹配的意图识别方式，还可以提高用户意图识别的准确性。

Description

一种自然语言处理方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种自然语言处理方法及装置。

背景技术

近年来，聊天机器人(chatbot)已经在很多技术领域中得到广泛的应用，典型的如各应用平台上的虚拟客服。再如用户个人虚拟管家，在个人虚拟管家中，聊天机器人可以帮助用户查询天气、新闻，帮助用户安排会议提醒、网购商品等。聊天机器人能够在第一时间理解用户输入语句的意图是衡量聊天机器人性能的重要指标之一。

现有技术中，用户在聊天机器人平台上输入搜索语句之后，聊天机器人可以根据所述搜索语句中的信息获取用户的搜索意图，并根据用户的搜索意图为用户提供相应的服务，以满足用户的需求。聊天机器人平台在获取用户搜索意图的过程中，通常利用静态规则方式进行搜索意图的匹配。具体地，聊天机器人平台可以预先设置多个静态规则，以表达用户不同的搜索意图，例如其中一条静态规则为“我要看+[电影通配内容]”。对于上述用户看电影的静态规则，当用户输入的搜索语句与所述静态规则相匹配时，聊天机器人平台可以确定用户的看电影的搜索意图。但是，在上述匹配过程中，只有当用户的搜索语句与上述静态规则强匹配时，即用户的搜索语句必须是“我要看……”，聊天机器人平台才可以匹配得到用户的搜索需求。即使是“我想看……”这样意思很相近的搜索语句，聊天机器人平台也无法匹配得到用户的搜索需求。

因此，现有技术中亟需一种能够弱化现有技术中强匹配的确定用户搜索意图的方式。

发明内容

本申请实施例的目的在于提供一种自然语言处理方法及装置，不仅可以弱化现有技术强匹配的意图识别方式，还可以提高用户意图识别的准确性。

本申请实施例提供的自然语言处理方法及装置具体是这样实现的：

一种自然语言处理方法，所述方法包括：

获取用户输入的自然语言内容；

对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；

利用机器学习模型组件获取所述依存关系特征数据对应的用户意图；其中，所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。

一种自然语言处理方法，所述方法包括：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用与所述动态意图描述词具有相同意义的描述词对所述动态意图描述词进行同义词扩充；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

一种自然语言处理装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现以下步骤：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用与所述动态意图描述词具有相同意义的描述词对所述动态意图描述词进行描述方式扩充；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

一种自然语言处理方法，所述方法包括：

获取用户输入的自然语言内容；

利用机器学习模型组件，确定所述自然语言内容对应的用户意图；其中，所述深度学习模型组件根据多个历史用户意图训练得到；

基于所述用户意图，执行对应的处理。

本申请提供的一种自然语言处理方法及装置，可以对用户输入的自然语言进行句法结构处理，获取所述自然语言中的依存关系特征数据。然后，可以利用机器学习模型获取所述依存关系特征数据对应的用户意图。相对于现有技术中利用静态规则匹配自然语言内容中意图信息的方式，本申请的技术方案能够灵活地运用自然语言内容中的依存关系特征数据，所述依存关系特征数据可以比较准确地表达用户的意图信息，因此，本申请各个实施例提供的自然语言处理方式不仅可以弱化现有技术强匹配的意图识别方式，还可以提高用户意图识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一个应用场景的用户界面图；

图2是本申请提供的自然语言处理方法的一种实施例的方法流程图；

图3是本申请提供的一种句法结构分析的示意图；

图4是本申请提供的自然语言处理装置的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

近年来，用户意图识别技术已广泛应用于聊天机器人中，能够准确识别出用户的意图是衡量聊天机器人性能的重要指标。用户在与聊天机器人(如智能客服等)进行对话时，往往使用自然语言进行表达。自然语言与用户的个人表达习惯相关联，不同的用户往往具有不同的表达习惯，例如同样表达试图的意思，有“想要”、“想”、“要”、“试图”、“渴望”等多种表达方式。由此可见，自然语言具有随机性，不具有统一的表达规则，因此，对于聊天机器人来说，能够从自然语言中识别出用户的意图具有较大的挑战。由上述可知，现有技术中，聊天机器人在识别用户输入的自然语言所表达的意图时，往往通过静态规则匹配方式进行匹配识别。只有当聊天机器人后台存在与用户输入的自然语言完全一致的数据时，聊天机器人才可以识别出自然语言中所表达的意图。即使所述自然语言所表达的意思与标准规则相接近，也无法识别出其中的意图。因此，用户在现有技术中的聊天机器人中进行对话时，经常出现聊天机器人无法识别用户所表达意图的情况。

基于类似于上文描述的技术需求，本申请提供的自然语言处理方法可以对用户输入的自然语言进行特征提取，获取用户自然语言中的特征数据，并根据所述特征数据确定自然语言的用户意图。

下面通过一个具体的应用场景说明本实施例方法的具体实施方式。

如图1所示，用户在与某电商平台上的智能客服小R进行聊天时，用户向智能客服小R提出需求“请帮我推荐几篇有关科学护肤的文章”。电商平台的后台服务器在接收到用户提出的自然语言内容“请帮我推荐几篇有关科学护肤的文章”之后，对所述自然语言内容进行句法结构分析，以获取所述自然语言内容的依存关系特征数据。例如，在一个实例中，可以利用依存关系树的方式表示出上述自然语言内容中描述词之间的修饰关系，那么，可以得到依存关系树根节点所对应的描述词为“推荐”，即上述自然语言内容的句法核心词为“推荐”，而“推荐”的依赖词为“文章”，此外，上述自然语言内容中的动态实体描述词为“科学”、“护肤”。基于此，可以提取到上述自然语言的依存关系特征数据为{句法核心词＝推荐，依赖词＝文章，动态实体描述词＝科学，护肤}。然后，将所述依存关系特征数据输入至预先训练完成的机器学习模型中，可以获取到用户的表达意图为“推荐@sys.any文章”，其中，@sys.any为通配符，对于上述自然语言内容，@sys.any＝科学护肤。因此，在了解到用户的表达意图之后，可以基于所述表达意图，满足用户的需求，如在本场景中，可以向用户展示多个有关科学护肤的文章。

下面结合附图2对本申请所述的自然语言处理方法进行详细的说明。图2是本申请提供的自然语言处理方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的自然语言处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

如图2所示，所述方法可以包括：

S201：获取用户输入的自然语言内容。

S203：对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系。

S205：利用机器学习模型组件获取所述依存关系特征数据对应的用户意图；其中，所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。

本实施例中，首先，获取用户输入的自然语言内容。与所述自然语言相对的是逻辑语言，自然语言是人脑与人脑的交际工具，而逻辑语言是人脑与电脑的交际工具，如编程语言(C语言、VB语言等)。本实施例中，用户输入自然语言内容的应用场景具有多种，其中可以包括用户在与智能客户进行对话时、用户在与个人虚拟管家对话时，还可以包括用户在任何平台上输入的表达搜索需求的自然语言。所述自然语言内容可以包括短语、句子或者以上两种表达形式的任意组合。所述自然语言内容可以包括用户输入的文字内容，也可以包括根据用户的语音内容转化得到的文字内容，如对用户的语音内容进行自然语言识别，转化成文字内容。下面可以利用多种形式表达用户想看XX电影的意图，例如可以包括：“我想要看XX电影”、“帮我找XX电影”、“XX电影高清的”、“要看XX电影高清的”等等。

本实施例中，可以是各个智能交互平台上的服务器处理用户输入的自然语言内容，所述服务器可以包括单台服务器，还可以包括由多台服务器组成的服务器集群，在此不做限制。服务器在接收到用户输入的自然语言内容之后，可以对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据。所述依存关系特征数据可以用于表达所述自然语言内容中各个描述词之间的依赖关系，进而表达所述自然语言内容中的核心描述词。

在本申请的一个实施例中，可以通过句法结构分析的方式获取所述自然语言内容中各个描述词之间的修饰关系，并根据所述修饰关系获取所述自然语言内容的依存特征数据。具体地，可以从所述自然语言内容中提取至少一个描述词。在一个示例中，对自然语言内容“我想查询苏州明天的天气”进行分词处理，得到“我”、“想”、“查询”、“苏州”、“明天”、“的”、“天气”等多个描述词。然后，可以从中提取至少一个描述词，例如可以去除上述多个描述词中的冗余词，如“了”、“的”、标点符号等描述词。这样，可以从自然语言“我想查询苏州明天的天气”中提取出“我”、“想”、“查询”、“苏州”、“明天”、“天气”等多个描述词。然后，可以确定所述至少一个描述词之间的修饰关系，在自然语言内容“我想查询苏州明天的天气”中，“查询”是“我”的谓语，“天气”是“查询”的宾语，等等。在一个实施例中，可以利用基于图模型的方法获取描述词之间的修饰关系，例如Eisner算法等。在另一个实施例中，还可以基于转移***的方法获取描述词之间的修饰关系，例如arc-eager算法、arc-standard算法、arc-hybrid算法、easy-first算法等。当然，在其他实施例中，还可以利用机器学习的方式获取描述词之间的修饰关系，例如卷积神经网络模型等。本申请对于获取描述词间修饰关系的方式不做限制。

本实施例中，在获取到所述自然语言内容中描述词之间的修饰关系之后，可以根据所述修饰关系构建所述自然描述语言中描述词的依存关系树。基于所述依存关系树，可以确定所述自然语言内容中的句法核心词，并将所述句法核心词作为所述自然语言内容的依存关系特征数据。具体地，可以将所述依存关系树的根节点对应的描述词作为所述自然语言内容的句法核心词。例如，在一个示例中，对于自然语言内容“亚洲开发银行总裁佐藤光夫主持了这次研讨会。”，可以从中提取出“亚洲”、“开发”、“银行”、“总裁”、“佐藤光夫”、“主持”、“了”、“这”、“次”、“研讨会”、“。”等多个描述词，对描述词之间的修饰关系进行分析，得到“佐藤光夫”为“主持”的主语，“研讨会”为“主持”的宾语，“亚洲”、“开发”、“银行”、“总裁”为复合名词关系，等等。

在确定所述多个描述词之间的修饰关系之后，可以基于所述修饰关系，确定所述多个描述词对应的依存关系树。如3所示，可以通过有向弧的方式表达出上述多个描述词之间的修饰关系。各个描述词下面为标注的描述词词性，NR为固有名词，NN为常用名词，VV为动词，AS为内容标记(通常只有了、的等)，DT为限定词，M为修饰词，PU为断句符。图3中线条表示两个描述词之间具有修饰关系，其中有向弧指向的是被修饰描述词，修饰关系标注在线条上，其中，ROOT为根节点，NMOD为复合名词修饰关系，SBJ为主语修饰关系，VMOD为动词修饰关系，OBJ为宾语修饰关系，M为修饰语关系。在一个实施例中，所述依存关系树可以依据下述规则设置：每个描述词可以看做一个节点，在句首***了一个起辅助作用的虚拟节点(根节点ROOT)，所有节点通过有向弧连接形成一棵树，且满足：

除了根节点ROOT外，任意节点有且仅有一条入边；

除了叶子节点外，任意节点有至少一条出边；

根节点仅有一条出边，对应的有向弧指向支配整个句子的句法核心词；

所有的有向弧不能交叉，如果a和b两个节点之间存在有向弧，则处于a和b之间的任意两个节点间的有向弧在水平方向的投影一定落在a和b之间有向弧的投影上。

通过所述依存关系树的根节点对应的描述词，可以确定上述自然语言内容“亚洲开发银行总裁佐藤光夫主持了这次研讨会。”的句法核心词为“主持”。利用同样的方式，还可以确定“我想查询苏州明天的天气”的句法核心词为“查询”。

本实施例中，将所述自然语言内容中的句法核心词作为所述依存关系特征数据，后续并利用所述依存关系特征数据进行机器学习，即对所述自然语言内容中的关键信息进行学习，可以降低数据冗余，以学习到真正有效的数据。

本实施例中，所述依存关系特征数据可以用于表征自然语言内容的意图特征。在本申请的一个实施例中，所述依存关系特征数据还可以包括下述中的至少一种：

所述句法核心词的词性、所述句法核心词的依赖词、所述依赖词的词性、动态实体描述词、所述动态实体描述词的词性、所述动态实体描述词与所述句法核心词之间的距离、所述动态实体描述词的同义词集合。

其中，所述句法核心词及其词性、所述句法核心词的依赖词及其词性以及所述动态实体描述词以及所述动态实体描述词及其词性对表达自然语言内容中的意图特征具有重要的作用。例如，当句法核心词为动词比句法核心词为名词时更加能够表达用户的意图。所述句法核心词的依赖词可以包括与所述句法核心词具有修饰关系的描述词，例如，在上述自然语言内容“亚洲开发银行总裁佐藤光夫主持了这次研讨会。”中，与句法核心词“主持”具有修饰关系的描述词(即依赖词)包括“佐藤光夫”、“研讨会”、“。”，上述依赖词的词性分别为名词、名词、标点。本实施例中，所述动态实体描述词可以包括所述自然语言内容的多个描述词中的实体词，例如可以包括各个领域的名词等。例如，自然语言内容“我想查询苏州明天的天气”中的动态实体描述词可以包括“苏州”、“明天”、“天气”。本实施例中，所述依存关系特征数据还可以包括所述动态实体描述词的词性、所述动态实体描述词与所述句法核心词之间的距离等。典型地，与句法核心词之间的距离越近，越能够表达用户的意图。基于此，可以根据所述特征数据确定所述自然语言内容的用户意图。又如，自然语言内容“我想要苹果手机最新报价”中的动态实体描述词可以包括“苹果”、“手机”、“报价”。另外，在本实施例中，所述依存关系特征数据可以包括所述动态实体描述词的同义词集合。在实际应用中，很多事物具有多种表达方式，例如“衬衫”与“衬衣”、“太阳伞”与“遮阳伞”、“坎肩”与“马甲”、“围脖”与“围巾”等都属于同一件事物的两种表达方式。因此，可以将所述动态实体描述词的同义词集合也作为所述依存关系特征数据。

在本实施例中，在获取用户输入的自然语言内容之后，还可以首先对所述自然语言内容进行静态通配规则匹配。所述静态通配规则可以包括多个预先设置的通配意图，例如“我想要***文章”、“我想看**电影”等，其中符号“*”为通配符。在进行静态规则匹配时，可以提取所述自然语言内容中的动态意图描述词。所述动态意图描述词可以包括所述自然语言内容中能够用户意图的词性为动词的描述词。例如，“我想”、“我要”、“试图”等具有明显意图特征的动词。本实施例中，可以按照获取与所述动态意图描述词具有相同意义的描述方式，并利用所述描述方式替代所述动态意图描述词。例如对于动态意图描述词“想要”，具有“想”、“要”、“试图”、“渴望”等多种具有相同意义的描述方式。本实施例中，为了泛化所述动态意图描述词，可以利用所述具有相同意义的多种描述方式替代所述动态意图描述词，这样，在进行静态通配规则匹配时，可以对与所述动态意图描述词具有相同意义的描述方式的匹配。例如，在一个示例中，用户提出“我要看XX电影”，如果不对上述自然语言内容中的动态意图描述词“要”进行词义扩充，则无法利用静态通配规则匹配到合适用户的用户意图。本实施例中，可以对动态意图描述词“要”，包括“想要”、“想”、“试图”、“渴望”等等，如此，可以匹配到预先设置的通配意图“我想看**电影”。

本实施例中，在获取到所述自然语言内容的依存关系特征数据之后，可以利用机器学习模型组件对所述依存关系特征数据进行处理，获取所述依存关系特征数据所对应的用户意图。其中所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。

本实施例中，在利用机器学习方式构建所述机器学习模型组件的过程中，可以获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图。在获取到所述历史自然语言内容之后，可以按照与上述各个实施例相同的方式提取所述历史自然语言内容中的依存关系特征数据，本申请在此不再赘述。在提取到所述历史自然语言内容中的依存关系特征数据之后，可以构建机器学习模型组件，所述机器学习模型组件中设置有训练参数。将所述历史自然语言内容的依存关系特征数据作为所述机器学习模型组件的输入数据、所述历史用户意图作为输出数据，利用所述依存关系特征数据与所述历史用户意图之间的对应关系对所述机器学习模型组件进行训练，调整所述训练参数，直至所述机器学习模型组件达到预设要求。本实施例中，所述机器学习方式还可以包括K近邻算法、感知机算法、决策树、支持向量机、逻辑斯底回归、最大熵等，相应的，生成的模型如朴素贝叶斯、隐马尔科夫等。当然，在其他实施例中，所述机器学习模型组件可以包括深度学习模型组件，所述深度学习模型组件可以包括卷积神经网络学习模型组件、循环神经网络模型组件等等。本申请在此不做限制。

在利用所述依存关系特征数据对所述机器学习模型组件进行训练的过程中，由于所述历史自然语言内容的数量较多，那么，从所述历史自然语言内容中提取的依存关系特征数据也较多。由上述可知，所述依存关系特征数据中可以包括动态实体描述词，所述动态实体描述词对于识别用户的用户意图具有重要意义。通常的实体提取方式中，在提取到实体信息之后，往往还需要标注实体的所属类型，例如，提取实体“连衣裙”，并设置所述实体的类别标签为“服装”。而在本申请的实施例中，在提取到所述自然语言内容中的动态实体描述词之后，可以设置所述动态实体描述词的类别标签为统一的预设标签，如“KEYWORD”、“TAB”，而避免设置具体的类型。这样的做法是由于相同的实体在不同的领域中具有不同的类型(如实体描述词“苹果”在不同领域存在“公司名”与“水果名”等不同的实体类别)，设置实体特定的类别标签会给后续意图识别带来冗余的信息，造成意图识别错误。

在本申请的一个实施例中，所述历史用户意图可以包括至少一种预设类型。例如制定一个私人助理，所述历史用户意图可以包括以下几类：起床闹钟、查看邮件、查看天气等等。在对所述机器学习模型组件进行训练的过程中，可以将所述依存关系特征数据作为所述机器学习模型组件的输入，并将某种特定类型的表达意图特征信息对应的意图作为所述机器学习模型的输出，通过不断训练所述机器学习模型组件，直至所述机器学习模型达到预设要求。另外，所述历史用户意图中设置有通配符，如上述示例中的“我想要***文章”、“我想看**电影”等。本实施例中，在所述历史用户意图中设置通配符可以使得所述用户意图基于统一的表达方式，并可以利用多种实体信息替代所述通配符，以构成属于同一表达意图对应的多种信息。例如，对于表达意图“我想要***文章”，通配符“***”处可以利用“运动”、“情感”、“健康”、“金融”等多种实体描述词替代，以构成都属于搜索文章需求的多种用户意图。

本申请提供的一种自然语言处理方法，可以对用户输入的自然语言进行句法结构处理，获取所述自然语言中的依存关系特征数据。然后，可以利用机器学习模型获取所述依存关系特征数据对应的用户意图。相对于现有技术中利用静态规则匹配自然语言内容中意图信息的方式，本申请的技术方案能够灵活地运用自然语言内容中的依存关系特征数据，所述依存关系特征数据可以比较准确地表达用户的意图信息，因此，本申请各个实施例提供的自然语言处理方式不仅可以弱化现有技术强匹配的意图识别方式，还可以提高用户意图识别的准确性。

本申请另一方面还提供一种自然语言处理装置，图4是本申请提供的自然语言处理装置的一种实施例的模块结构示意图，如图4所示，所述自然语言处理装置可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取用户输入的自然语言内容；

可选的，在本申请的一个实施例中，所述处理器在实现步骤对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据时可以包括：

从所述自然语言内容中提取至少一个描述词；

确定所述至少一个描述词之间的修饰关系；

根据所述修饰关系确定所述自然语言内容中的句法核心词，并将所述句法核心词作为所述自然语言内容的依存关系特征数据。

可选的，在本申请的一个实施例中，所述处理器在实现步骤根据所述修饰关系确定所述自然语言内容中的句法核心词时可以包括：

根据所述修饰关系构建所述至少一个描述词的依存关系树；

将所述依存关系树根节点对应的描述词作为所述自然语言内容的句法核心词。

可选的，在本申请的一个实施例中，所述依存关系特征数据还可以包括下述中的至少一种：

可选的，在本申请的一个实施例中，所述处理器在实现步骤获取用户输入的自然语言内容之后，还可以包括：

提取所述自然语言内容中的动态意图描述词；

获取与所述动态意图描述词具有相同意义的描述方式；

利用静态通配规则对所述自然语言内容进行匹配，且包括对与所述动态意图描述词具有相同意义的描述方式的匹配。

可选的，在本申请的一个实施例中，所述机器学习模型组件被设置为按照下述方式训练得到可以包括：

获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图；

分别提取所述多个历史自然语言内容的依存关系特征数据；

构建机器学习模型组件，所述机器学习模型组件中设置有训练参数；

将所述历史自然语言内容的依存关系特征数据作为所述机器学习模型组件的输入数据、所述历史用户意图作为输出数据，利用所述依存关系特征数据与所述历史用户意图之间的对应关系对所述机器学习模型组件进行训练，调整所述训练参数，直至所述机器学习模型组件达到预设要求。

可选的，在本申请的一个实施例中，所述多个历史自然语言内容分别对应的历史用户意图可以包括至少一种预设类型，且所述历史用户意图中设置有通配符。

可选的，在本申请的一个实施例中，所述处理器在实现步骤获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图之后，还可以包括：

提取所述多个历史自然语言内容中的动态实体描述词；

设置所述动态实体描述词的类别标签为统一的预设标签。

可选的，在本申请的一个实施例中，所述自然语言内容包括用户输入的文字内容，和/或根据用户输入的语音内容转化得到的文字内容。

本申请另一方面还提供自然语言处理装置的另一种实施例的模块结构示意图，所述装置包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

本申请另一方面还提出一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时可以实现以下步骤：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

所述计算机可读存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种自然语言处理方法，其特征在于，所述方法包括：

获取用户输入的自然语言内容；

对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；所述描述词包括句法核心词、对应于句法核心词的依赖词和动态实体描述词；所述动态实体描述词为所述描述词中的实体词；所述依存关系特征数据包括所述句法核心词、所述动态实体描述词与所述句法核心词之间的距离；所述句法核心词的依赖词包括与所述句法核心词具有修饰关系的描述词；

2.根据权利要求1所述的方法，其特征在于，所述对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据包括：

从所述自然语言内容中提取至少一个描述词；

确定所述至少一个描述词之间的修饰关系；

3.根据权利要求2所述的方法，其特征在于，所述根据所述修饰关系确定所述自然语言内容中的句法核心词包括：

根据所述修饰关系构建所述至少一个描述词的依存关系树；

4.根据权利要求2所述的方法，其特征在于，所述依存关系特征数据还包括下述中的至少一种：

所述句法核心词的词性、所述句法核心词的依赖词、所述依赖词的词性、动态实体描述词、所述动态实体描述词的词性、所述动态实体描述词的同义词集合。

5.根据权利要求1所述的方法，其特征在于，在所述获取用户输入的自然语言内容之后，所述方法还包括：

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配。

6.根据权利要求1所述的方法，其特征在于，所述机器学习模型组件被设置为按照下述方式训练得到包括：

分别提取所述多个历史自然语言内容的依存关系特征数据；

7.根据权利要求6所述的方法，其特征在于，所述多个历史自然语言内容分别对应的历史用户意图包括至少一种预设类型，且所述历史用户意图中设置有通配符。

8.根据权利要求6所述的方法，其特征在于，在所述获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图之后，所述方法还包括：

提取所述多个历史自然语言内容中的动态实体描述词；

设置所述动态实体描述词的类别标签为统一的预设标签。

9.根据权利要求1所述的方法，其特征在于，所述自然语言内容包括用户输入的文字内容，和/或根据用户输入的语音内容转化得到的文字内容。

10.一种自然语言处理方法，其特征在于，所述方法包括：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配；其中，包括：对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；所述描述词包括句法核心词、对应于句法核心词的依赖词和动态实体描述词；所述动态实体描述词为所述描述词中的实体词；所述依存关系特征数据包括所述句法核心词；所述句法核心词的依赖词包括与所述句法核心词具有修饰关系的描述词、所述动态实体描述词与所述句法核心词之间的距离；利用机器学习模型组件获取所述依存关系特征数据对应的用户意图；其中，所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。

11.一种自然语言处理装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取用户输入的自然语言内容；

对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；所述描述词包括句法核心词、对应于句法核心词的依赖词和动态实体描述词；所述动态实体描述词为所述描述词中的实体词；所述依存关系特征数据包括所述句法核心词；所述句法核心词的依赖词包括与所述句法核心词具有修饰关系的描述词、所述动态实体描述词与所述句法核心词之间的距离；

12.根据权利要求11所述的装置，其特征在于，所述处理器在实现步骤对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据时包括：

从所述自然语言内容中提取至少一个描述词；

确定所述至少一个描述词之间的修饰关系；

13.根据权利要求12所述的装置，其特征在于，所述处理器在实现步骤根据所述修饰关系确定所述自然语言内容中的句法核心词时包括：

根据所述修饰关系构建所述至少一个描述词的依存关系树；

14.根据权利要求12所述的装置，其特征在于，所述依存关系特征数据还包括下述中的至少一种：

15.根据权利要求11所述的装置，其特征在于，所述处理器在实现步骤获取用户输入的自然语言内容之后，还包括：

提取所述自然语言内容中的动态意图描述词；

获取与所述动态意图描述词具有相同意义的描述方式；

16.根据权利要求11所述的装置，其特征在于，所述机器学习模型组件被设置为按照下述方式训练得到包括：

分别提取所述多个历史自然语言内容的依存关系特征数据；

17.根据权利要求16所述的装置，其特征在于，所述多个历史自然语言内容分别对应的历史用户意图包括至少一种预设类型，且所述历史用户意图中设置有通配符。

18.根据权利要求16所述的装置，其特征在于，所述处理器在实现步骤获取多个历史自然语言内容以及所述多个历史自然语言内容分别对应的历史用户意图之后，还包括：

提取所述多个历史自然语言内容中的动态实体描述词；

设置所述动态实体描述词的类别标签为统一的预设标签。

19.根据权利要求11所述的装置，其特征在于，所述自然语言内容包括用户输入的文字内容，和/或根据用户输入的语音内容转化得到的文字内容。

20.一种自然语言处理装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；

利用静态通配规则对所述自然语言内容进行用户意图匹配；其中，包括：对所述自然语言内容进行句法结构分析，获取所述自然语言内容的依存关系特征数据，所述依存关系特征数据用于表示所述自然语言内容中描述词之间的依存关系；所述描述词包括句法核心词、对应于句法核心词的依赖词和动态实体描述词；所述动态实体描述词为所述描述词中的实体词；所述依存关系特征数据包括所述句法核心词、所述动态实体描述词与所述句法核心词之间的距离；所述句法核心词的依赖词包括与所述句法核心词具有修饰关系的描述词；利用机器学习模型组件获取所述依存关系特征数据对应的用户意图；其中，所述机器学习模型组件根据多个历史依存关系特征数据以及历史用户意图之间的对应关系训练得到。

21.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现以下步骤：

获取用户输入的自然语言内容；

22.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现以下步骤：

获取用户输入的自然语言内容；

提取所述自然语言内容中的动态意图描述词；