CN112527955A - 一种数据处理的方法和装置 - Google Patents
一种数据处理的方法和装置 Download PDFInfo
- Publication number
- CN112527955A CN112527955A CN202011403234.2A CN202011403234A CN112527955A CN 112527955 A CN112527955 A CN 112527955A CN 202011403234 A CN202011403234 A CN 202011403234A CN 112527955 A CN112527955 A CN 112527955A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- generalization
- generalized
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理的方法和装置,所述方法包括:预置针对车载场景的多个实体及其泛化词集合;获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。通过本发明实施例,实现了基于用户实际数据进行实体词泛化,通过针对用户实际数据中目标泛化词,确定对应的目标实体,进而将目标泛化词加入目标实体对应的泛化词集合,能够基于实体词泛化挖掘出更多的用户习惯说法,增强了自然语言理解的泛化性能,扩充了车载对话***的测试集。
Description
技术领域
本发明涉及车辆技术领域,特别是涉及一种数据处理的方法和装置。
背景技术
随着智能汽车的发展,车载***互联网化、***应用功能丰富化,针对车载***语音交互场景,通常采用NLU(Natural Language Understanding,自然语言理解)识别语音以理解用户需求。
但车载场景下专有实体词较多,而用户语音表达方式多种多样,车载对话***无法准确识别语音理解用户意图,例如,标准说法为“打开座椅加热”,用户泛化说法为“打开坐垫加热”,导致了车载对话***较难理解用户说法的意思。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置,包括:
一种数据处理的方法,所述方法包括:
预置针对车载场景的多个实体及其泛化词集合;
获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
可选地,所述确定所述目标泛化词对应的目标实体,包括:
根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词;
确定所述相似泛化词对应的实体为所述目标泛化词对应的目标实体。
可选地,所述根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词,包括:
根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的一个或多个候选泛化词;
从所述一个或多个候选泛化词中,确定针对所述目标泛化词的相似泛化词。
可选地,在所述确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合之前,还包括:
判断所述目标泛化词是否存在于所述多个实体及其泛化词集合;
在判定所述目标泛化词未存在于所述多个实体及其泛化词集合时,执行所述确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合。
可选地,所述获取用户实际数据,并从所述用户实际数据中,确定目标泛化词,包括:
获取用户实际数据,对所述用户实际数据进行过滤处理;
针对过滤处理后的用户实际数据进行泛化词提取,并确定目标泛化词。
可选地,还包括:
接收语音交互信息并进行解析;
在识别到所述目标泛化词时,确定所述目标实体对应的标准词;
根据所述目标实体对应的标准词,生成针对所述语音交互信息的车辆控制信息。
可选地,所述车辆控制信息包括以下任一项:
交互指令信息、标准词提示信息、语音回复信息。
一种数据处理的装置,所述装置包括:
多个实体及其泛化词集合预置模块,用于预置针对车载场景的多个实体及其泛化词集合;
目标泛化词确定模块,用于获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
目标泛化词加入模块,用于确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
一种服务器,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理的方法。
本发明实施例具有以下优点:
在本发明实施例中,通过预置针对车载场景的多个实体及其泛化词集合,然后获取用户实际数据,并从用户实际数据中,确定目标泛化词,进而确定目标泛化词对应的目标实体,并将目标泛化词加入目标实体对应的泛化词集合,以在语音识别到目标泛化词时,确定目标实体对应的标准词,实现了基于用户实际数据进行实体词泛化,通过针对用户实际数据中目标泛化词,确定对应的目标实体,进而将目标泛化词加入目标实体对应的泛化词集合,能够基于实体词泛化挖掘出更多的用户习惯说法,增强了自然语言理解的泛化性能,扩充了车载对话***的测试集。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种数据处理的方法的步骤流程图;
图2是本发明一实施例提供的一种多个实体及其泛化词集合实例的示意图;
图3是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图4是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图5是本发明一实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明一实施例提供的一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤101,预置针对车载场景的多个实体及其泛化词集合;
在实体词泛化的过程中,可以通过预置针对车载场景的多个实体及其泛化词集合,进而可以根据该多个实体及其泛化词集合进行实体词泛化。
具体的,可以线下通过人工泛化方式或者使用泛化工具的方法,构造车载场景下的多个实体及其泛化词集合,如基本实体及其泛化词表,进而可以针对基本实体及其泛化词表,结合线上对用户实际数据的挖掘进行实体词泛化。
例如,线下构造多个实体及其泛化词集合,可以通过第三方同义词表,或使用泛化工具,其中,可以使用同义词或近义词工具,通过输入实体词,并选择针对该实体词所需的近义词个数(如TOP 50),然后可以基于语义相似度进行查找,输出该实体词对应的N个近义词,进而可以从N个近义词中筛选出适合该实体词的泛化词,以构造针对车载场景的基本实体及其泛化词表(即多个实体及其泛化词集合)。
又如,可以采用人工泛化方式,基于车载场景下的业务相关内容对实体词进行泛化,其中,可以通过对实体词进行分类,如分为“单动词”、“单名词”、“复合名词”、“动宾结构”等多个分类,然后可以针对每个分类,采用具体的泛化方式进行实体词进行泛化,例如,针对复合名词,可以采用如下泛化方式:
1、可以将复合名词拆分为单名词,然后可以将单名词各自泛化,进而可以将各泛化后的单名词再组合,并可以判断组合后的复合名词是否通顺;
2、可以按照业务逻辑进行泛化,如“三D车头向上”可以对应“立体地图”;
3、可以针对各场景的可识别度进行泛化,如“导航音量”、“地图音量”。
步骤102,获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
在具体实现中,可以通过获取用户实际数据,进而可以从用户实际数据中,确定目标泛化词,以针对该目标泛化词进行后续的实体词泛化。
在一示例中,可以通过线上对用户实际数据进行挖掘,如线上搜集真实Query(语音交互信息),进而可以采用实体提取工具,从用户实际数据中提取实体词,以进行后续的实体词泛化。
步骤103,确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
在得到目标泛化词后,可以确定该目标泛化词对应的目标实体,并可以将目标泛化词加入目标实体对应的泛化词集合,进而针对车载语音交互场景,可以在识别到目标泛化词时,确定目标泛化词的目标实体对应的标准词。
在一示例中,如图2所示,可以通过线下预置针对车载场景的多个实体及其泛化词集合(如基本泛化词表),其中,可以具有多个实体,其多个实体的实体词可以为“后备箱”、“主驾座椅”、“快充口”等;针对每个实体可以对应有一个或多个泛化词,如“后备箱”可以对应有基本泛化词“尾箱”、后尾箱。
通过基于用户实际数据进行实体词泛化后,即可以将目标泛化词加入目标实体对应的泛化词集合,进而可以得到线上挖掘的扩展泛化词表,其中,针对线上挖掘得到的目标泛化词,如“尾门”、“后尾门”,可以确定其对应的目标实体为“后备箱”,进而可以将“尾门”、“后尾门”作为“后备箱”的扩展泛化词加入其泛化词集合,并可以针对扩展泛化词进行备注,如不同地区的习惯表达。
在本发明一实施例中,还可以包括如下步骤:
接收语音交互信息并进行解析;在识别到所述目标泛化词时,确定所述目标实体对应的标准词;根据所述目标实体对应的标准词,生成针对所述语音交互信息的车辆控制信息。
在实际应用中,通过基于用户实际数据进行实体词泛化,在车载语音交互场景下,可以接收语音交互信息并进行解析,可以在识别到目标泛化词时,确定目标实体对应的标准词,进而可以根据该目标实体对应的标准词,生成针对语音交互信息的车辆控制信息。
在一示例中,车辆控制信息可以包括以下任一项:
交互指令信息、标准词提示信息、语音回复信息。
由于针对车载场景,其可以包括较多车载场景下的专有实体词,接收到用户的语音交互信息中可以存在多种表达方式,例如,口语化解释性表达、口语化相近概念的表达、不同地区对实体词的差异表达。
通过实体词泛化,可以挖掘出更多的用户习惯说法,进而可以更好的支持线上用户的指令,如可以在语音识别到“打开尾门”时,确定“尾门”对应的标准词为“后备箱”,进而车载对话***可以生成打开后备箱的指令以控制车辆;可以在语音识别到“打开右边的充电口”时,通过页面或语音提示用户“右边的充电口”对应的标准词为“快充口”;也可以在语音识别到“打开尾门”时,为符合用户习惯进行语音回复“尾门已打开”。
在本发明实施例中,通过预置针对车载场景的多个实体及其泛化词集合,然后获取用户实际数据,并从用户实际数据中,确定目标泛化词,进而确定目标泛化词对应的目标实体,并将目标泛化词加入目标实体对应的泛化词集合,以在语音识别到目标泛化词时,确定目标实体对应的标准词,实现了基于用户实际数据进行实体词泛化,通过针对用户实际数据中目标泛化词,确定对应的目标实体,进而将目标泛化词加入目标实体对应的泛化词集合,能够基于实体词泛化挖掘出更多的用户习惯说法,增强了自然语言理解的泛化性能,扩充了车载对话***的测试集。
参照图3,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,预置针对车载场景的多个实体及其泛化词集合;
在实体词泛化的过程中,可以通过预置针对车载场景的多个实体及其泛化词集合,进而可以根据该多个实体及其泛化词集合进行实体词泛化。
步骤302,获取用户实际数据,对所述用户实际数据进行过滤处理;
在具体实现中,可以通过获取用户实际数据,并可以对该用户实际数据进行过滤处理,如可以针对线上搜集的真实Query(语音交互信息),过滤不相关Query(如闲聊、导航去目的地、播放歌曲等内容类Query)。
步骤303,针对过滤处理后的用户实际数据进行泛化词提取,并确定目标泛化词;
在实际应用中,可以针对过滤处理后的用户实际数据进行泛化词提取,并可以确定目标泛化词,以针对该目标泛化词进行后续的实体词泛化。
具体的,可以使用模型或者规则的方法,提取用户实际数据的句子中实体的泛化词,例如,通过模型方法,可以采用命名实体识别模型(NER)进行实体的泛化词提取;或通过规则方法,可以使用正则表达式匹配特定句式,如“打开开门降低音量”可以匹配“打开<entity>”的规则,则可以将“开门降低音量”作为实体的泛化词进行提取。
步骤304,根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词;
在得到目标泛化词后,可以根据多个实体及其泛化词集合,确定针对目标泛化词的相似泛化词,以根据该相似泛化词,进一步确定目标泛化词对应的目标实体。
步骤305,确定所述相似泛化词对应的实体为所述目标泛化词对应的目标实体;
在得到目标泛化词的相似泛化词后,可以确定相似泛化词对应的实体为目标泛化词对应的目标实体。
在一示例中,可以针对用户实际数据提取出的“尾门”(即目标泛化词),根据多个实体及其泛化词集合,可以确定“尾门”与“尾箱”(即相似泛化词)匹配度最高,进而将“尾箱”对应的“后备箱”(即相似泛化词对应的实体)确定为针对“尾门”的实体(即目标实体)。
步骤306,将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
在得到目标泛化词对应的目标实体后,可以将目标泛化词加入目标实体对应的泛化词集合,进而针对车载语音交互场景,可以在识别到目标泛化词时,确定目标泛化词的目标实体对应的标准词。
在一示例中,针对目标实体对应的标准词“后备箱”,可以通过线下人工泛化方式或近义词工具,可以泛化出“尾箱”和“后尾箱”,然后可以构造出针对目标实体的实体及其泛化词集合(如基本泛化词表),可以基于线上对用户实际数据的挖掘,获取用户“打开尾门”的说法,并可以使用提取工具得到“尾门”(即目标泛化词),进而可以将“尾门”和基本泛化词表进行语义匹配,可以计算出“尾门”和“尾箱”的匹配度最高,可以根据“尾箱”确定其对应的“后备箱”(即目标实体),并可以将“尾门”加入到“后备箱”的扩展泛化词,从而可以通过语音识别“打开尾门”为“打开后备箱”,即线上可以支持语音识别“打开尾门”,执行打开后备箱的指令。
通过基于用户实际数据进行实体词泛化,增强了自然语言理解(NLU)的泛化性能,使得车载对话***可以识别语音理解用户说法的意思,并能够扩充车载对话***的测试集,以用于测试车载对话***的性能。
参照图4,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤401,预置针对车载场景的多个实体及其泛化词集合;
在实体词泛化的过程中,可以通过预置针对车载场景的多个实体及其泛化词集合,进而可以根据该多个实体及其泛化词集合进行实体词泛化。
步骤402,获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
在具体实现中,可以通过获取用户实际数据,进而可以从用户实际数据中,确定目标泛化词,以针对该目标泛化词进行后续的实体词泛化。
步骤403,判断所述目标泛化词是否存在于所述多个实体及其泛化词集合;
在实际应用中,可以针对得到的目标泛化词,判断该目标泛化词是否存在于多个实体及其泛化词集合。
在一示例中,可以根据线下构造的多个实体及其泛化词集合(如基本实体及其泛化词表),将从用户实际数据提取到的目标泛化词与多个实体及其泛化词集合进行比较,例如,可以比较字符串是否相等,进而可以判断该目标泛化词是否存在于多个实体及其泛化词集合。
步骤404,在判定所述目标泛化词未存在于所述多个实体及其泛化词集合时,根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的一个或多个候选泛化词;
在具体实现中,可以在判定目标泛化词未存在于多个实体及其泛化词集合时,根据多个实体及其泛化词集合,确定针对目标泛化词的一个或多个候选泛化词。
例如,可以在目标泛化词的字符串与多个实体及其泛化词集合的字符串不相等的情况下,可以根据多个实体及其泛化词集合,针对目标泛化词计算语义相似度,进而可以按照相似度排序,筛选出目标泛化词最相似的一个或多个候选泛化词,并可以得到针对目标泛化词的近义词表。
步骤405,从所述一个或多个候选泛化词中,确定针对所述目标泛化词的相似泛化词;
在得到一个或多个候选泛化词后,可以从一个或多个候选泛化词中,确定针对目标泛化词的相似泛化词,以根据该相似泛化词,进一步确定目标泛化词对应的目标实体。
步骤406,确定所述相似泛化词对应的实体为所述目标泛化词对应的目标实体;
在得到目标泛化词的相似泛化词后,可以确定相似泛化词对应的实体为目标泛化词对应的目标实体。
步骤407,将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
在得到目标泛化词对应的目标实体后,可以将目标泛化词加入目标实体对应的泛化词集合,进而针对车载语音交互场景,可以在识别到目标泛化词时,确定目标泛化词的目标实体对应的标准词。
在一示例中,目标泛化词可以具有多个,可以按照频次从高到低的顺序,针对目标泛化词的近义词表进行排序,然后可以对高频的目标泛化词确定其对应的目标实体,进而可以得到目标实体对应的标准实体词(即标准词),并可以将该目标泛化词作为标准实体词的泛化词,加入多个实体及其泛化词集合。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明一实施例提供的一种数据处理的装置的结构示意图,具体可以包括如下模块:
多个实体及其泛化词集合预置模块501,用于预置针对车载场景的多个实体及其泛化词集合;
目标泛化词确定模块502,用于获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
目标泛化词加入模块503,用于确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
在本发明一实施例中,所述目标泛化词加入模块503包括:
相似泛化词确定子模块,用于根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词;
目标实体确定子模块,用于确定所述相似泛化词对应的实体为所述目标泛化词对应的目标实体。
在本发明一实施例中,所述相似泛化词确定子模块包括:
候选泛化词确定单元,用于根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的一个或多个候选泛化词;
相似泛化词确定单元,用于从所述一个或多个候选泛化词中,确定针对所述目标泛化词的相似泛化词。
在本发明一实施例中,还包括:
目标泛化词判断模块,用于判断所述目标泛化词是否存在于所述多个实体及其泛化词集合;
判定模块,用于在判定所述目标泛化词未存在于所述多个实体及其泛化词集合时,调用所述目标泛化词加入模块503。
在本发明一实施例中,所述目标泛化词确定模块502包括:
过滤处理模块,用于获取用户实际数据,对所述用户实际数据进行过滤处理;
泛化词提取模块,用于针对过滤处理后的用户实际数据进行泛化词提取,并确定目标泛化词。
在本发明一实施例中,还包括:
语音交互信息解析模块,用于接收语音交互信息并进行解析;
标准词确定模块,用于在识别到所述目标泛化词时,确定所述目标实体对应的标准词;
车辆控制信息生成模块,用于根据所述目标实体对应的标准词,生成针对所述语音交互信息的车辆控制信息。
在本发明一实施例中,所述车辆控制信息包括以下任一项:
交互指令信息、标准词提示信息、语音回复信息。
在本发明实施例中,通过预置针对车载场景的多个实体及其泛化词集合,然后获取用户实际数据,并从用户实际数据中,确定目标泛化词,进而确定目标泛化词对应的目标实体,并将目标泛化词加入目标实体对应的泛化词集合,以在语音识别到目标泛化词时,确定目标实体对应的标准词,实现了基于用户实际数据进行实体词泛化,通过针对用户实际数据中目标泛化词,确定对应的目标实体,进而将目标泛化词加入目标实体对应的泛化词集合,能够基于实体词泛化挖掘出更多的用户习惯说法,增强了自然语言理解的泛化性能,扩充了车载对话***的测试集。
本发明一实施例还提供了一种服务器,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种数据处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理的方法,其特征在于,所述方法包括:
预置针对车载场景的多个实体及其泛化词集合;
获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标泛化词对应的目标实体,包括:
根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词;
确定所述相似泛化词对应的实体为所述目标泛化词对应的目标实体。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的相似泛化词,包括:
根据所述多个实体及其泛化词集合,确定针对所述目标泛化词的一个或多个候选泛化词;
从所述一个或多个候选泛化词中,确定针对所述目标泛化词的相似泛化词。
4.根据权利要求1或2或3所述的方法,其特征在于,在所述确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合之前,还包括:
判断所述目标泛化词是否存在于所述多个实体及其泛化词集合;
在判定所述目标泛化词未存在于所述多个实体及其泛化词集合时,执行所述确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合。
5.根据权利要求1所述的方法,其特征在于,所述获取用户实际数据,并从所述用户实际数据中,确定目标泛化词,包括:
获取用户实际数据,对所述用户实际数据进行过滤处理;
针对过滤处理后的用户实际数据进行泛化词提取,并确定目标泛化词。
6.根据权利要求1所述的方法,其特征在于,还包括:
接收语音交互信息并进行解析;
在识别到所述目标泛化词时,确定所述目标实体对应的标准词;
根据所述目标实体对应的标准词,生成针对所述语音交互信息的车辆控制信息。
7.根据权利要求6所述的方法,其特征在于,所述车辆控制信息包括以下任一项:
交互指令信息、标准词提示信息、语音回复信息。
8.一种数据处理的装置,其特征在于,所述装置包括:
多个实体及其泛化词集合预置模块,用于预置针对车载场景的多个实体及其泛化词集合;
目标泛化词确定模块,用于获取用户实际数据,并从所述用户实际数据中,确定目标泛化词;
目标泛化词加入模块,用于确定所述目标泛化词对应的目标实体,并将所述目标泛化词加入所述目标实体对应的泛化词集合,以在语音识别到所述目标泛化词时,确定所述目标实体对应的标准词。
9.一种服务器,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011403234.2A CN112527955A (zh) | 2020-12-04 | 2020-12-04 | 一种数据处理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011403234.2A CN112527955A (zh) | 2020-12-04 | 2020-12-04 | 一种数据处理的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112527955A true CN112527955A (zh) | 2021-03-19 |
Family
ID=74998347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011403234.2A Pending CN112527955A (zh) | 2020-12-04 | 2020-12-04 | 一种数据处理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527955A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053394A (zh) * | 2021-04-27 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理***和存储介质 |
CN113076397A (zh) * | 2021-03-29 | 2021-07-06 | Oppo广东移动通信有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN113539259A (zh) * | 2021-06-29 | 2021-10-22 | 广州小鹏汽车科技有限公司 | 一种基于车辆的语音交流方法和装置 |
CN114049894A (zh) * | 2022-01-11 | 2022-02-15 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、车辆和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006373A1 (en) * | 2012-06-29 | 2014-01-02 | International Business Machines Corporation | Automated subject annotator creation using subject expansion, ontological mining, and natural language processing techniques |
US20170011119A1 (en) * | 2015-07-06 | 2017-01-12 | Rima Ghannam | System for Natural Language Understanding |
CN110674259A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 意图理解方法和装置 |
CN110675870A (zh) * | 2019-08-30 | 2020-01-10 | 深圳绿米联创科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
CN111400458A (zh) * | 2018-12-27 | 2020-07-10 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN111798847A (zh) * | 2020-06-22 | 2020-10-20 | 广州小鹏车联网科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN112017663A (zh) * | 2020-08-14 | 2020-12-01 | 博泰车联网(南京)有限公司 | 一种语音泛化方法、装置及计算机存储介质 |
-
2020
- 2020-12-04 CN CN202011403234.2A patent/CN112527955A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006373A1 (en) * | 2012-06-29 | 2014-01-02 | International Business Machines Corporation | Automated subject annotator creation using subject expansion, ontological mining, and natural language processing techniques |
US20170011119A1 (en) * | 2015-07-06 | 2017-01-12 | Rima Ghannam | System for Natural Language Understanding |
CN111400458A (zh) * | 2018-12-27 | 2020-07-10 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN110675870A (zh) * | 2019-08-30 | 2020-01-10 | 深圳绿米联创科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
CN110674259A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 意图理解方法和装置 |
CN111798847A (zh) * | 2020-06-22 | 2020-10-20 | 广州小鹏车联网科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN112017663A (zh) * | 2020-08-14 | 2020-12-01 | 博泰车联网(南京)有限公司 | 一种语音泛化方法、装置及计算机存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076397A (zh) * | 2021-03-29 | 2021-07-06 | Oppo广东移动通信有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN113053394A (zh) * | 2021-04-27 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理***和存储介质 |
CN113053394B (zh) * | 2021-04-27 | 2024-01-09 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理***和存储介质 |
CN113539259A (zh) * | 2021-06-29 | 2021-10-22 | 广州小鹏汽车科技有限公司 | 一种基于车辆的语音交流方法和装置 |
CN114049894A (zh) * | 2022-01-11 | 2022-02-15 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、车辆和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN112527955A (zh) | 一种数据处理的方法和装置 | |
CN102549652B (zh) | 信息检索装置 | |
US9589563B2 (en) | Speech recognition of partial proper names by natural language processing | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
CN103956169A (zh) | 一种语音输入方法、装置和*** | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109741735B (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN111090727A (zh) | 语言转换处理方法、装置及方言语音交互*** | |
CN104573099A (zh) | 题目的搜索方法及装置 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN109271492A (zh) | 一种语料正则表达式的自动生成方法及*** | |
CN108763355B (zh) | 一种基于用户的智能机器人交互数据处理***及方法 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及*** | |
CN115509485A (zh) | 一种业务表单的填写方法、装置、电子设备和存储介质 | |
CN111553138A (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN111428011A (zh) | 词语的推荐方法、装置、设备及存储介质 | |
CN117633162A (zh) | 机器学习任务模板生成方法、训练方法、微调方法及设备 | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN116522905A (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |