CN112016010A - 一种自动驾驶测试场景描述的自然语言语义库构建方法 - Google Patents

一种自动驾驶测试场景描述的自然语言语义库构建方法 Download PDF

Info

Publication number
CN112016010A
CN112016010A CN202010462504.0A CN202010462504A CN112016010A CN 112016010 A CN112016010 A CN 112016010A CN 202010462504 A CN202010462504 A CN 202010462504A CN 112016010 A CN112016010 A CN 112016010A
Authority
CN
China
Prior art keywords
automatic driving
importance
driving test
text
test scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010462504.0A
Other languages
English (en)
Inventor
王赟芝
杜志彬
赵瑞文
周博林
陈蔯
赵启东
翟洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinotruk Data Co ltd
China Automotive Technology and Research Center Co Ltd
Automotive Data of China Tianjin Co Ltd
Original Assignee
Sinotruk Data Co ltd
China Automotive Technology and Research Center Co Ltd
Automotive Data of China Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinotruk Data Co ltd, China Automotive Technology and Research Center Co Ltd, Automotive Data of China Tianjin Co Ltd filed Critical Sinotruk Data Co ltd
Priority to CN202010462504.0A priority Critical patent/CN112016010A/zh
Publication of CN112016010A publication Critical patent/CN112016010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种自动驾驶测试场景描述的自然语言语义库构建方法包括以下步骤:步骤1:应用爬虫程序对特定的网上资源进行爬取;步骤2:将爬取到的信息资源地址链接的格式进行标准化处理;步骤3:应用布隆过滤器对重复抓取的内容进行处理;步骤4:根据词性对获取到的文本分词切词预处理;步骤5:应用文本关键词排序算法对经过预处理的文本进行关键词排序;步骤6:通过指向重要性等改进获取到的文本中关键词权重分配比重;步骤7:根据关键词排序结果调整权重分配,最终生成自动驾驶测试场景语义库。本发明所述的一种自动驾驶测试场景描述的自然语言语义库构建方法避免了重复内容的获取和对最终关键词统计和获取的干扰。

Description

一种自动驾驶测试场景描述的自然语言语义库构建方法
技术领域
本发明属于自动驾驶领域,尤其是涉及一种自动驾驶测试场景描述的自 然语言语义库构建方法。
背景技术
自动驾驶仿真测试场景是自动驾驶汽车能否落地的关键。语义库的完备 程度是测试场景库自然语言接口至关重要的环节。目前构建语义库的方法有 很多,其中关键词提取算法中最具有代表性的方法有TF-IDF、LDA和 TextRank等。然而这些算法在关键词认定、排序和选取上并不能满足自动驾 驶测试场景语义库的需求,极易对信息进行重复抓取且尚无专门用于自动驾 驶测试场景描述的自然语言语义库。
发明内容
有鉴于此,本发明提出一种自动驾驶测试场景描述的自然语言语义库构 建方法,以解决网页重复抓取的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种自动驾驶测试场景描述的自然语言语义库构建方法,包括以下步 骤:
步骤1:应用爬虫程序对特定的网上资源进行爬取;
步骤2:将爬取到的信息资源地址链接的格式进行标准化处理,删除已 经访问过的信息资源地址;
步骤3:应用布隆过滤器对重复抓取的内容进行处理;
步骤4:根据词性对获取到的文本分词切词以及标注等预处理;
步骤5:应用文本关键词排序算法对经过预处理的文本进行关键词排序;
步骤6:通过指向重要性、词性重要性、频度重要性三个维度改进获取 到的文本中关键词权重分配比重,进而达到优化关键词排序结果;
步骤7:根据关键词排序结果调整权重分配,最终生成自动驾驶测试场 景语义库。
进一步的,步骤2中利用的对爬取到的信息资源地址链接的格式进行标 准化处理包括以下步骤:
步骤a:URL协议名和主机名小写化;
步骤b:字符串转义序列转化为大写;
步骤c:删除信息片段;
步骤d:删除空查询串的‘?’;
步骤e:删除默认后缀;
步骤f:删除多余的点修复符;
步骤g:删除前缀“www”;
步骤h:删除取默认值的变量;
步骤i:删除多余的查询串;
步骤j:应用相似网页不同链接DUST处理法对URL进行处理。
进一步的,步骤2中利用的对重复抓取的内容进行处理使,通过哈希函 数,将抓取内容数据转换成哈希值,如果两篇内容的多位对应位的哈希值都 为1,则可判定其内容相同或相似,对其中一篇的内容做删除处理。
进一步的,步骤4中利用的对文本进行预处理是将文本根据句号进行完 整语句分割,对于每一个句子根据词性进行分词和标注处理,并去掉标点符 号及停用词。
进一步的,步骤5、步骤6中利用的对文本关键词进行重要度排序,根 据自动驾驶测试场景标准相关描述词语对输出结果进行审核,在输出结果不 理想的情况下,调整其中的指向重要性、词性重要性、频度重要性的权重因 子,并再次重新进行排序,最终获取内容重要度排序中靠前的关键词作为抽 取结果。
相对于现有技术,本发明具有以下优势:
(1)通过标准化URL链接和重复内容删除,避免了重复内容的获取和 对最终关键词统计和获取的干扰。
(2)在基于TextRank关键词排序算法的基础上,根据自动驾驶测试场 景描述语言特点加入指向重要度、词性重要度和频度重要度的权重调节因 子,增强了自动驾驶测试场景语义库关键词获取能力。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的 示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在 附图中:
图1为本发明实施例所述的一种自动驾驶测试场景描述的自然语言语义 库构建方法流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特 征可以相互组合。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不 能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由 此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者 更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个 或两个以上。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,一种自动驾驶测试场景描述的自然语言语义库构建方法, 包括以下步骤:
步骤1:应用爬虫程序对特定的网上资源进行爬取;
步骤2:为避免重复页面的获取,爬虫爬取的链接需经过标准化处理。 网络上的每一个信息资源都有唯一的地址,称为URL(Uniform Resource Locator)。爬虫往往通过网页中包含的指向其他网页的URL地址对网页内 容进行访问爬取,然而许多看起来不一样的URL地址其实是源自于相同的链 接,这就可能会造成重复多次抓取同一个网页,进而对抓取内容造成影响。 对URL链接的标准化处理可以统一URL格式,去除掉已访问过的URL,避免爬虫二次进入已访问过的URL地址。
步骤3:应用布隆过滤器对重复抓取的内容进行处理,尽管一些网页具 有不同的URL链接地址,但其内容缺大致重复或完全重复。为避免抓取重复 内容,导致关键词统计、提取出现错误,应用布隆过滤器对重复抓取的内容 进行处理。
步骤4:根据词性对获取到的文本分词切词以及标注等预处理;
步骤5:应用文本关键词排序算法通过把文本拆分成词汇作为网络节点, 形成词汇网络图模型,利用投票机制对文本中的关键词进行排序;
步骤6:通过指向重要性、词性重要性、频度重要性三个维度改进获取 到的文本中关键词权重分配比重,进而达到优化关键词排序结果;
步骤7:根据关键词排序结果调整权重分配,最终生成自动驾驶测试场 景语义库。
进一步的,步骤2中根据URL的结构对爬虫程序获取的URL进行统一的 标准化处理。URL有三部分组成:资源类型、存放资源的主机域名和资源文 件名。即protocol://hostname[:port]/path/ [;parameters][?query]#fragment。按如下步骤对URL进行处理:
步骤a:URL协议名和主机名小写化;
步骤b:字符串转义序列转化为大写;
步骤c:删除信息片段;
步骤d:删除空查询串的‘?’;
步骤e:删除默认后缀;
步骤f:删除多余的点修复符;
步骤g:删除前缀“www”;
步骤h:删除取默认值的变量;
步骤i:删除多余的查询串;
步骤j:应用相似网页不同链接DUST处理法对URL进行处理。
进一步的,步骤2中利用的对重复抓取的内容进行处理使,通过哈希函 数,将抓取内容数据转换成哈希值,如果两篇内容的多位对应位的哈希值都 为1,则可判定其内容相同或相似,对其中一篇的内容做删除处理,以减少 对统计的干扰。
进一步的,步骤4中利用的对文本进行预处理是将文本根据句号进行完 整语句分割,对于每一个句子根据词性进行分词和标注处理,并去掉标点符 号及如“的”,“由于”“the”“is”一类的停用词降低高词频无效词干 扰。
进一步的,步骤5、步骤6中利用的对文本关键词进行重要度排序,根 据自动驾驶测试场景标准相关描述词语对输出结果进行审核,在输出结果不 理想的情况下,调整其中的指向重要性、词性重要性、频度重要性的权重因 子,并再次重新进行排序,最终获取内容重要度排序中靠前的关键词作为抽 取结果。
TextRank关键词图。TextRank模型可表示为一个关键词图G=(V,E), 由结点集V和边集合
Figure BDA0002511503540000062
组成,图中任意两点Vi,Vj之间边的权重为ωji, 对于任意一个节点Vi有,指向Vi的结点集合In(Vi),和Vi点指向的结点集合 Out(Vi)。则结点Vi的权重分值如下:
Figure BDA0002511503540000061
其中,d为取值范围为0-1的阻尼系数,代表点Vi指向其他任意结点的 概率,通常设为0.85。
优化TextRank算法。TextRank算法中会把Vi的权重以均匀比例传递到 与其相关联的结点。而在自动驾驶测试场景描述语言中则应侧重对以下维度 的词语分配更多权重:
a.指向重要度:如果指向Vi结点的不同结点数量越多,则Vi结点重要 性越高。
b.词性重要度:场景描述语言中,动词、名词、形容词等词性以及描述 道路、天气、方位等类型的词语应当受到更高的关注。
c.频度重要度:文本中关键词出现的频度越高,则该关键词越重要。
用A、B、C分别表示指向重要度、词性重要度和频度重要度的影响力所 占权重,W表示结点整体影响力权重则有,W=A+B+C=1。
最终将任意结点权重分值迭代公式为
Figure BDA0002511503540000071
其中,ε为一个所有元素为1的n维向量,N为词语间权重分配矩阵
Figure BDA0002511503540000072
而任意结点ωi,j可用指向重要度ωA、词性重要度ωB、频度重要度ωc来表 示:
Figure BDA0002511503540000073
这其中X(Vj)表示结点Vj的重要度,根据自动驾驶国际标准对车辆、行人 相关行为类动词,场景描述类名词、形容词等进行赋值;F(V)表示关键词 V在文本中出现的次数。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在 本发明的保护范围之内。

Claims (5)

1.一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于包括以下步骤:
步骤1:应用爬虫程序对特定的网上资源进行爬取;
步骤2:将爬取到的信息资源地址链接的格式进行标准化处理,删除已经访问过的信息资源地址;
步骤3:应用布隆过滤器对重复抓取的内容进行处理;
步骤4:根据词性对获取到的文本分词切词以及标注等预处理;
步骤5:应用文本关键词排序算法对经过预处理的文本进行关键词排序;
步骤6:通过指向重要性、词性重要性、频度重要性三个维度改进获取到的文本中关键词权重分配比重,进而达到优化关键词排序结果;
步骤7:根据关键词排序结果调整权重分配,最终生成自动驾驶测试场景语义库。
2.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于,步骤2中利用的对爬取到的信息资源地址链接的格式进行标准化处理包括以下步骤:
步骤a:URL协议名和主机名小写化;
步骤b:字符串转义序列转化为大写;
步骤c:删除信息片段;
步骤d:删除空查询串的‘?’;
步骤e:删除默认后缀;
步骤f:删除多余的点修复符;
步骤g:删除前缀“www”;
步骤h:删除取默认值的变量;
步骤i:删除多余的查询串;
步骤j:应用相似网页不同链接DUST处理法对URL进行处理。
3.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤2中利用的对重复抓取的内容进行处理使,通过哈希函数,将抓取内容数据转换成哈希值,如果两篇内容的多位对应位的哈希值都为1,则可判定其内容相同或相似,对其中一篇的内容做删除处理。
4.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤4中利用的对文本进行预处理是将文本根据句号进行完整语句分割,对于每一个句子根据词性进行分词和标注处理,并去掉标点符号及停用词。
5.根据权利要求1所述的一种自动驾驶测试场景描述的自然语言语义库构建方法,其特征在于:步骤5、步骤6中利用的对文本关键词进行重要度排序,根据自动驾驶测试场景标准相关描述词语对输出结果进行审核,在输出结果不理想的情况下,调整其中的指向重要性、词性重要性、频度重要性的权重因子,并再次重新进行排序,最终获取内容重要度排序中靠前的关键词作为抽取结果。
CN202010462504.0A 2020-05-27 2020-05-27 一种自动驾驶测试场景描述的自然语言语义库构建方法 Pending CN112016010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010462504.0A CN112016010A (zh) 2020-05-27 2020-05-27 一种自动驾驶测试场景描述的自然语言语义库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010462504.0A CN112016010A (zh) 2020-05-27 2020-05-27 一种自动驾驶测试场景描述的自然语言语义库构建方法

Publications (1)

Publication Number Publication Date
CN112016010A true CN112016010A (zh) 2020-12-01

Family

ID=73507148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010462504.0A Pending CN112016010A (zh) 2020-05-27 2020-05-27 一种自动驾驶测试场景描述的自然语言语义库构建方法

Country Status (1)

Country Link
CN (1) CN112016010A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112744229A (zh) * 2021-01-18 2021-05-04 国汽智控(北京)科技有限公司 一种自动驾驶领域专有语言的生成***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123642A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种基于网页语种的搜索方法和装置
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及***
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123642A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种基于网页语种的搜索方法和装置
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112744229A (zh) * 2021-01-18 2021-05-04 国汽智控(北京)科技有限公司 一种自动驾驶领域专有语言的生成***
CN112744229B (zh) * 2021-01-18 2021-12-21 国汽智控(北京)科技有限公司 一种自动驾驶领域专有语言的生成***

Similar Documents

Publication Publication Date Title
US7346487B2 (en) Method and apparatus for identifying translations
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US6199067B1 (en) System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US20030221163A1 (en) Using web structure for classifying and describing web pages
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
US20110082853A1 (en) System and method for extracting content for submission to a search engine
US20090319449A1 (en) Providing context for web articles
WO2018169597A1 (en) Systems and methods for verbatim -text mining
US7941418B2 (en) Dynamic corpus generation
CN109902290B (zh) 一种基于文本信息的术语提取方法、***和设备
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐***和方法
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
Rathod Extractive text summarization of Marathi news articles
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN112818206B (zh) 一种数据分类方法、装置、终端及存储介质
CN112016010A (zh) 一种自动驾驶测试场景描述的自然语言语义库构建方法
CN105677684A (zh) 一种基于外部数据源对用户生成内容进行语义标注的方法
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
KR20010102687A (ko) 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
CN115238124A (zh) 视频人物检索方法、装置、设备和存储介质
US10552459B2 (en) Classifying a document using patterns
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination