CN110807070A - 一种基于神经网络的路况信息提取方法 - Google Patents
一种基于神经网络的路况信息提取方法 Download PDFInfo
- Publication number
- CN110807070A CN110807070A CN201911023161.1A CN201911023161A CN110807070A CN 110807070 A CN110807070 A CN 110807070A CN 201911023161 A CN201911023161 A CN 201911023161A CN 110807070 A CN110807070 A CN 110807070A
- Authority
- CN
- China
- Prior art keywords
- event
- road condition
- information
- poi
- condition information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 18
- 239000013604 expression vector Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 3
- 238000013145 classification model Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 8
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于神经网络的路况信息提取方法,包括以下步骤:***输入一段文本,输出结构化路况信息;经过分类模型判断是否包含路况,若不包含路况则直接结束;使用已有POI信息库和EVENT信息库提取文本中的POI和EVENT;将POI、EVENT形成候选对<实体1,实体2,上下文>;使用基于神经网络的关系模型判断候选对关系;将有关的候选对关联,形成完整的路况信息;输出结构化的路况信息<地点,事件>。本发明减少了人工构造特征的数量和复杂程度,在拓展时不需要引入新特征和处理特征之间的矛盾,降低了维护成本,增强拓展性,召回率得到了大幅提升。
Description
技术领域
本发明涉及一种基于神经网络的路况信息提取方法,属于智能语义、语音识别领域。
背景技术
随着经济发展,城市车辆增多,城市交通拥堵的问题日益严重,市民出行时对良好的交通道路规划需求迫切,而道路交通信息的采集是其重要基础。道路交通信息采集主要分为交通流信息的采集及交通事件的采集。前者的采集方法主要有浮动车交通信息采集、视频监控***、基于微波、雷达等感应器的采集***、通过移动App等方式搜集客户出行信息等,时效性及准确性已经达到较高的水平。
但后者的采集涉及到道路上的交通事故、道路施工、交通管制、自然灾害等各种情况,具有突发性、多样性、复杂性等特点,难以通过机器来采集。目前的采集方式主要是通过用户上报采集。据统计,2016年实时交通动态事件采集中有80%以上来自于用户上报。此外还可以通过网络爬虫(交管局网站、微博)、交通广播语音转译获取的文本信息进行提取。对于结构化的文本,机器已经可自行处理。对于非结构化(多为口语化)的文本,如语音识别数据,微博文本数据等,需要进行语义理解提取出正确的地点描述信息、事件类型、发生时间等。
近年来深度神经网络及其相关技术在图像处理、语音识别和自然语言处理等方面迅猛发展。对路况信息文本作信息提取,是一个复杂的自然语言处理问题。深度神经网络中的GRU(Gated Recurrent Unit)和Attention机制在一系列自然语言处理任务,包括中文分词、文本分类、命名实体识别、实体关系抽取、词向量表示等任务的应用极大的提高了相关任务的指标。本发明在路况信息提取***中应用了上述深度神经网络技术。
非结构化的文本数据具有口语描述方式复杂多样、多条路况信息的地点描述和事件描述混杂、需要结合外部地理信息理解等。过去从这样的文本中提取信息的方法主要有使用人工构建规则库或传统机器学习方法,如SVM等。它们均需要大量专家参与构建规则或特征库,成本高昂;这些特征与城市、说话人、季节、特定场景等联系紧密,拓展性差;模型的准确率较高,但路况提取的召回率较低。
发明内容
针对现有技术存在的问题,本发明采用简单特征与神经网络结合的方法,减少了人工构造特征的数量和复杂程度。本发明为解决上述问题,采用了如下技术方案:
一种基于神经网络的路况信息提取方法,包括以下步骤:
I.整个***的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;
II.针对输入的文本信息使用关键词、规则和SVM结合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;
III.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;
IV.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息。
所述步骤Ⅳ具体判断步骤如下:
A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词;
B.通过神经网络进行路段信息匹配、事件信息匹配。
所述步骤B神经网络进行匹配步骤如下:
B1:为给定的两个实体POI-POI、POI-EVENT及其所在的上下文,判断其关系,如果两实体为POI,则判断其是否构成同一路况事件的地点描述,即两实体是Road-Start,Start-End或无关的关系;如果两实体为POI和EVENT,则判断其是否构成一条路况事件,即两实体是有关或无关的关系;
B2:将上下文中的词用经过对大规模文本预训练得到的词表示,预训练得到的词用word embedding表示;预训练的文本包括wiki百科及搜集到的路况信息标注文本,待预测的实体用POI、EVENT替代,同时引入地点类型、事件类型两特征表示待预测的实体,将具有相同意义的特殊词使用统一词向量代替;
B3:根据词和实体在上下文中的相对位置作位置编码,即position encoding;
B4:对文本及实体做预处理,将一些简单的上下文的特征也作为模型输入;
B5:将word embedding、position encoding连接为输入向量;
B6:使用Bidirectional GRU Encoder将输入向量序列进行编码得到上下文表示向量;
B7:使用Attention机制对编码后的上下文表示向量进行加权;
B8:将加权后的上下文表示向量与人工构建的上下文特征相连;
B9:使用全连接网络进行实体关系分类。
通过本发明技术方案的实施,减少了人工构造特征的数量和复杂程度,例如现有技术对北京、上海、深圳、沈阳等四个主要城市进行人工设计特征,需要约30人天,采取本发明的方法则完全避免了这些人力成本,同时在拓展时不需要引入新特征和处理特征之间的矛盾,降低了模型维护成本,增强了模型拓展性;在准确率和精心特征工程的传统机器学习相比略微提升的前提下,召回率得到了大幅提升,约提升15%左右。
附图说明
图1***总流程图;
图2关系判断模型具体流程。
具体实施方式
相关符合和术语说明:
I.POI:地点词,包括地理描述由Road(道路名)、Start(路段起点)、End(路段终点)3类POI构成;
II.EVENT:交通事件描述;
III.当实体对为POI-POI时,有道路-起点(Road-Start)、起点-终点(Start-End)、无关三类关系;如果两对关系分别为Road-Start和Start-End的实体对的起点为同一地点,则认为它们构成Road-Start-End的关系;
IV.当实体对为POI-EVENT时,有地点-事件有关、地点-事件无关两类关系。根据附图所示,对本发明的具体实施方案进行详细描述:一种基于神经网络的路况信息提取方法,主要包括如下实施步骤:
V.整个***的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;
VI.针对输入的文本信息使用关键词、规则和SVM三个综合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;该步骤主要为了解决误报的问题,如语音翻译错误导致文本中带有地点信息、事件信息造成的误报;
VII.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;
VIII.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息:
A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词,如分隔词、否定词等;
B.通过附图2神经网络进行路段信息匹配、事件信息匹配:
B1:为给定两个实体POI-POI或POI-EVENT及其所在的上下文,判断其关系,如果两实体为POI,则判断其是否构成同一路况事件的地点描述,即两实体是Road-Start,Start-End或无关的关系;如果两实体为POI和EVENT,则判断其是否构成一条路况事件,即两实体是有关或无关的关系;
B2:将上下文中的词用经过对大规模文本预训练得到的词即word embedding表示;所述预训练的文本包括wiki百科及搜集到的路况信息标注文本,待预测的实体(地点词和事件)用POI、EVENT替代,同时引入地点类型、事件类型两特征表示待预测的实体,将具有相同意义的特殊词使用统一词向量代替,如实体之间表示路段起终点关系的“到”、“至”、“排队到”、“队尾在”;实体后表示道路、节点的“路口”、“岗亭”、“红绿灯”等,这样做是为了解决因简俗称等原因导致的未登录词问题;
B3:根据词和实体在上下文中的相对位置作位置编码,即position encoding;
B4:对文本及实体做预处理,将一些简单的上下文的特征也作为模型输入;如根据地图节点获得两地理描述实体间是否为道路节点、实体间的距离、实体的位置顺序关系、实体间地点和事件数量、实体间是否有分隔词等不需要复杂设计的特征;
B5:将word embedding、position encoding连接为输入向量;
B6:使用Bidirectional GRU Encoder将输入向量序列进行编码得到上下文表示向量;
B7:使用Attention机制对编码后的上下文表示向量进行加权;
B8:将加权后的上下文表示向量与人工构建的上下文特征相连;
B9:使用全连接网络进行实体关系分类。
结合附图1所示,其实施步骤流程如下:
1)***输入为一段文本,输出为结构化的路况信息;
2)经过一个分类模型判断是否包含路况,若不包含路况则直接结束,不进行提取;
3)使用已有POI信息库和EVENT信息库提取文本中的POI和EVENT;
4)将POI、EVENT形成若干关系候选对<实体1,实体2,上下文>;
5)使用基于神经网络的关系模型判断候选对关系:若实体1,实体2均为POI,则判断start-end,road-start还是无关;若实体1为POI,实体2位EVENT,则判断地点-路况关系为有关还是无关;
6)将有关的候选对关联,形成完整的路况信息;
7)输出结构化的路况信息<地点,事件>。
结合附图2所示,其实施流程是:
1)输入为<实体1,实体2,上下文>的关系候选对;
2)上下文进行中文分词;
3)将词使用预训练的词向量表示;
4)对具有特殊含义的词作预处理;
5)根据词在上下文中的相对位置,对每个词进行位置编码,形成位置向量;
6)将词向量和位置向量连接为神经网络的输入向量;
7)使用双向GRU(Bi-GRU)和Attention机制生成上下文的表示;
8)将特征信息(如两个POI在地图上是否有交点)等与上下文表示想结合形成关系对的最终表示;
9)使用一个全连接神经网络对关系对的最终表示进行分类;
10)输出分类结果。
通过本发明的技术方案实施,带来如下技术效果:
1)除了需要外部引入的信息外,相比传统方法,基于神经网络的模型不需要再引入复杂的规则或特征库,降低了成本。
基于规则和传统机器学习使用到的典型特征包括但不局限于下面的特征:
本发明将所需特征减少到仅使用下列基础特征:
1 | 两POI是否为节点 |
2 | 两POI的距离 |
3 | 两POI间的POI数量 |
4 | 两POI间的EVENT数量 |
5 | POI类型 |
2)若需要在城市、数据源等方面拓展,只需要搜集新的训练数据对模型进行训练即可,杜绝了新旧规则特征的冲突和维护问题,增强了拓展性;
3)在实际生产场景中验证,本发明的***在保证和其他方法准确率相近的前提下,可以较大幅度的提高路况信息提取的召回率,提升约15%。
Claims (3)
1.一种基于神经网络的路况信息提取方法,包括以下步骤:
I.整个***的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;
II.针对输入的文本信息使用关键词、规则和SVM结合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;
III.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;
IV.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息。
2.根据权利要求1所述的一种基于神经网络的路况信息提取方法,其特征在于:所述步骤Ⅳ具体判断步骤如下:
A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词;
B.通过神经网络进行路段信息匹配、事件信息匹配。
3.根据权利要求2所述的一种基于神经网络的路况信息提取方法,其特征在于:所述步骤B神经网络进行匹配步骤如下:
B1:为给定的两个实体POI-POI、POI-EVENT及其所在的上下文,判断其关系,如果两实体为POI,则判断其是否构成同一路况事件的地点描述,即两实体是Road-Start,Start-End或无关的关系;如果两实体为POI和EVENT,则判断其是否构成一条路况事件,即两实体是有关或无关的关系;
B2:将上下文中的词用经过对大规模文本预训练得到的词表示,预训练得到的词用word embedding表示;预训练的文本包括wiki百科及搜集到的路况信息标注文本,待预测的实体用POI、EVENT替代,同时引入地点类型、事件类型两特征表示待预测的实体,将具有相同意义的特殊词使用统一词向量代替;
B3:根据词和实体在上下文中的相对位置作位置编码,即position
encoding;
B4:对文本及实体做预处理,将一些简单的上下文的特征也作为模型输入;
B5:将word embedding、position encoding连接为输入向量;
B6:使用Bidirectional GRU Encoder将输入向量序列进行编码得到上下文表示向量;
B7:使用Attention机制对编码后的上下文表示向量进行加权;
B8:将加权后的上下文表示向量与人工构建的上下文特征相连;
B9:使用全连接网络进行实体关系分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911023161.1A CN110807070A (zh) | 2019-10-25 | 2019-10-25 | 一种基于神经网络的路况信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911023161.1A CN110807070A (zh) | 2019-10-25 | 2019-10-25 | 一种基于神经网络的路况信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807070A true CN110807070A (zh) | 2020-02-18 |
Family
ID=69489108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911023161.1A Pending CN110807070A (zh) | 2019-10-25 | 2019-10-25 | 一种基于神经网络的路况信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807070A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504746A (zh) * | 2016-10-28 | 2017-03-15 | 普强信息技术(北京)有限公司 | 一种从语音数据中提取结构化交通路况信息的方法 |
JP2017208045A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 特性理解装置、方法、及びプログラム |
US20180196881A1 (en) * | 2017-01-06 | 2018-07-12 | Microsoft Technology Licensing, Llc | Domain review system for identifying entity relationships and corresponding insights |
CN108875007A (zh) * | 2018-06-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 兴趣点的确定方法和装置、存储介质、电子装置 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和*** |
-
2019
- 2019-10-25 CN CN201911023161.1A patent/CN110807070A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017208045A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 特性理解装置、方法、及びプログラム |
CN106504746A (zh) * | 2016-10-28 | 2017-03-15 | 普强信息技术(北京)有限公司 | 一种从语音数据中提取结构化交通路况信息的方法 |
US20180196881A1 (en) * | 2017-01-06 | 2018-07-12 | Microsoft Technology Licensing, Llc | Domain review system for identifying entity relationships and corresponding insights |
CN108875007A (zh) * | 2018-06-15 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 兴趣点的确定方法和装置、存储介质、电子装置 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和*** |
Non-Patent Citations (1)
Title |
---|
马语丹 等: "结合实体共现信息与句子语义特征的关系抽取方法", 中国科学:信息科学 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504746B (zh) | 一种从语音数据中提取结构化交通路况信息的方法 | |
Li et al. | Transportation mode identification with GPS trajectory data and GIS information | |
CN107656987B (zh) | 一种基于lda模型的地铁站点功能挖掘方法 | |
CN110162591A (zh) | 一种面向数字教育资源的实体对齐方法及*** | |
CN109165275B (zh) | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 | |
CN116108169B (zh) | 一种基于知识图谱的热线工单智能分派方法 | |
CN114202120A (zh) | 一种针对多源异构数据的城市交通行程时间预测方法 | |
CN111931998B (zh) | 一种基于移动定位数据的个体出行模式预测方法及*** | |
CN111444298A (zh) | 一种基于兴趣点知识图谱预训练的地址匹配算法 | |
CN111524353A (zh) | 一种交通文本数据用于速度预测及行程规划方法 | |
CN113159403B (zh) | 路口行人轨迹预测的方法及装置 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN114548298A (zh) | 模型训练、交通信息处理方法、装置、设备和存储介质 | |
CN113673749A (zh) | 车辆行人地图轨迹预测方法及装置 | |
CN113159371B (zh) | 基于跨模态数据融合的未知目标特征建模与需求预测方法 | |
CN116824868B (zh) | 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质 | |
CN111678531B (zh) | 一种基于LightGBM的地铁路径规划方法 | |
CN111444286B (zh) | 一种基于轨迹数据的远距离交通节点关联性挖掘方法 | |
CN115565376B (zh) | 融合graph2vec、双层LSTM的车辆行程时间预测方法及*** | |
Miao et al. | A queue hybrid neural network with weather weighted factor for traffic flow prediction | |
CN114896523B (zh) | 一种基于乡村旅游线路的道路规划方法及装置 | |
CN110807070A (zh) | 一种基于神经网络的路况信息提取方法 | |
CN114245329B (zh) | 通行方式识别方法、装置、设备及存储介质 | |
CN115907012A (zh) | 一种基于供电服务信息的数据挖掘方法 | |
CN115689224A (zh) | 基于轨迹语义化和图卷积网络的出租车需求预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200218 |
|
WD01 | Invention patent application deemed withdrawn after publication |