CN111613225A - 基于语音及图像处理的道路违规自动上报方法及*** - Google Patents

基于语音及图像处理的道路违规自动上报方法及*** Download PDF

Info

Publication number
CN111613225A
CN111613225A CN202010344544.5A CN202010344544A CN111613225A CN 111613225 A CN111613225 A CN 111613225A CN 202010344544 A CN202010344544 A CN 202010344544A CN 111613225 A CN111613225 A CN 111613225A
Authority
CN
China
Prior art keywords
image
processing
reported
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010344544.5A
Other languages
English (en)
Inventor
陈静静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010344544.5A priority Critical patent/CN111613225A/zh
Publication of CN111613225A publication Critical patent/CN111613225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及人工智能技术领域,提出一种基于语音及图像处理的道路违规自动上报方法、***、电子装置及计算机可读存储介质,其中的方法包括:通过自然语言处理和自然语言生成获取用户意图;根据用户意图获取行车记录仪中的待上报图像;通过卷积神经网络获取待上报图像对应的分类信息;通过比较待上报图像对应的分类信息与预设的违规标准图像,判断待上报图像是否属于违规图像;如果待上报图像属于违规图像,则对待上报图像做上报处理。此外,本发明还涉及区块链技术,预设的违规标准图像可存储于区块链中。

Description

基于语音及图像处理的道路违规自动上报方法及***
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语音及图像处理的道路违规上报方法、***、电子装置及计算机可读存储介质。
背景技术
在车辆行车过程中,对于车辆违规的情况一般通过摄像头拍摄才可以对违章者进行处罚,而在无摄像头的情况,违章情况数不胜数,比如:车辆在无摄像头路段行驶在应急车道上,或者在高速上不打灯进行变道等等。对于上述这种摄像头捕捉不到违规的情况,车主都表示无可奈何,因为违规上报流程较为繁琐,并且在行驶过程中无法实时的进行违规情况的上报,多半是行驶结束后进行举报,或者事后忘记上报违规情况。
虽然大多数的车主都会安装行车记录仪,但是行车记录仪的记录截取复杂及操作流程繁琐,为上报违规情况带来很多麻烦。
基于上述存在的各种问题,发明人意识到传统的道路违规上报方法不能满足车主的需求,因此亟需一种路违规自动上报方法解决上述问题。
发明内容
本发明提供一种基于语音及图像处理的道路违规自动上报方法、***、电子装置及计算机可读存储介质,其主要目的在于通过自然语言处理和自然语言生成对语音进行处理,以及卷积神经网络对行车记录仪拍摄到的图像进行处理,获取违规图像,从而解决现有的道路违规上报流程复杂繁琐不能满足车主的需求的问题。
此外,为实现上述目的,本发明提供一种基于语音及图像处理的道路违规自动上报方法,应用于电子装置,所述方法包括:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
优选地,所述通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图的步骤包括:
通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本;
通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息。
优选地,所述通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本的步骤包括:
将所述用户语音预处理后并进行特征提取;
将提取的特征与语音模型库中的语音信号进行模式匹配,实现用户语音向文本的转化。
优选地,所述通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息的步骤包括:
利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧,获取多个词组的语义结果;
将所述多个词组的语义结果分别与知识图谱的词组进行比对,获取每个词组的相似度值;
将相似度值最高的词组作为每个词组的语义结果,进一步获取多个词组的语义结果;
将所述多个词组的语义结果进行组合,生成文字信息的语义理解结果,根据所述语义理解结果获取用户意图的文字信息。
优选地,所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
对获取的行车记录仪中的图像进行预处理;
通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化以获取特征向量;
根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
优选地,所述对获取的行车记录仪中的图像进行预处理的步骤包括:
根据待处理图像的长宽比例信息,对所述待处理图像进行分组并得出多组待处理图像;
设置与每组待处理图像分别对应的模板图像信息,所述模板图像信息包括宽度信息和高度信息;
对同一组中的所有待处理图像进行等比例放大或缩小,直至所述待处理图像的宽度不大于所述模板图像的宽度信息,高度不大于所述模板图像的高度信息;
以所述模板图像为框架,对所述等比例放大或缩小后的待处理图像进行配置处理。
为实现上述目的,本发明还提供一种基于语音及图像处理的道路违规自动上报***,包括:
用户意图获取模块,用于通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
图像获取模块,用于根据所述用户意图获取行车记录仪中的待上报图像;
分类信息获取模块,用于通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
判断结果获取模块,用于通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
违规上报处理模块,用于如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
为实现上述目的,本发明还提供一种电子装置,包括存储器、处理器,所述存储器中包括道路违规自动上报程序,所述道路违规自动上报程序被所述处理器执行时实现如下步骤:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
优选地,所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
对获取的行车记录仪中的图像进行预处理;
通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化以获取特征向量;
根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于语音及图像处理的道路违规自动上报程序,所述基于语音及图像处理的道路违规自动上报程序被处理器执行时,实现如上所述的基于语音及图像处理的道路违规自动上报方法中的任意步骤。
本发明提出的基于语音及图像处理的道路违规自动上报方法、***、电子装置及计算机可读存储介质,通过自然语言处理和自然语言生成对语音进行处理,以及卷积神经网络对行车记录仪拍摄到的图像进行处理,获取违规图像,从而解决现有的道路违规上报流程复杂繁琐不能满足车主的需求的问题。
附图说明
图1为本发明基于语音及图像处理的道路违规自动上报方法较佳实施例的应用环境示意图;
图2为本发明基于语音及图像处理的道路违规自动上报***较佳实施例的模块示意图;
图3为本发明基于语音及图像处理的道路违规自动上报方法较佳实施例的流程图;
图4为本发明基于语音及图像处理的道路违规自动上报方法详细流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种道路违规自动上报方法,应用于一种电子装置1。参照图1所示,为本发明道路违规自动上报方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的道路违规自动上报程序10、与二维码相对应的APP(Application,中文为手机的第三方应用程序)等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如道路违规自动上报程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括呼叫端接口,呼叫端接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地呼叫端接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的呼叫端界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供呼叫端进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测呼叫端触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作***、以及基于语音及图像处理的道路违规自动上报程序10;处理器12执行存储器11中存储的基于语音及图像处理的道路违规自动上报程序10时实现如下步骤:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
优选地,所述通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图的步骤包括:
通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本;
通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息,并以语音形式回复给用户。
优选地,所述通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本的步骤包括:
将所述用户语音预处理后并进行特征提取;
将提取的特征与语音模型库中的语音信号进行模式匹配,实现用户语音向文本的转化。
优选地,所述通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息的步骤包括:
利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧,获取多个词组的语义结果;
将所述多个词组的语义结果分别与知识图谱的词组进行比对,获取每个词组的相似度值;
将相似度值最高的词组作为每个词组的语义结果,进一步获取多个词组的语义结果;
将所述多个词组的语义结果进行组合,生成文字信息的语义理解结果,根据所述语义理解结果获取用户意图的文字信息。
优选地,所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
对获取的行车记录仪中的图像进行预处理;
通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化以获取特征向量;
根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
优选地,所述对获取的行车记录仪中的图像进行预处理的步骤包括:
根据待处理图像的长宽比例信息,对所述待处理图像进行分组并得出多组待处理图像;
设置与每组待处理图像分别对应的模板图像信息,所述模板图像信息包括宽度信息和高度信息;
对同一组中的所有待处理图像进行等比例放大或缩小,直至所述待处理图像的宽度不大于所述模板图像的宽度信息,高度不大于所述模板图像的高度信息;
以所述模板图像为框架,对所述等比例放大或缩小后的待处理图像进行配置处理。
需要强调的是,为进一步保证上述预设的违规标准图像的私密和安全性,上述预设的违规标准图像还可以存储于一区块链的节点中。
上述实施例提出的电子装置1,通过自然语言处理和自然语言生成对语音进行处理,以及卷积神经网络对行车记录仪拍摄到的图像进行处理,获取违规图像,从而解决现有的道路违规上报流程复杂繁琐不能满足车主的需求的问题。
在其他实施例中,本发明还提供一种基于语音及图像处理的道路违规自动上报***。参照图2所示,道路违规自动上报***100包括:用户意图获取模块110、图像获取模块120、分类信息获取模块130、判断结果获取模块140和违规上报处理模块150,其中,
用户意图获取模块110,用于通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
图像获取模块120,用于根据所述用户意图获取行车记录仪中的待上报图像;
分类信息获取模块130,用于通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
判断结果获取模块140,用于通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
违规上报处理模块150,用于如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
用户意图获取模块110,包括:文本转化模块和文字信息获取模块,其中,文本转化模块,用于通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本;
文字信息获取模块,用于通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息,并以语音形式回复给用户。
分类信息获取模块130包括:图像预处理模块、特征向量获取模块、目标分类特征信息获取模块和图像分类确定模块,其中,
图像预处理模块,用于对获取的行车记录仪中的图像进行预处理;
特征向量获取模块,用于通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化获取特征向量;
目标分类特征信息获取模块,用于根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
图像分类确定模块,用于根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
此外,本发明还提供一种基于语音及图像处理的道路违规自动上报方法。参照图3所示,为本发明基于语音及图像处理的道路违规自动上报方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于语音及图像处理的道路违规自动上报方法包括:步骤S110-步骤S150。
S110:通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
S120:根据所述用户意图获取行车记录仪中的待上报图像;
S130:通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
S140:通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
S150:如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
在本实施例中,基于语音及图像处理的道路违规自动上报方法,使用智能语音助手结合行车记录仪对违规场景的自动上报,采用本发明的违规场景的自动一键化上报方式,能够减少上报的繁杂流程,进一步增加车主自主上报的概率。
在步骤S110中,在行驶过程中如若司机发现道路违规情况,唤起车辆内的语音助手,语音助手收到的消息,通过自然语言理解和自然语音生成对收到的语音进行处理,并回应车主。
其中,智能语音助手离不开自然语言处理(NLP)和自然语言生成(NLG)。当给智能语音助手发送消息时,它会将其拾取并使用NLP,它将语音转换为文本以确定用户所说的内容。通过倾听用户所说的内容,将其分解为小单元,并对其进行分析以生成文本形式的输出或信息,NLG是一种利用人工智能和计算语言学生成自然语言的***,它还可以将该文本翻译成语音。NLP***首先确定要翻译成文本的信息,然后组织表达结构,再使用一组语法规则,NLG就能***形成完整的句子并读出来。
在本发明的实施例中,所述通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图的步骤包括:
步骤S111:通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本;
步骤S112:通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息。
然后将获取的文本中表示用户文字信并以语音形式回复给用户,在本发明的实施例中,用户根据获取的语音回复,根据实际情况对语音助手下达下一步指示,是进行违规上报还是对拍摄到的图片进行分析确认后再进行上报。
其中,所述通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本的步骤包括:
第一步:对所述用户语音做预处理;其中,预处理就是处理成能够方便进行特征提取的图像元素;
第二步:对预处理后的语言进行特征提取;
第三步:将提取的特征与语音模型库中的语音信号进行模式匹配,实现用户语音对文本的转化。
其中,所述通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息的步骤包括:
第一步:利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧,获取多个词组的语义结果;
第二步:将所述多个词组的语义结果分别与知识图谱的词组进行比对,获取每个词组的相似度值;
第三步:将相似度值最高的词组作为每个词组的语义结果,进一步获取多个词组的语义结果;
第四步:将所述多个词组的语义结果进行组合,生成文字信息的语义理解结果,获取用户意图的文字信息。
在本发明的一个具体的实施例中,车主在行驶过程中发现前方车辆未打变向车灯进行变道,通过“你好,xx”唤起语音助手,语音助手唤起成功并回应后,车主发起下一个命令:“违规上报”,语音助手通过NLP技术将语音转化为文本,分解为小单元(将文本分解为机器语言,计算机语音,然后将其解析),并对其进行分析生成相应的回复,通过NLG进行自然语言组成及语音阅读返回给车主,例如:“请确认是否上报违规”,得到确认后则进行下一步操作。
在步骤S120中,如果是违规上报请求,则调用行车记录仪获取到请求前的前30s后10s的视频资源。其中,语音助手是通过API数据接口与行车记录仪相连接,当用户向语音助手发出违规上报请求时,语音助手识别到用户的违规上报请求的意图后,由于语音助手通过API接口与行车记录仪相连接,通过API数据接口直接将用户的意图传达给行车记录仪,从而用户以语音形式通过语音助手来直接调用行车记录仪的视频资源。
在本发明的实施例中,通过将按照固定的时间间隔采样截取视频的图像,然后对截取的图片进行分析。其中,API为对外提供的统一接口,图片通过API传入后,通过算法层及引擎层对图片进行分类,分析,切割,最后通过API输出结果,资源管理层及硬件基础层是为图片分析功能所提供的资源及硬件。
在步骤S130中,在对图像分析过程中,通过卷积神经网络提取每一元素图像的特征,卷积神经网络即是用于对元素图像的形状、颜色等特征进行提取,并通过特征向量进行量化表示的图像处理神经网络,目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量,匹配度计算公式即可用于计算元素图像与目标分类特征信息中每一目标类别之间的匹配度,根据计算得到的匹配度即可获取每一元素图像对应的类别信息。
其中,所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
S131:对获取的行车记录仪中的图像进行预处理;
S132:通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化获取特征向量;
S133:根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
S134:根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
具体地,所述对获取的行车记录仪中的图像进行预处理的步骤包括:
第一步:根据待处理图像的长宽比例信息,对所述待处理图像进行分组并得出多组待处理图像;
第二步:设置与每组待处理图像分别对应的模板图像信息,所述模板图像信息包括宽度信息和高度信息;
第三步:对同一组中的所有待处理图像进行等比例放大或缩小,直至所述待处理图像的宽度不大于所述模板图像的宽度信息,高度不大于所述模板图像的高度信息;
第四步:以所述模板图像为框架,对所述等比例放大或缩小后的待处理图像进行配置处理。
其中,获取待处理图片的图片特征,图片特征为图片清晰度或对比度,但并不限于图片清晰度或对比度等;根据所述图片特征对所述多组待处理图片进行再分组。
上述设置与每组待处理图片分别对应的模板图片信息的步骤包括:S1:读取同一组中所有待处理图片的高度和宽度信息;S2:对比各待处理图片的宽度信息,获取最大宽度值;同时,对比各待处理图片的高度信息,获取最大高度值。S3:根据所述最大宽度值和所述最大高度值设置模板图片,使所述模板图片的高度为所述最大高度值,宽度为所述最大宽度值。
在步骤S132至步骤S134中,给定一组各自被标记为单一类别的图像,对一组新的测试图像的类别进行预测,并测量预测的准确性结果,这就是图像分类问题;其中,图像分类算法可以根据以下几个步骤来分解:
(1)输入是由N个图像组成的训练集,共有K个类别,每个图像被标记为其中一个类别。在本发明的实施例中,可以输入N个车辆违规的图片并进行标记,比如输入压实线行驶的图片并标记为压实线违章。如上,输入足够多的场景的违规图片并进行标记。
(2)然后,使用训练集训练一个分类器,来学习每个类别的外部特征。将所述特征向量输入softmax分类器,得到所述图像的分类结果,
其中,所述softmax分类器为已完成分类训练的分类器。
(3)最后,预测一组新图像的类标签,我们通过分类器预测的结果正确与否来评估分类器的性能。
其中,创建模型的过程是通过大量的数据标注,训练从而来生成模型,并且有学习能力可以进行自主学习,当遇到新的问题时通过调用模型给出最优解。
在步骤S140中,根据获取的图像对应的分类信息与违规的标准图像进行比较,判断获取的图像是否属于违规图像。
一般来说,在数据库中包括各种违规图像的标准样本,只要将获取到的图像的分类信息与标准样本进行逐一比对,从而确定图像是否属于违规图像。
在步骤S150中,将确定是违规图片进行上报,违规场景自动上报,智能语音助手自动调用公安***进行违规视频的上传及举报操作,并回馈车主:举报成功或者举报失败。
为了进一步说明本发明上报方法,图4示出了基于语音及图像处理的道路违规自动上报详细流程,如图4所示,S41~S42:车主唤起语音助手;
S43:语音助手通过NLP进行语音处理;
S44:处理违规上报指令;
S45:处理非违规上报指令;
S46:调用行车记录仪获取视频;
S47:视频处理图片匹配;
S48:判断是否存在违规行为;
S49:若存在,自动上报公安***;
S50:返回上报结果;
S51:结束。
上述实施例提出的基于语音及图像处理的道路违规自动上报方法,通过自然语言处理和自然语言生成对语音进行处理,以及卷积神经网络对行车记录仪拍摄到的图像进行处理,获取违规图像,从而解决现有的道路违规上报流程复杂繁琐不能满足车主的需求的问题。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于语音及图像处理的道路违规自动上报程序,所述基于语音及图像处理的道路违规自动上报程序被处理器执行时,所述基于语音及图像处理的道路违规自动上报程序被处理器执行时实现如下操作:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
本发明之计算机可读存储介质的具体实施方式与上述基于语音及图像处理的道路违规自动上报方法、电子装置的具体实施方式大致相同,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于语音及图像处理的道路违规自动上报方法,应用于电子装置,所述方法包括:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
2.根据权利要求1所述的基于语音及图像处理的道路违规自动上报方法,其特征在于,
所述通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图的步骤包括:
通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本;
通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息。
3.根据权利要求2所述的基于语音及图像处理的道路违规自动上报方法,其特征在于,
所述通过所述自然语言处理对所述用户语音进行处理,将所述用户语音转化为文本的步骤包括:
将所述用户语音预处理后并进行特征提取;
将提取的特征与语音模型库中的语音信号进行模式匹配,实现用户语音向文本的转化。
4.根据权利要求2所述的基于语音及图像处理的道路违规自动上报方法,其特征在于,
所述通过所述自然语言生成对所转化的文本进行分析,获取所述文本中表示用户文字信息的步骤包括:
利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧,获取多个词组的语义结果;
将所述多个词组的语义结果分别与知识图谱的词组进行比对,获取每个词组的相似度值;
将相似度值最高的词组作为每个词组的语义结果,进一步获取多个词组的语义结果;
将所述多个词组的语义结果进行组合,生成文字信息的语义理解结果,根据所述语义理解结果获取用户意图的文字信息。
5.根据权利要求1所述的基于语音及图像处理的道路违规自动上报方法,其特征在于,
所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
对获取的行车记录仪中的图像进行预处理;
通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化以获取特征向量;
根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
6.根据权利要求5所述的基于语音及图像处理的道路违规自动上报方法,所述预设的违规标准图像存储于区块链中,其特征在于,
所述对获取的行车记录仪中的图像进行预处理的步骤包括:
根据待处理图像的长宽比例信息,对所述待处理图像进行分组并得出多组待处理图像;
设置与每组待处理图像分别对应的模板图像信息,所述模板图像信息包括宽度信息和高度信息;
对同一组中的所有待处理图像进行等比例放大或缩小,直至所述待处理图像的宽度不大于所述模板图像的宽度信息,高度不大于所述模板图像的高度信息;
以所述模板图像为框架,对所述等比例放大或缩小后的待处理图像进行配置处理。
7.一种基于语音及图像处理的道路违规自动上报***,其特征在于,包括:
用户意图获取模块,用于通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
图像获取模块,用于根据所述用户意图获取行车记录仪中的待上报图像;
分类信息获取模块,用于通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
判断结果获取模块,用于通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
违规上报处理模块,用于如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
8.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中包括基于语音及图像处理的道路违规自动上报程序,所述基于语音及图像处理的道路违规自动上报程序被所述处理器执行时实现如下步骤:
通过自然语言处理和自然语言生成对用户语音进行处理,获取用户意图;
根据所述用户意图获取行车记录仪中的待上报图像;
通过卷积神经网络对所述待上报图像进行处理,获取所述待上报图像对应的分类信息;
通过比较所述待上报图像对应的分类信息与预设的违规标准图像,判断所述待上报图像是否属于违规图像;
如果所述待上报图像属于违规图像,则对所述待上报图像做上报处理。
9.根据权利要求8所述的电子装置,其特征在于,
所述通过卷积神经网络对获取的行车记录仪中的图像进行处理,获取图像对应的分类信息的步骤包括:
对获取的行车记录仪中的图像进行预处理;
通过卷积神经网络对经过预处理的图像进行图像特征提取,获得每一元素图像的特征,并对所述特征进行量化以获取特征向量;
根据所述特征向量,获取目标分类特征信息,其中,所述目标分类特征信息中包含多个目标类别以及每一目标类别对应的目标特征向量;
根据所述元素图像与目标分类特征信息中的目标特征确定图像对应的分类;其中,将元素图像与目标分类特征信息中的目标特征进行匹配,获取每一元素图像对应的类别信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于语音及图像处理的道路违规自动上报程序,所述基于语音及图像处理的道路违规自动上报程序被处理器执行时,实现如权利要求1至6中任一项所述的基于语音及图像处理的道路违规自动上报方法的步骤。
CN202010344544.5A 2020-04-27 2020-04-27 基于语音及图像处理的道路违规自动上报方法及*** Pending CN111613225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344544.5A CN111613225A (zh) 2020-04-27 2020-04-27 基于语音及图像处理的道路违规自动上报方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344544.5A CN111613225A (zh) 2020-04-27 2020-04-27 基于语音及图像处理的道路违规自动上报方法及***

Publications (1)

Publication Number Publication Date
CN111613225A true CN111613225A (zh) 2020-09-01

Family

ID=72201192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344544.5A Pending CN111613225A (zh) 2020-04-27 2020-04-27 基于语音及图像处理的道路违规自动上报方法及***

Country Status (1)

Country Link
CN (1) CN111613225A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694372A (zh) * 2020-12-31 2022-07-01 宝能汽车集团有限公司 车辆违章的主动识别方法、车载多媒体和车辆违章的主动识别***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632183A (zh) * 2016-01-27 2016-06-01 福建工程学院 一种车辆违规行为举证的方法及其***
CN106295541A (zh) * 2016-08-03 2017-01-04 乐视控股(北京)有限公司 车辆类型识别方法及***
CN107491764A (zh) * 2017-08-25 2017-12-19 电子科技大学 一种基于深度卷积神经网络的违规驾驶检测方法
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法
CN208000676U (zh) * 2018-04-12 2018-10-23 南京信息工程大学 一种在线车辆交通违章举报***
CN109166284A (zh) * 2018-09-11 2019-01-08 广东省电子技术研究所 一种违规行为报警***及违规行为报警方法
US20190220692A1 (en) * 2017-07-24 2019-07-18 Yi Tunnel (Beijing) Technology Co., Ltd. Method and apparatus for checkout based on image identification technique of convolutional neural network
CN110046547A (zh) * 2019-03-06 2019-07-23 深圳市麦谷科技有限公司 违章举报方法、***、计算机设备及存储介质
CN110335595A (zh) * 2019-06-06 2019-10-15 平安科技(深圳)有限公司 基于语音识别的插问对话方法、装置及存储介质
CN110415529A (zh) * 2019-09-04 2019-11-05 上海眼控科技股份有限公司 车辆违章的自动处理方法、装置、计算机设备和存储介质
CN110533912A (zh) * 2019-09-16 2019-12-03 腾讯科技(深圳)有限公司 基于区块链的驾驶行为检测方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632183A (zh) * 2016-01-27 2016-06-01 福建工程学院 一种车辆违规行为举证的方法及其***
CN106295541A (zh) * 2016-08-03 2017-01-04 乐视控股(北京)有限公司 车辆类型识别方法及***
US20190220692A1 (en) * 2017-07-24 2019-07-18 Yi Tunnel (Beijing) Technology Co., Ltd. Method and apparatus for checkout based on image identification technique of convolutional neural network
CN107491764A (zh) * 2017-08-25 2017-12-19 电子科技大学 一种基于深度卷积神经网络的违规驾驶检测方法
CN107808132A (zh) * 2017-10-23 2018-03-16 重庆邮电大学 一种融合主题模型的场景图像分类方法
CN208000676U (zh) * 2018-04-12 2018-10-23 南京信息工程大学 一种在线车辆交通违章举报***
CN109166284A (zh) * 2018-09-11 2019-01-08 广东省电子技术研究所 一种违规行为报警***及违规行为报警方法
CN110046547A (zh) * 2019-03-06 2019-07-23 深圳市麦谷科技有限公司 违章举报方法、***、计算机设备及存储介质
CN110335595A (zh) * 2019-06-06 2019-10-15 平安科技(深圳)有限公司 基于语音识别的插问对话方法、装置及存储介质
CN110415529A (zh) * 2019-09-04 2019-11-05 上海眼控科技股份有限公司 车辆违章的自动处理方法、装置、计算机设备和存储介质
CN110533912A (zh) * 2019-09-16 2019-12-03 腾讯科技(深圳)有限公司 基于区块链的驾驶行为检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴玉枝 等: "基于卷积神经网络的违章停车事件检测", 现代计算机, pages 22 - 26 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694372A (zh) * 2020-12-31 2022-07-01 宝能汽车集团有限公司 车辆违章的主动识别方法、车载多媒体和车辆违章的主动识别***

Similar Documents

Publication Publication Date Title
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN107944450B (zh) 一种车牌识别方法及装置
CN111797326B (zh) 一种融合多尺度视觉信息的虚假新闻检测方法及***
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
CN112329659A (zh) 基于车辆图像的弱监督语义分割方法及其相关设备
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN109800304A (zh) 案件笔录的处理方法、装置、设备及介质
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN111695604A (zh) 一种图像可信度的确定方法、装置及电子设备、存储介质
CN111191207A (zh) 电子文件的控制方法、装置、计算机设备及存储介质
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN110428816B (zh) 一种语音细胞库训练和分享的方法及装置
CN110472655B (zh) 一种用于跨境旅游的标志物机器学习识别***及方法
CN115687980A (zh) 数据表的脱敏分类方法、分类模型训练方法及装置
CN114677650A (zh) 地铁乘客行人违法行为智能分析方法及装置
Gunawan et al. Performance Evaluation of Automatic Number Plate Recognition on Android Smartphone Platform.
CN112926700B (zh) 针对目标图像的类别识别方法和装置
CN111613225A (zh) 基于语音及图像处理的道路违规自动上报方法及***
CN113918949A (zh) 基于多模态融合的诈骗app的识别方法
CN111062388B (zh) 基于深度学习的广告文字的识别方法、***、介质及设备
CN108897739B (zh) 一种智能化的应用流量识别特征自动挖掘方法与***
US20230237816A1 (en) Adaptive text recognition
CN115578736A (zh) 证件信息提取方法、装置、存储介质及设备
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN116010545A (zh) 一种数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200901