JP7291914B2

JP7291914B2 - 処理方法およびそれを利用した処理装置

Info

Publication number: JP7291914B2
Application number: JP2021540631A
Authority: JP
Inventors: 俊嗣堀井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-08-20
Filing date: 2020-05-11
Publication date: 2023-06-16
Anticipated expiration: 2040-05-11
Also published as: JPWO2021033371A1; WO2021033371A1

Description

本開示は、処理技術、特に画像に対する処理を実行する処理方法およびそれを利用した処理装置に関する。

製品の異常を検出するために、製品に取り付けたセンサからの信号に対してウェーブレット変換による時間軸上の周波数解析がなされ、周波数解析結果等が含まれる相関図に対するニューラルネットワークの処理が実行される（例えば、特許文献１参照）。

特開２０１８－９１６４０号公報

センサを製品に取り付けることができない場合、故障等の異常が生じている製品から発生する音を検出するためにマイクロホンが使用される。マイクロホンを使用する場合、製品の周辺で生じている騒音等の環境音も検出される。環境音の存在によって、製品から発生する音の検出精度が悪化する。

本開示はこうした状況に鑑みなされたものであり、その目的は、環境音が存在する場合でも処理の正確性の低下を抑制する技術を提供することにある。

上記課題を解決するために、本開示のある態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、第１入力部に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第１変換部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、第２入力部に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第２変換部と、第２変換部において変換した環境音画像と、第１変換部において変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とを合併させた結果に対して、ニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
本開示の別の態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、第１入力部に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第１変換部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、第２入力部に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第２変換部と、第２変換部において変換した環境音画像と、第１変換部において変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。

本開示の別の態様もまた、処理装置である。この装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、第２入力部に入力した環境音情報と、第１入力部に入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とを合併させた結果に対して、ニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
本開示の別の態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、第２入力部に入力した環境音情報と、第１入力部に入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。

本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、変換した環境音画像と、変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とを合併させた結果に対して、ニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
本開示の別の態様の処理方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、変換した環境音画像と、変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。

本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報と、入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とを合併させた結果に対して、ニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
本開示の別の態様の処理方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報と、入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。

なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。

本開示によれば、環境音が存在する場合でも処理の正確性の低下を抑制できる。

実施例１に係る処理装置の構成を示す図である。図２（ａ）－（ｂ）は、図１の変換部の処理の概要を示す図である。図３（ａ）－（ｃ）は、図１の変換部の処理の概要を示す図である。図４（ａ）－（ｃ）は、図１の処理部において使用される画像を示す図である。図５（ａ）－（ｃ）は、図１の処理部の構成を示す図である。図１の処理部における処理の概要を示す図である。第１変形例に係る処理部の構成を示す図である。第３変形例に係る処理部の構成を示す図である。図９（ａ）－（ｃ）は、第４変形例に係る処理部の構成を示す図である。実施例２に係る処理装置の構成を示す図である。実施例３に係る処理装置の構成を示す図である。

（実施例１）
本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例１は、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、製品に異常が含まれているか否かを判定するために、モータの異音が人手により全数検査されている。しかしながら、官能検査であるため、人による判定基準のばらつきが生じたり、人による判定時間のばらつきが生じたり、人の状態（体調など）によるばらつきが生じたり、顧客要望の反映の難しさが存在したり、検査記録の難しさがあったりした。つまり、客観的かつ測定可能な良否判定基準がない。そのため、異音識別を自動化することによって、省人合理化、品質安定化が求められる。

また、製品で発生する音を検出するために、加速度ピックアップがマグネットなどによって製品に直接接続される。このような状況下において、製品の周辺で生じている騒音等の環境音の影響が低減される。しかしながら、マグネットによる接続ができない製品については検査が困難になる。また、加速度ピックアップの接続場所を振動させないような音、例えば風切り音などの検査が困難になる。一方、製品で発生する音を検出するために、マイクロホンを使用すると、このような課題は生じない。しかしながら、製品の周辺で生じている騒音等の環境音の影響を受ける。そのため、環境音が存在する場合でも処理の正確性の低下を抑制することが求められる。

本実施例に係る処理装置は、検査対象となる物体で発生する音を録音するためのマイクロホン（以下、「第１マイクロホン」という）を接続するとともに、環境音を録音するためのマイクロホン（以下、「第２マイクロホン」という）を接続する。処理装置は、第１マイクロホンにおいて取得した音を示す情報（以下、「検査情報」という）をもとに、検査情報における示される波形を周波数成分の時間変化に変換した画像（以下、「検査画像」という）を生成する。また、処理装置は、第２マイクロホンにおいて取得した音を示す情報（以下、「環境音情報」という）をもとに、環境音情報における示される波形を周波数成分の時間変化に変換した画像（以下、「環境音画像」という）を生成する。処理装置は、検査画像と環境音画像とに対してニューラルネットワークの処理を実行する。

図１は、処理装置１００の構成を示す。処理装置１００は、マイクロホン１０と総称される第１マイクロホン１０ａ、第２マイクロホン１０ｂ、増幅器１２と総称される第１増幅器１２ａ、第２増幅器１２ｂ、Ａ／Ｄコンバータ１４と総称される第１Ａ／Ｄコンバータ１４ａ、第２Ａ／Ｄコンバータ１４ｂに接続されるとともに、入力部１１０と総称される第１入力部１１０ａ、第２入力部１１０ｂ、変換部１１２と総称される第１変換部１１２ａ、第２変換部１１２ｂ、処理部１１４、出力部１１８を含む。ここで、学習処理において処理部１１４が学習され、判定処理において処理部１１４が使用される。判定処理は、検査画像と環境音画像とにニューラルネットワークを使用することによって、検査画像が正常であるか不良であるかを判定する処理である。学習処理は、処理装置１００以外の装置でなされ、学習結果が処理部１１４に適用されてもよい。

第１マイクロホン１０ａは、検査対象の物体の近傍に配置され音を取得する。例えば、物体が故障等によって異音を発している場合に、第１マイクロホン１０ａは異音を取得する。一方、物体が正常である場合に、第１マイクロホン１０ａは異音を取得しない。第１マイクロホン１０ａは、取得した音を電子信号に変換する。電気信号に変換された音（以下、これもまた「音」という）は、時間の経過に対する電圧の波形で示される。電圧の絶対値がしきい値よりも大きい場合に振動の発生が示され、電圧の絶対値がしきい値以下である場合に、振動が発生していないことが示される。第１マイクロホン１０ａは、音を第１増幅器１２ａに出力する。第１増幅器１２ａは、第１マイクロホン１０ａからの音を増幅して、増幅した音を第１Ａ／Ｄコンバータ１４ａに出力する。第１Ａ／Ｄコンバータ１４ａは、第１増幅器１２ａからの音に対してＡ／Ｄ変換を実行することによって、アナログ信号の音をデジタル信号の音に変換する。第１Ａ／Ｄコンバータ１４ａは、デジタル信号の音を処理装置１００に出力する。

処理装置１００の第１入力部１１０ａは、デジタル信号の音を第１Ａ／Ｄコンバータ１４ａから受けつける。ここでは、学習処理において使用される音を「学習用情報」と呼び、判定処理に使用される音を「検査情報」と呼ぶ。学習用情報と検査情報は、いずれも音の時間変化が示される情報であるといえる。第１入力部１１０ａは、学習用情報あるいは検査情報を第１変換部１１２ａに出力する。

第１変換部１１２ａは、学習処理の場合に、第１入力部１１０ａから受けつけた学習用情報を、周波数成分の時間変化が示される学習用画像に変換し、判定処理の場合に、第１入力部１１０ａから受けつけた検査情報を、周波数成分の時間変化が示される検査画像に変換する。ここでは、図２（ａ）－（ｂ）、図３（ａ）－（ｃ）を使用しながら第１変換部１１２ａでの処理を説明する。図２（ａ）－（ｂ）は、第１変換部１１２ａの処理の概要を示す。図２（ａ）は、学習用情報あるいは検査情報を示す。横軸が時間を示し、縦軸が強度、例えば電圧を示す。前述のごとく、学習用情報あるいは検査情報は波形を示す。第１期間３００、第２期間３０２、第３期間３０４のような一定の短期間が規定される。これらは、例えば、６ミリ秒である。また、第１期間３００と第２期間３０２、第２期間３０２と第３期間３０４のような隣接した期間は一部が重複するように配置される。

第１変換部１１２ａは、第１期間３００における波形をフーリエ変換する。図２（ｂ）のように、フーリエ変換の結果は第１周波数データ４００と示される。また、第１変換部１１２ａは、第２期間３０２、第３期間３０４における波形をフーリエ変換する。フーリエ変換の結果は、図２（ｂ）のように第２周波数データ４０２、第３周波数データ４０４とそれぞれ示される。第１周波数データ４００、第２周波数データ４０２、第３周波数データ４０４は周波数データと総称され、周波数データの横軸は時間を示し、周波数データの縦軸は強度を示す。

図３（ａ）－（ｃ）は、第１変換部１１２ａの処理の概要を示す。図３（ａ）は、図２（ｂ）の第１周波数データ４００を示し、図３（ｂ）は、図２（ｂ）の第２周波数データ４０２を示す。図３（ｃ）は、第１周波数データ４００等の周波数データをもとに生成されるスペクトログラムを示す。スペクトログラムにおいて、横軸が時間を示し、縦軸が周波数を示す。これは、各周波数データを、横方向にずらしながら縦方向に並べることによって生成される。また、スペクトログラムにおいて、周波数データの強度は、色の違い、濃度の違い等によって示される。ここでは、学習処理の場合におけるスペクトログラムが学習用画像に相当し、判定処理の場合におけるスペクトログラムが検査画像に相当する。図１に戻る。第１変換部１１２ａは、学習用画像あるいは検査画像を処理部１１４に出力する。

第２マイクロホン１０ｂは、物体が配置される空間に設置され、第１マイクロホン１０ａが物体から音を取得する際の騒音等の環境音を取得する。第２マイクロホン１０ｂは、取得した環境音を電子信号に変換する。電気信号に変換された環境音（以下、これもまた「環境音」という）は、時間の経過に対する電圧の波形で示される。第２マイクロホン１０ｂは、環境音を第２増幅器１２ｂに出力する。第２増幅器１２ｂは、第２マイクロホン１０ｂからの環境音を増幅して、増幅した環境音を第２Ａ／Ｄコンバータ１４ｂに出力する。第２Ａ／Ｄコンバータ１４ｂは、第２増幅器１２ｂからの環境音に対してＡ／Ｄ変換を実行することによって、アナログ信号の音をデジタル信号の音に変換する。第２Ａ／Ｄコンバータ１４ｂは、デジタル信号の環境音を処理装置１００に出力する。

処理装置１００の第２入力部１１０ｂは、デジタル信号の環境音を第２Ａ／Ｄコンバータ１４ｂから受けつける。ここでは、受けつけた環境音を「環境音情報」と呼ぶ。環境音情報は、学習用情報あるいは検査情報を取得する際の環境音の時間変化が示される情報であるといえる。第２入力部１１０ｂは、環境音情報を第２変換部１１２ｂに出力する。

第２変換部１１２ｂは、第２入力部１１０ｂから受けつけた環境音情報を、周波数成分の時間変化が示される環境音画像に変換する。第２変換部１１２ｂにおける変換処理は、第１変換部１１２ａにおける変換処理と同一であるので、ここでは説明を省略する。第２変換部１１２ｂは、環境音画像を処理部１１４に出力する。

処理部１１４は、学習用画像あるいは検査画像を第１変換部１１２ａから受けつける。図４（ａ）－（ｃ）は、処理部１１４において使用される画像を示す。図４（ａ）－（ｂ）は、図３（ｃ）とは別の状況における学習用画像あるいは検査画像を示す。図４（ａ）は、物体が正常である場合の学習用画像あるいは検査画像を示し、図４（ｂ）は、物体が故障等によって異音を発している場合の学習用画像あるいは検査画像を示す。図４（ｃ）は後述し、図１に戻る。また、処理部１１４は、環境音画像を第２変換部１１２ｂから受けつける。

処理部１１４は、学習処理の場合に、環境音画像と学習用画像とに対してニューラルネットワークの処理を実行し、判定処理の場合に、環境音画像と検査画像とに対してニューラルネットワークの処理を実行する。図５（ａ）－（ｃ）は、処理部１１４の構成を示す。図５（ａ）は、処理部１１４の構成の一例を示す。処理部１１４は、畳み込み層１４２と総称される第１畳み込み層１４２ａ、第２畳み込み層１４２ｂ、第３畳み込み層１４２ｃ、第４畳み込み層１４２ｄ、プーリング層１４４と総称される第１プーリング層１４４ａ、第２プーリング層１４４ｂ、第３プーリング層１４４ｃ、第４プーリング層１４４ｄ、組合せ層１４６、全結合層１４８を含む。

組合せ層１４６は、図１の第１変換部１１２ａと第２変換部１１２ｂに接続され、第１変換部１１２ａから検査画像を入力し、第２変換部１１２ｂから環境音画像を入力する。ここでは、説明を明瞭にするために検査画像として説明するが、学習用画像であっても同様である。組合せ層１４６は、検査画像と環境音画像とを組み合わせる。組合せの第１例では、２つの入力である検査画像と環境音画像とが別のチャンネルとして１つに合併される。この場合、検査画像と環境音画像の組合せが生成される。組合せの第２例では、２つの入力である検査画像と環境音画像との対応する画素同士の差分が計算され、画素毎に差分を並べた画像（以下、「差分画像」という）が生成される。組合せの第３例では、検査画像と環境音画像と差分画像とが別のチャンネルとして１つに合併される。この場合、検査画像と環境音画像と差分画像の組合せが生成される。組合せの第４例では、環境音画像と差分画像とが別のチャンネルとして１つに合併される。この場合、環境音画像と差分画像の組合せが生成される。組合せの第５例では、検査画像と差分画像とが別のチャンネルとして１つに合併される。この場合、検査画像と差分画像の組合せが生成される。組合せ層１４６は、組合せの結果（以下、「組合画像」という）を出力する。検査画像、環境音画像、差分画像は「画像」と総称される。

畳み込み層１４２は、組合画像の各チャンネルに対して、画像のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層１４２においてパディング等が実行されてもよい。さらに、畳み込み層１４２は、各チャンネルの画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。これは、組合画像におけるチャンネル数が増加することに相当する。

プーリング層１４４は、組合画像における各チャンネルの画像内の任意の領域に含まれた複数の画素を１つの画素にまとめることによって、画像のサイズを小さくする。ここで、複数の画素を１つの画素にまとめるために、平均プーリングあるいは最大プーリングが実行される。平均プーリングでは、領域内の複数の画素値の平均値が１つの画素に対して使用され、最大プーリングでは、領域内の複数の画素値のうちの最大値が１つの画素に対して使用される。プーリング処理は、着目領域における代表値あるいは平均値の並進移動に対してロバスト性を強化するためになされる。

ここでは、第１畳み込み層１４２ａ、第１プーリング層１４４ａ、第２畳み込み層１４２ｂ、第２プーリング層１４４ｂ、第３畳み込み層１４２ｃ、第３プーリング層１４４ｃ、第４畳み込み層１４２ｄ、第４プーリング層１４４ｄの順に処理が実行される。つまり、組合画像に対して、畳み込み処理とプーリング処理とが繰り返し実行される。また、畳み込み処理とプーリング処理とが繰り返されることによって、各チャンネルの画像のサイズが順に小さくされる。その結果、１×１の空間次元となり、かつ１以上のチャンネル数を有する組合画像が全結合層１４８に出力される。

全結合層１４８は、特徴量が抽出されている画像を受けつける。全結合層１４８は、特徴量に基づいて、複数のクラスへの分類を実行することによって、画像を識別する。全結合層１４８における処理には公知の技術が使用されればよいので、ここでは説明を省略するが、全結合層１４８における分類結果では、「ＯＫ」、「ＮＧ」の２つのクラスのそれぞれに対する確率が示される。ここで、「ＯＫ」は、環境音画像と検査画像との組合せに異音の成分が含まれない場合に相当し、「ＮＧ」は、環境音画像と検査画像との組合せに異音の成分が含まれる場合に相当する。図１に戻る。

学習処理において、処理部１１４では学習用画像が使用される。学習用画像では、異音の成分が含まれているか否かが未知である検査画像とは異なり、異音の成分が含まれていること、あるいは異音の成分が含まれていないことが既知である。また、処理部１１４は、学習用画像に異音の成分が含まれているか否かを示す教師データを受けつける。教師データは、「ＯＫ」あるいは「ＮＧ」を示す。処理部１１４は、環境音画像と学習用画像と組合せが、教師データとなるように、各畳み込み層１４２の空間フィルタの係数を学習させる。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。このように、処理部１１４におけるニューラルネットワークは、出力部１１８から出力される検査結果が良品あるいは欠陥を示すように学習されている。

学習処理の後の判定処理において、処理部１１４では検査画像が使用される。ここで、学習処理が処理装置１００以外でなされる場合、別の装置での学習処理で導出された空間フィルタの係数が、処理部１１４に設定される。処理部１１４は、環境音画像と検査画像とに対してニューラルネットワークの処理を実行する。出力部１１８は、処理部１１４の処理結果として、環境音画像と検査画像との組合せに異音の成分が含まれるか否かを示す情報、つまり検査対象の物体の検査結果を出力する。

以下では、処理部１１４の構成の別の例を示す。図５（ｂ）は、処理部１１４の構成の別の一例を示す。処理部１１４は、畳み込み層１４２と総称される第１－１畳み込み層１４２ａａ、第１－２畳み込み層１４２ａｂ、第１－３畳み込み層１４２ａｃ、第２－１畳み込み層１４２ｂａ、第２－２畳み込み層１４２ｂｂ、第２－３畳み込み層１４２ｂｃ、第４畳み込み層１４２ｄ、プーリング層１４４と総称される第１－１プーリング層１４４ａａ、第１－２プーリング層１４４ａｂ、第１－３プーリング層１４４ａｃ、第２－１プーリング層１４４ｂａ、第２－２プーリング層１４４ｂｂ、第２－３プーリング層１４４ｂｃ、第４プーリング層１４４ｄ、組合せ層１４６、全結合層１４８を含む。

第１－１畳み込み層１４２ａａ、第１－１プーリング層１４４ａａ、第１－２畳み込み層１４２ａｂ、第１－２プーリング層１４４ａｂ、第１－３畳み込み層１４２ａｃ、第１－３プーリング層１４４ａｃは順に並べられる。これらは、検査画像に対して前述の処理を実行する。第２－１畳み込み層１４２ｂａ、第２－１プーリング層１４４ｂａ、第２－２畳み込み層１４２ｂｂ、第２－２プーリング層１４４ｂｂ、第２－３畳み込み層１４２ｂｃ、第２－３プーリング層１４４ｂｃは順に並べられる。これらは、環境音画像に対して前述の処理を実行する。

組合せ層１４６は、第１－３プーリング層１４４ａｃからの処理結果と、第２－３プーリング層１４４ｂｃからの処理結果とを入力する。第１－３プーリング層１４４ａｃからの処理結果は検査画像に対する処理結果（以下、「第１処理結果」という）であり、第２－３プーリング層１４４ｂｃからの処理結果は環境音画像に対する処理結果（以下、「第２処理結果」という）である。ここで、第１処理結果と第２処理結果は複数のチャンネルによって構成されていてもよい。組合せ層１４６は、第１処理結果と第２処理結果とを組み合わせる。組合せは、前述の第１例から第５例のいずれかのようになされればよい。差分画像の生成は、第１処理結果と第２処理結果との互いに対応したチャンネル同士の間でなされる。組合せ層１４６は、組合せの結果（以下、これもまた「組合画像」という）を出力する。

第４畳み込み層１４２ｄ、第４プーリング層１４４ｄは、組合画像に対して畳み込み処理とプーリング処理とを順次実行する。全結合層１４８は、図５（ａ）と同様に構成される。このような処理部１１４の構成に対する処理装置１００の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層１４２の処理を実行する際の重み係数と、環境音画像に対して畳み込み層１４２の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第１－１畳み込み層１４２ａａと第２－１畳み込み層１４２ｂａとの間で重み係数が共通にされる。また、第１－２畳み込み層１４２ａｂと第２－２畳み込み層１４２ｂｂとの間で重み係数が共通にされ、第１－３畳み込み層１４２ａｃと第２－３畳み込み層１４２ｂｃとの間で重み係数が共通にされる。

図５（ｃ）は、処理部１１４の構成のさらに別の一例を示す。処理部１１４は、畳み込み層１４２と総称される第１－１畳み込み層１４２ａａ、第１－２畳み込み層１４２ａｂ、第１－３畳み込み層１４２ａｃ、第１－４畳み込み層１４２ａｄ、第２－１畳み込み層１４２ｂａ、第２－２畳み込み層１４２ｂｂ、第２－３畳み込み層１４２ｂｃ、第２－４畳み込み層１４２ｂｄ、プーリング層１４４と総称される第１－１プーリング層１４４ａａ、第１－２プーリング層１４４ａｂ、第１－３プーリング層１４４ａｃ、第１－４プーリング層１４４ａｄ、第２－１プーリング層１４４ｂａ、第２－２プーリング層１４４ｂｂ、第２－３プーリング層１４４ｂｃ、第２－４プーリング層１４４ｂｄ、組合せ層１４６、全結合層１４８を含む。

第１－１畳み込み層１４２ａａ、第１－１プーリング層１４４ａａ、第１－２畳み込み層１４２ａｂ、第１－２プーリング層１４４ａｂ、第１－３畳み込み層１４２ａｃ、第１－３プーリング層１４４ａｃ、第１－４畳み込み層１４２ａｄ、第１－４プーリング層１４４ａｄは順に並べられる。これらは、検査画像に対して前述の処理を実行する。第２－１畳み込み層１４２ｂａ、第２－１プーリング層１４４ｂａ、第２－２畳み込み層１４２ｂｂ、第２－２プーリング層１４４ｂｂ、第２－３畳み込み層１４２ｂｃ、第２－３プーリング層１４４ｂｃ、第２－４畳み込み層１４２ｂｄ、第２－４プーリング層１４４ｂｄは順に並べられる。これらは、環境音画像に対して前述の処理を実行する。

組合せ層１４６は、第１－４プーリング層１４４ａｄからの処理結果と、第２－４プーリング層１４４ｂｄからの処理結果とを入力する。第１－４プーリング層１４４ａｄからの処理結果は検査画像に対する処理結果（以下、これもまた「第１処理結果」という）であり、第２－４プーリング層１４４ｂｄからの処理結果は環境音画像に対する処理結果（以下、これもまた「第２処理結果」という）である。組合せ層１４６は、第１処理結果と第２処理結果とを組み合わせる。組合せは、前述の第１例から第５例のいずれかのようになされればよい。組合せ層１４６は、組合せの結果（以下、これもまた「組合画像」という）を出力する。

全結合層１４８は、図５（ａ）と同様に構成される。このような処理部１１４の構成に対する処理装置１００の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層１４２の処理を実行する際の重み係数と、環境音画像に対して畳み込み層１４２の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第１－１畳み込み層１４２ａａと第２－１畳み込み層１４２ｂａとの間で重み係数が共通にされ、第１－２畳み込み層１４２ａｂと第２－２畳み込み層１４２ｂｂとの間で重み係数が共通にされる。また、第１－３畳み込み層１４２ａｃと第２－３畳み込み層１４２ｂｃとの間で重み係数が共通にされ、第１－４畳み込み層１４２ａｄと第２－４畳み込み層１４２ｂｄとの間で重み係数が共通にされる。

処理部１１４の構成から全結合層１４８が除外されてもよい。このような構成を図６をもとに説明する。図６は、処理部１１４における処理の概要を示す。ここでは、説明を明瞭にするために、１入力として示し、組合せ層１４６を省略している。しかしながら、図５（ａ）－（ｃ）と同様に、２入力であり、組合せ層１４６が含まれればよい。処理部１１４は、畳み込み層１４２と総称する第１畳み込み層１４２ａ、第２畳み込み層１４２ｂ、第３畳み込み層１４２ｃ、第４畳み込み層１４２ｄ、第５畳み込み層１４２ｅ、第６畳み込み層１４２ｆ、プーリング層１４４と総称する第１プーリング層１４４ａ、第２プーリング層１４４ｂ、第３プーリング層１４４ｃ、第４プーリング層１４４ｄ、第５プーリング層１４４ｅを含む。このような畳み込み層１４２、プーリング層１４４は、各処理を実行するブロックのイメージを示す。

入力画像１４０は、前述の検査画像、学習用画像、環境音画像、組合せ画像等の画像を総称する処理部１１４におけるニューラルネットワークには、完全畳み込みニューラルネットワークと同様に、全結合層１４８が含まれないので、入力画像１４０のサイズに対する制限が設けられない。入力画像１４０は、第１畳み込み層１４２ａに入力される。処理部１１４では、第１畳み込み層１４２ａ、第１プーリング層１４４ａ、第２畳み込み層１４２ｂ、第２プーリング層１４４ｂ、第３畳み込み層１４２ｃ、第３プーリング層１４４ｃ、第４畳み込み層１４２ｄ、第４プーリング層１４４ｄ、第５畳み込み層１４２ｅ、第５プーリング層１４４ｅ、第６畳み込み層１４２ｆが順に配置される。つまり、これまでと同様に、畳み込み処理とプーリング処理とが繰り返し実行される。

このような構成における処理部１１４でも、学習用画像と環境音画像との組合せが教師データとなるように、各畳み込み層１４２の空間フィルタの係数を学習させる。本実施例において、教師データのサイズは１×１の空間次元を有する。そのため、教師データは、学習用画像と環境音画像との組合せに対して、限定された数のクラスのいずれかを示すだけである。つまり、１つのチャンネルに対する教師データは、１つのクラスに該当するか否かだけを示せばよい。そのため、物体に対して色塗りによるセグメンテーションがなされた画像を生成する場合と比較して、１つの教師データを生成するための作業量が低減する。その結果、作業量の増加を抑制しながら、教師データの数を多くすることが可能である。

一方、学習用画像と環境音画像との組合せは、判定処理が正確に実行された場合に教師データが出力されるような元の画像であり、そのサイズは教師データが１×１の空間次元となるように定められる。ここで、入力画像１４０のサイズに対する制限が設けられないので、学習処理に使用される画像と、判定処理に使用される画像とが異なったサイズでもよい。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

以下では、処理装置１００の変形例を説明する。
（第１変形例）
図１において、検査対象の物体の近傍に配置され音を取得するためのマイクロホン１０が第１マイクロホン１０ａとは別に１以上設けられてもよい。また、このような１以上のマイクロホン１０に対応するように増幅器１２とＡ／Ｄコンバータ１４が設けられる。追加される１以上のマイクロホン１０は、検査対象の物体において第１マイクロホン１０ａとは異なった位置に取り付けられ、異なった位置における音を受けつける。追加される増幅器１２と、追加されるＡ／Ｄコンバータ１４はこれまでと同様であり、処理装置１００の第１入力部１１０ａは、複数の検査情報を入力する。複数の検査情報は、複数のマイクロホン１０によって検出された情報である。第１変換部１１２ａは、複数の検査情報を複数の検査画像に変換する。第１変換部１１２ａにおける処理は、前述の通りである。第１変換部１１２ａは、複数の検査画像を処理部１１４に出力する。

処理部１１４は、環境音画像と、複数の検査画像とに対してニューラルネットワークの処理を実行する。図７は、処理部１１４の構成を示す。処理部１１４は、畳み込み層１４２と総称される第１－１畳み込み層１４２ａａ、第１－２畳み込み層１４２ａｂ、第１－３畳み込み層１４２ａｃ、第２－１畳み込み層１４２ｂａ、第２－２畳み込み層１４２ｂｂ、第２－３畳み込み層１４２ｂｃ、第３－１畳み込み層１４２ｃａ、第３－２畳み込み層１４２ｃｂ、第３－３畳み込み層１４２ｃｃ、第Ｎ－１畳み込み層１４２ｎａ、第Ｎ－２畳み込み層１４２ｎｂ、第Ｎ－３畳み込み層１４２ｎｃ、プーリング層１４４と総称される第１－１プーリング層１４４ａａ、第１－２プーリング層１４４ａｂ、第２－１プーリング層１４４ｂａ、第２－２プーリング層１４４ｂｂ、第３－１プーリング層１４４ｃａ、第３－２プーリング層１４４ｃｂ、第Ｎ－１プーリング層１４４ｎａ、第Ｎ－２プーリング層１４４ｎｂ、第３プーリング層１４４ｃ、第４プーリング層１４４ｄ、組合せ層１４６、デンスブロック１５０と総称される第１デンスブロック１５０ａ、第２デンスブロック１５０ｂを含む。

処理部１１４は、第１検査画像から第Ｎ－１検査画像、つまりＮ－１種の検査画像を変換部１１２から受けつける。第１－１畳み込み層１４２ａａは、第１検査画像を受けつけ、第２－１畳み込み層１４２ｂａは、環境音画像を受けつけ、第３－１畳み込み層１４２ｃａは、第２検査画像を受けつけ、第Ｎ－１畳み込み層１４２ｎａは、第Ｎ－１検査画像を受けつける。第１－１畳み込み層１４２ａａ、第１－１プーリング層１４４ａａ、第１－２畳み込み層１４２ａｂ、第１－３畳み込み層１４２ａｃ、第１－２プーリング層１４４ａｂは、第１検査画像に対するニューラルネットワークの処理を実行する。他の検査画像についても同様である。第２－１畳み込み層１４２ｂａ、第２－１プーリング層１４４ｂａ、第２－２畳み込み層１４２ｂｂ、第２－３畳み込み層１４２ｂｃ、第２－２プーリング層１４４ｂｂは、環境音画像に対するニューラルネットワークの処理を実行する。

組合せ層１４６は、第１－２プーリング層１４４ａｂから第Ｎ－２プーリング層１４４ｎｂのそれぞれからの処理結果を受けつける。組合せ層１４６は、前述のようにこれらの処理結果を組み合わせる。組合せの際に、異なる検査画像に対して互いに異なる色で合成してもよく、これによりカラー判定による処理が可能になる。組合せ層１４６は、組合せの結果（以下、これもまた「組合画像」という）を出力する。第１デンスブロック１５０ａは、畳み込み層１４２、組合せ層１４６等の組合せによって構成される。デンスブロック１５０には公知の技術が使用されればよいので、ここでは説明を省略する。第１デンスブロック１５０ａに続く、第３プーリング層１４４ｃ、第２デンスブロック１５０ｂ、第４プーリング層１４４ｄは、これまでと同様の処理を実行するので、ここでは説明を省略する。図７の畳み込み層１４２、デンスブロック１５０について、図７に合わせた学習がなされる。

図７に示される処理部１１４の構成は、図５（ｂ）に類似する。しかしながら、処理部１１４の構成は、図５（ａ）に類似してもよく、図５（ｃ）に類似してもよい。

（第２変形例）
検査画像と環境音画像は、Ｎ次元Ｍチャンネル（Ｎ、Ｍ整数）を有する画像であってもよい。ここで、Ｎ次元には、１次元、２次元、３次元、４次元、・・・・が含まれる。このような検査画像と環境音画像に対して、処理部１１４はこれまでと同様の処理を実行すればよい。

（第３変形例）
これまでの処理部１１４には、畳み込み層１４２、プーリング層１４４が含まれていたが、畳み込み層１４２、プーリング層１４４が含まれなくてもよい。図８は、処理部１１４の構成を示す。処理部１１４は、組合せ層１４６、全結合層１４８と総称される第１－１全結合層１４８ａａ、第１－２全結合層１４８ａｂ、第１－３全結合層１４８ａｃ、第２－１全結合層１４８ｂａ、第２－２全結合層１４８ｂｂ、第２－３全結合層１４８ｂｃ、第４全結合層１４８ｄを含む。つまり、組合せ層１４６を除いて、全結合層１４８だけが含まれる。第１－１全結合層１４８ａａは、検査画像を受けつけ、第２－１全結合層１４８ｂａは、環境音画像を受けつける。第１－１全結合層１４８ａａから第１－３全結合層１４８ａｃは、検査画像に対して全結合層の処理を実行し、第２－１全結合層１４８ｂａから第２－３全結合層１４８ｂｃは、環境音画像に対して全結合層の処理を実行する。組合せ層１４６は、第１－３全結合層１４８ａｃと第２－３全結合層１４８ｂｃから処理結果を受けつける。組合せ層１４６は、前述のようにこれらの処理結果を組み合わせる。組合せ層１４６は、組合せの結果（以下、これもまた「組合画像」という）を出力する。第４全結合層１４８ｄは、組合画像に対して全結合層の処理を実行する。

図８に示される処理部１１４の構成は、図５（ｂ）に類似する。しかしながら、処理部１１４の構成は、図５（ａ）に類似してもよく、図５（ｃ）に類似してもよい。

（第４変形例）
これまでの組合せ層１４６では、組合せの第１例、第３例から第５例のように、複数のチャンネルが１つに合併されている。合併はこれに限定されない。図９（ａ）－（ｃ）は、処理部１１４の構成を示す。第１入力画像２００ａ、第２入力画像２００ｂは、組合せ層１４６に入力される２つの画像であり、学習用画像、検査画像、環境音画像、処理結果を含む。図９（ａ）は、組合せ層１４６におけるこれまでの合併を示し、２つのチャンネルの第１入力画像２００ａ、第２入力画像２００ｂが合併により１つのチャンネルにされる。第１入力画像２００ａ、第２入力画像２００ｂを総称する入力画像２００の数は「２」に限定されない。また、１つのチャンネルにされた画像が前述の組合画像に相当する。図９（ｂ）では、２つのチャンネルの第１入力画像２００ａ、第２入力画像２００ｂが、ｘ軸方向に並べることによって１つのチャンネルにされる。図９（ｃ）では、２つのチャンネルの第１入力画像２００ａ、第２入力画像２００ｂが、ｙ軸方向に並べることによって１つのチャンネルにされる。

本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路（ＩＣ）、またはＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を含む１つまたは複数の電子回路で構成される。複数の電子回路は、１つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは１つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なＲＯＭ、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

本実施例によれば、環境音画像と検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するので、環境音が存在する場合でも処理の正確性の低下を抑制できる。また、マイクロホン１０を使用するので、風切り音なども集音することができ、より人間の官能検査に近い検査を実行できる。また、マイクロホン１０を使用するので、検査のための防音室が不要になるので、インライン化を容易に実現できる。

また、環境音画像と複数の検査画像とに対してニューラルネットワークの処理を実行するので、複数のマイクロホン１０からの音をもとに、検査画像に異音の成分が含まれるか否かを判定するので、判定精度を向上できる。また、ニューラルネットワークは、出力部１１８から出力される検査結果が良品あるいは欠陥を示すように学習されていているので、物体の検査を実行できる。

また、検査画像と環境音画像とを組み合わせてから、組合せに対して畳み込み層１４２の処理とプーリング層１４４の処理を実行するので、処理量の増加を抑制できる。また、検査画像と環境音画像のそれぞれに対して畳み込み層１４２の処理とプーリング層１４４の処理を実行してから、これらの組合せに対して畳み込み層１４２の処理とプーリング層１４４の処理を実行するので、処理の精度を向上できる。また、検査画像と環境音画像のそれぞれに対して畳み込み層１４２の処理とプーリング層１４４の処理を実行してから、これらを組み合わせるので、処理の精度を向上できる。

また、検査画像に対して畳み込み層１４２の処理を実行する際の重み係数と、環境音画像に対して畳み込み層１４２の処理を実行する際の重み係数とを共通にするので、処理の精度を向上できる。また、組合せとして、２つの入力を１つに合併するので、処理を簡易にできる。また、組合せとして、２つの入力の差分を導出するので、処理の精度を向上できる。また、組合せとして、差分に、２つの入力の少なくとも１つを合併するので、処理の精度を向上できる。１×１の空間次元を有する教師データに対して、畳み込み層１４２の空間フィルタの学習がなされている畳み込みニューラルネットワークを使用するので、教師データの作成の作業量を低減できる。また教師データの作成の作業量が低減されるので、学習の作業量の増加を抑制できる。また教師データの作成の作業量が低減されるので、教師データの数を多くできる。また、教師データの数が多くなるので、学習の精度を向上できる。

また、検査画像と環境音画像は、Ｎ次元Ｍチャンネル（Ｎ、Ｍは整数）を有する画像であるので、本実施例の適用範囲を拡大できる。また、検査画像と環境音画像とを組み合わせてから、組合せに対して全結合層１４８の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層１４８の処理を実行するとともに、環境音画像に対して全結合層１４８の処理を実行し、検査画像に対する処理結果と環境音画像に対する処理結果との組合せに対して全結合層１４８の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層１４８の処理を実行するとともに、環境音画像に対して全結合層１４８の処理を実行し、検査画像に対する処理結果と環境音画像に対する処理結果とを組み合わせるので、構成の自由度を向上できる。

本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置（１００）は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部（１１０ａ）と、第１入力部（１１０ａ）に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第１変換部（１１２ａ）と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部（１１０ｂ）と、第２入力部（１１０ｂ）に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第２変換部（１１２ｂ）と、第２変換部（１１２ｂ）において変換した環境音画像と、第１変換部（１１２ａ）において変換した検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部（１１４）と、処理部（１１４）の処理結果として、検査対象の物体の検査結果を出力する出力部（１１８）と、を備える。

第１入力部（１１０ａ）は、複数の検査情報を入力し、第１変換部（１１２ａ）は、第１入力部（１１０ａ）に入力した複数の検査情報を複数の検査画像に変換し、処理部（１１４）は、環境音画像と、第１変換部（１１２ａ）において変換した複数の検査画像とに対してニューラルネットワークの処理を実行してもよい。

処理部（１１４）におけるニューラルネットワークは、出力部（１１８）から出力される検査結果が良品あるいは欠陥を示すように学習されていてもよい。

出力部（１１８）は、処理部（１１４）におけるニューラルネットワークの処理の途中の特徴量も出力してもよい。

本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、変換した環境音画像と、変換した検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。

（実施例２）
次に実施例２を説明する。実施例２は、実施例１と同様に、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。ニューラルネットワークを使用する場合、モータの品番毎の再学習が必要になる。このような再学習のために、学習の作業量が増加する。しかしながら、学習が不十分であると処理の正確性が低下する。実施例２に係る処理装置は、正常な物体における周波数成分の時間変化が示され、かつ検査画像と比較可能な画像（以下、「参照画像」という）を用意する。処理装置は、検査画像と環境音画像と参照画像との組合せに対して、ニューラルネットワークの処理を実行することによって、検査画像が正常であるか不良であるかを判定する。その際、処理装置では、検査画像と環境音画像と参照画像との組合せに対して検査画像が正常であるか不良であるかの情報を教師データとして学習が予めなされている。つまり、検査画像と環境音画像の組合せと参照画像との比較結果が正常であるか不良であるかが学習されている。その結果、商品リニューアルによって参照画像が変わる場合であっても、新たな参照画像と検査画像と環境音画像を処理装置に入力すればよくなり、未学習の音のパターンでも判定が可能になる。ここでは、これまでとの差異を中心に説明する。

図１０は、処理装置１００の構成を示す。処理装置１００では、図１の処理装置１００に記憶部１１６が加えられる。記憶部１１６は、参照画像を記憶する。参照画像は、正常な物体に対して予め取得されたスペクトログラムであるので、周波数成分の時間変化が示される画像である。図４（ｃ）は、検査対象の物体に対して基準となるスペクトログラムを示す。処理部１１４は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行する。処理部１１４は、学習処理の場合に、参照画像と学習用画像と環境音画像とに対してニューラルネットワークの処理を実行し、判定処理の場合に、参照画像と検査画像と環境音画像とに対してニューラルネットワークの処理を実行する。処理部１１４は、図７と同様に示される。

処理部１１４は、検査画像、環境音画像、参照画像を受けつける。第１－１畳み込み層１４２ａａは、検査画像を受けつけ、第２－１畳み込み層１４２ｂａは、環境音画像を受けつけ、第３－１畳み込み層１４２ｃａは、参照画像を受けつける。第１－１畳み込み層１４２ａａ、第１－１プーリング層１４４ａａ、第１－２畳み込み層１４２ａｂ、第１－３畳み込み層１４２ａｃ、第１－２プーリング層１４４ａｂは、検査画像に対するニューラルネットワークの処理を実行する。第２－１畳み込み層１４２ｂａ、第２－１プーリング層１４４ｂａ、第２－２畳み込み層１４２ｂｂ、第２－３畳み込み層１４２ｂｃ、第２－２プーリング層１４４ｂｂは、環境音画像に対するニューラルネットワークの処理を実行する。第３－１畳み込み層１４２ｃａ、第３－１プーリング層１４４ｃａ、第３－２畳み込み層１４２ｃｂ、第３－３畳み込み層１４２ｃｃ、第３－２プーリング層１４４ｃｂは、参照画像に対するニューラルネットワークの処理を実行する。組合せ層１４６は、第１－２プーリング層１４４ａｂから第３－２プーリング層１４４ｃｂのそれぞれからの処理結果を受けつける。組合せ層１４６は、前述のようにこれらの処理結果を組み合わせる。

学習処理において、処理部１１４では学習用画像が使用される。学習用画像では、異音の成分が含まれているか否かが未知である検査画像とは異なり、異音の成分が含まれていること、あるいは異音の成分が含まれていないことが既知である。また、処理部１１４は、参照画像に対して学習用画像に異音の成分が含まれているか否かを示す教師データを受けつける。教師データは、「ＯＫ」あるいは「ＮＧ」を示す。処理部１１４は、学習用画像と環境音画像の組合せと参照画像との関係が、教師データとなるように、各畳み込み層１４２の空間フィルタの係数を学習させる。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。このように、処理部１１４におけるニューラルネットワークは、出力部１１８から出力される検査結果が良品あるいは欠陥を示すように学習されている。

学習処理の後の判定処理において、処理部１１４では検査画像が使用される。ここで、学習処理が処理装置１００以外でなされる場合、別の装置での学習処理で導出された空間フィルタの係数が、処理部１１４に設定される。処理部１１４は、環境音画像と検査画像と参照画像とに対してニューラルネットワークの処理を実行する。出力部１１８は、処理部１１４の処理結果として、参照画像に対して検査画像と環境音画像の組合せに異音の成分が含まれるか否かを示す情報、つまり検査対象の物体の検査結果を出力する。

本実施例によれば、検査画像と環境音画像と参照画像とに対してニューラルネットワークの処理を実行することによって、検査画像と環境音画像の組合せと参照画像の比較結果として、検査画像に異音の成分が含まれるか否かを示す情報を出力できる。また、検査画像と環境音画像の組合せと参照画像の比較結果が出力されるので、参照画像が変わっても新たな参照画像による学習の量を低減できる。また、参照画像が変わっても新たな参照画像による学習の量が低減されるので、学習の作業量の増加を抑制できる。

本開示の一態様の概要は、次の通りである。処理部（１１４）は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行してもよい。

（実施例３）
次に実施例３を説明する。実施例３は、実施例１と同様に、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、学習用画像、検査画像、環境音画像等の画像に対してニューラルネットワークの処理が実行されている。実施例２に係る処理装置は、学習用情報、検査情報、環境音情報等の情報に対してニューラルネットワークを実行する。ここでは、これまでとの差異を中心に説明する。

図１１は、処理装置１００の構成を示す。処理装置１００は、マイクロホン１０と総称される第１マイクロホン１０ａ、第２マイクロホン１０ｂ、増幅器１２と総称される第１増幅器１２ａ、第２増幅器１２ｂ、Ａ／Ｄコンバータ１４と総称される第１Ａ／Ｄコンバータ１４ａ、第２Ａ／Ｄコンバータ１４ｂに接続されるとともに、入力部１１０と総称される第１入力部１１０ａ、第２入力部１１０ｂ、処理部１１４、出力部１１８を含む。処理部１１４は、学習用情報あるいは検査情報を第１入力部１１０ａから受けつけ、環境音情報を第２入力部１１０ｂから受けつける。処理部１１４は、学習処理の場合に、学習用情報と環境音情報とに対してニューラルネットワークの処理を実行し、判定処理の場合に、検査情報と環境音情報とに対してニューラルネットワークの処理を実行する。処理部１１４における処理はこれまでと同様でよいので、ここでは説明を省略する。

本実施例によれば、波形が示される検査情報と、波形が示される環境音情報とに対してニューラルネットワークの処理を実行するので、検査情報から検査画像への変換と、環境音情報から環境音画像への変換とを不要にできる。また、検査情報から検査画像への変換と、環境音情報から環境音画像への変換とが不要になるので、処理量を低減できる。

本開示の一態様の概要は、次の通りである。本開示の別の態様もまた、処理装置（１００）である。この装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部（１１０ａ）と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部（１１０ｂ）と、第２入力部（１１０ｂ）に入力した環境音情報と、第１入力部（１１０ａ）に入力した検査情報とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部（１１４）と、処理部（１１４）の処理結果として、検査対象の物体の検査結果を出力する出力部（１１８）と、を備える。

第１入力部（１１０ａ）は、複数の検査情報を入力し、処理部（１１４）は、環境音情報と、第１入力部（１１０ａ）に入力した複数の検査情報とに対してニューラルネットワークの処理を実行してもよい。

処理部（１１４）は、正常な物体における音の時間変化が示される参照情報も含めてニューラルネットワークの処理を実行してもよい。

本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報と、入力した検査情報とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。

以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

実施例１、第１変形例から第４変形例、実施例２、実施例３における処理部１１４の構成は、複数の畳み込み層１４２と複数のプーリング層１４４とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部１１４は、ＧｏｏｇＬｅＮｅｔ系、ＤｅｎｓｅＮｅｔ系等の構成を有していてもよい。本変形例によれば、構成の自由度を向上できる。

実施例１、第１変形例から第４変形例、実施例２、実施例３における処理部１１４の構成は、複数の畳み込み層１４２と複数のプーリング層１４４とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部１１４では、畳み込み層１４２のみが含まれて畳み込み処理だけが実行されてもよいし、プーリング層１４４のみが含まれてプーリング処理だけが実行されてもよい。本変形例によれば、構成の自由度を向上できる。

実施例１、第１変形例から第４変形例、実施例２、実施例３における出力部１１８は、処理部１１４におけるニューラルネットワークの処理結果を出力する。しかしながらこれに限らず例えば、出力部１１８は、処理部１１４におけるニューラルネットワークの処理の途中の特徴量を出力してもよい。本変形例によれば、構成の自由度を向上できる。

実施例１、第１変形例から第４変形例、実施例２、実施例３の任意の組合せも有効である。本変形例によれば、実施例１、第１変形例から第４変形例、実施例２、実施例３の任意の組合せによる効果を得ることができる。例えば、実施例２と第１変形例の組合せとして、第１入力部１１０ａは、複数の検査画像を入力する。処理部１１４は、環境音画像と複数の検査画像と参照画像とに対してニューラルネットワークの処理を実行する。本変形例によれば、処理精度を向上できる。例えば、実施例３と第１変形例の組合せとして、入力部１１０は、複数の検査情報を入力する。処理部１１４は、環境音情報と、入力部１１０に入力した複数の検査情報とに対してニューラルネットワークの処理を実行する。その際、変換部１１２は省略される。本変形例によれば、処理量の増加を抑制しながら、処理精度を向上できる。

１０マイクロホン、１２増幅器、１４Ａ／Ｄコンバータ、１００処理装置、１１０入力部、１１２変換部、１１４処理部、１１６記憶部、１１８出力部、１４０入力画像、１４２畳み込み層、１４４プーリング層、１４６組合せ層、１４８全結合層、１５０デンスブロック。

Claims

検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、
前記第１入力部に入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換する第１変換部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、
前記第２入力部に入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第２変換部と、
前記第２変換部において変換した前記環境音画像と、前記第１変換部において変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とを合併させた結果に対して、前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、
前記第１入力部に入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換する第１変換部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、
前記第２入力部に入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第２変換部と、
前記第２変換部において変換した前記環境音画像と、前記第１変換部において変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
前記第１入力部は、複数の前記検査情報を入力し、
前記第１変換部は、前記第１入力部に入力した複数の前記検査情報を複数の前記検査画像に変換し、
前記処理部は、前記環境音画像と、前記第１変換部において変換した複数の前記検査画像とを学習済みのニューラルネットワークに入力してから、前記ニューラルネットワークの処理を実行することを特徴とする請求項１または２に記載の処理装置。
前記処理部は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行することを特徴とする請求項１から３のいずれか１項に記載の処理装置。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、
前記第２入力部に入力した前記環境音情報と、前記第１入力部に入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とを合併させた結果に対して、前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第１入力部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第２入力部と、
前記第２入力部に入力した前記環境音情報と、前記第１入力部に入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
前記第１入力部は、複数の前記検査情報を入力し、
前記処理部は、前記環境音情報と、前記第１入力部に入力した複数の前記検査情報とを学習済みのニューラルネットワークに入力してから、畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行することを特徴とする請求項５または６に記載の処理装置。
前記処理部は、正常な物体における音の時間変化が示される参照情報も含めてニューラルネットワークの処理を実行することを特徴とする請求項５から７のいずれか１項に記載の処理装置。
前記処理部におけるニューラルネットワークは、前記出力部から出力される前記検査結果が良品あるいは欠陥を示すように学習されていることを特徴とする請求項１から８のいずれか１項に記載の処理装置。
前記出力部は、前記処理部におけるニューラルネットワークの処理の途中の特徴量も出力することを特徴とする請求項１から９のいずれか１項に記載の処理装置。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、
変換した前記環境音画像と、変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とを合併させた結果に対して、前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、
変換した前記環境音画像と、変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報と、入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とを合併させた結果に対して、前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報と、入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。