KR20240056618A

KR20240056618A - 컨볼루셔널 신경망에 기초한 이미지 프로세싱을 위한 방법 및 시스템

Info

Publication number: KR20240056618A
Application number: KR1020247012477A
Authority: KR
Inventors: 쉬에빈 진; 마수드 데간; 도르누쉬 조누비
Original assignee: 엑소 이미징, 인크.
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2024-04-30
Also published as: CN118043858A; US20240212335A1; WO2023063874A8; IL310971A; WO2023063874A1; CA3235419A1

Abstract

CNN(convolutional neural network)에 기초한 이미지 프로세싱의 방법이 제공된다. 방법은 입력 이미지를 수신하는 단계; 복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하는 단계; 및 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하는 단계를 포함한다. 특히, 복수의 특징 추출 동작들 각각에 대해, 컨볼루션 층을 이용하여 특징 추출 동작을 수행하는 단계는, 컨볼루션 층에 의해 수신된 입력 특징 맵 및 복수의 가중화된 좌표 맵들에 기초하여 컨볼루션 층의 출력 특징 맵을 생성하는 단계; 복수의 좌표 맵들 및 공간 주의 맵에 기초하여 복수의 가중화된 좌표 맵들을 생성하는 단계; 및 복수의 가중화된 좌표 맵들을 생성하기 위해 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 공간 주의 맵을 생성하는 단계를 포함한다. CNN에 기초한 이미지 프로세싱을 위한 대응하는 시스템이 또한 제공된다.

Description

컨볼루셔널 신경망에 기초한 이미지 프로세싱을 위한 방법 및 시스템

본 발명은 일반적으로 CNN(convolutional neural network)에 기초한 이미지 프로세싱을 위한 방법 및 시스템에 관한 것이다.

CNN(convolutional neural network)은 당업계에 잘 알려져 있고 예측 목적을 위해 다양한 도메인들, 특히 이미지 세그먼테이션(image segmentation) 및 이미지 분류과 같은 다양한 예측 애플리케이션들을 위한 이미지 프로세싱에 적용되는 인공 신경망들의 일 클래스이다. CNN은 일반적으로 다양한 예측 애플리케이션들에 대한 다양한 도메인들에 적용 가능한 것으로 이해될 수 있지만, 다양한 예측 애플리케이션들에서 CNN의 사용은 항상 만족스러운 예측 결과들을 제공하진 않을 수 있고(예컨대, 이미지 세그먼테이션 또는 이미지 분류에서 충분히 정확하지 않음) 만족스러운 예측 결과들을 획득하는 것은 어렵거나 난제일 수 있다.

예로서, 의료용 초음파 이미징은 고주파 음파들을 사용하여 인체의 구조들의 이미지들을 제공하는 안전하고 비침습적인 실시간 이미징 양식이다. 다른 이미징 양식들 이를테면, CT(Computed Tomography) 및 MRI(Magnetic Resonance Imaging)에 비해, 초음파 이미징은 비교적 저렴하고 휴대 가능하고 보다 보편화되고 이에 따라 21세기 청진기가 될 것으로 널리 간주된다. 그러나 초음파 이미지들은 핸드헬드 프로브(handheld probe)로부터 획득될 수 있고, 이에 따라 오퍼레이터 의존적이며 심한 스페클 노이즈(speckle noise), 쉐도잉(shadowing) 및 흐릿한 경계들과 같은 매우 다수의 아티팩트들에 취약하다. 이는 이웃 조직들로부터 관심 있는 조직 구조들(예컨대, 해부학적 구조들)의 세그먼테이션의 어려움을 증가시킨다. 다수의 종래의 방법들(예컨대, 활성 윤곽선들, 그래프 컷, 슈퍼 픽셀 및 심층 모델들(예컨대, FCN(fully convolutional network), U-Net 등))이 초음파 이미지 세그먼테이션을 위해 제안되고 적응되었다. 그러나 초음파 이미지들의 노이즈 성질로 인해, 이러한 종래 방법들은 일반적으로 열악한 결과들을 생성한다. 심층 모델들은 기존 방법들에 비해 뛰어난 개선들을 달성하였지만, 초음파 이미지들로부터 연조직 구조들의 정확한 세그먼테이션은 난제인 작업으로 남아있다.

단일 심층 모델들을 사용한 초음파 이미지들의 세그먼테이션과 연관된 다른 문제는 이들이 일반적으로 흐릿한 경계들 및 텍스처들로 인한 높은 편향들, 및 노이즈 및 불균질성으로 인한 높은 분산을 갖는 결과들을 생성한다는 것이다. 편향들 및 분산들 둘 모두를 감소시키기 위해 배깅(bagging), 부스팅 등과 같은 다중 모델 앙상블 접근법들이 제안되었다. 그러나 앙상블을 위해 다수의 모델들을 훈련하는 것은 컴퓨테이션적으로 비용이 많이 든다. 이를 해결하기 위해, 이전에는 학습률 어닐링(learning rates annealing)에 의해 최적화 경로를 따라 모델 가중치들의 다수의 세트들을 저장하면서, 한 번의 패스로 모델을 훈련하는 것이 제안되었다. 그러나 이러한 방법은 여전히 추론 프로세스를 여러 번 실행하도록 요구한다. 이 이슈를 해결하기 위한 시도로, 다수의 다중 스테이지 예측-정제 심층 모델들(예컨대, HourglassNet, CU-Net, R³-Net, BASNet)이 각자의 캐스캐이딩된 모듈(cascaded module)들을 통해 세그먼테이션 결과들을 예측하고 점진적으로 정제하기 위해 개발되었다. 이러한 전략은 세그먼테이션 편향을 감소시킬 수 있을 수 있지만, 분산에 미치는 영향은 제한적이며, 이는 전체 데이터세트에 대한 그의 평균 성능은 좋은 것처럼 보일 수 있지만 상이한 입력 이미지들에 대해 안정적인 예측을 생성할 가능성이 적다.

따라서 CNN에 기초한 이미지 프로세싱을 위한 종래의 방법들 및 시스템들과 연관된 하나 이상의 문제들을 극복하거나 적어도 개선하고자 하고, 특히 이미지 세그먼테이션과 같이(그러나 이에 제한되지 않음) CNN에 기초한 이미지 프로세싱과 연관된 예측 능력(예컨대, 예측 결과들의 정확성)을 향상 또는 개선하기 위한, CNN에 기초한 이미지 프로세싱을 위한 방법 및 시스템을 제공할 필요성이 존재한다. 이러한 배경에 맞서, 본 발명이 개발되었다.

본 발명의 제1 양상에 따르면, 적어도 하나의 프로세서를 이용하여 CNN에 기초한 이미지 프로세싱의 방법이 제공되며, 이 방법은,

입력 이미지를 수신하는 단계;

복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하는 단계; 및

복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하는 단계를 포함하고,

복수의 특징 추출 동작들 각각에 대해, 컨볼루션 층을 이용하여 특징 추출 동작을 수행하는 단계는,

컨볼루션 층에 의해 수신된 입력 특징 맵 및 복수의 가중화된 좌표 맵들에 기초하여 컨볼루션 층의 출력 특징 맵을 생성하는 단계; 복수의 좌표 맵들 및 공간 주의 맵에 기초하여 복수의 가중화된 좌표 맵들을 생성하는 단계; 및

복수의 가중화된 좌표 맵들을 생성하기 위해 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 공간 주의 맵을 생성하는 단계를 포함한다.

본 발명의 제2 양상에 따르면, CNN에 기초한 이미지 프로세싱을 위한 시스템이 제공되며, 이 시스템은 메모리; 및 메모리에 통신 가능하게 커플링되고, 본 발명의 위에서 언급된 제1 양상에 따라 CNN에 기초한 이미지 프로세싱의 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함한다.

본 발명의 제3 양상에 따르면, 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체들에 구현되고, 본 발명의 위에서 언급된 제1 양상에 따라 CNN 기반의 이미지 프로세싱의 방법을 수행하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

본 발명의 제4 양상에 따르면, 적어도 하나의 프로세서를 이용하여 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법이 제공되며, 방법은,

본 발명의 위에서 언급된 제1 양상에 따라 CNN에 기초한 이미지 프로세싱의 방법을 수행하는 단계를 포함하고,

입력 이미지는 조직 구조를 포함하는 초음파 이미지이고; 그리고

출력 이미지는 세그먼팅된 조직 구조를 갖고 CNN을 사용하여 입력 이미지에 대한 추론의 결과이다.

본 발명의 제5 양상에 따르면, CNN에 기초한 이미지 프로세싱을 위한 시스템이 제공되며, 이 시스템은 메모리; 및 메모리에 통신 가능하게 커플링되고, 본 발명의 위에서 언급된 제4 양상에 따라 CNN을 사용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함한다.

본 발명의 제6 양상에 따르면, 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체들에 구현되고, 본 발명의 위에서 언급된 제4 양상에 따라 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법을 수행하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

본 발명의 실시예들은 단지 예로서 그리고 도면들과 함께 다음 작성된 설명으로부터 당업자에게 더 잘 이해되고 쉽게 명백해질 것이다.
도 1은 본 발명의 다양한 실시예들에 따라 CNN에 기초한 이미지 프로세싱의 방법의 개략적인 흐름도를 도시한다.
도 2는 본 발명의 다양한 실시예들에 따라 CNN에 기초한 이미지 프로세싱을 위한 시스템의 개략적인 블록도를 도시한다.
도 3은 본 발명의 다양한 실시예들에 따라 CNN에 기초한 이미지 프로세싱을 위한 시스템을 실현하거나 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템의 개략적인 블록도를 도시한다.
도 4a 및 도 4b는 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN의 예시적인 네트워크 아키텍처를 도시한다.
도 5는 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN의 예측 모듈 및 정제 모듈의 예시적인 상세한 구성들을 예시하는 표(표 1)를 도시한다.
도 6은 본 발명의 다양한 예시적인 실시예들에 따라 RSU(residual U-block)의 개략적인 블록도를 도시한다.
도 7a 및 도 7b는 다양한 예시적인 실시예들에 따른 잔차 블록(도 7a) 및 RSU(도 7b)의 개략적인 블록도들을 도시한다.
도 8a 및 도 8b는 본 발명의 다양한 예시적인 실시예들에 따라 오리지널 좌표 컨볼루션(CoordConv)(도 8A) 및 주의적 좌표 컨볼루션(AC-Conv)(도 8B)의 개략적인 블록도를 도시한다.
도 9a 및 도 9b는 본 발명의 다양한 예시적인 실시예들에 따라 종래의 캐스캐이딩된 정제 모듈 및 병렬 정제 모듈의 개략적인 블록도들을 도시한다.
도 10은 본 발명의 다양한 예시적인 실시예들에 따라 수동으로 라벨링된 갑상선엽 오버레이를 갖는 대응하는 초음파 이미지들과 함께, 갑상선 및 초음파 스캐닝 프로토콜의 개략도를 도시한다.
도 11은 본 발명의 다양한 예시적인 실시예들에 따라 초음파 이미지들의 각각의 서브세트 내 볼륨들 및 대응하는 슬라이스들(이미지들)의 수를 예시하는 표(표 2)를 도시한다.
도 12는 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN의 정량적 평가 또는 횡단(TRX) 및 시상(SAG) 테스트 세트들에 대한 다른 최첨단 세그먼테이션 모델과의 비교를 도시하는 표(표 3)를 도시한다.
도 13a 내지 도 13l은 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN을 이용한 TRX 갑상선 이미지들의 샘플 세그먼테이션 결과들을 도시한다.
도 14a 내지 도 14l은 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN을 이용한 SAG 갑상선 이미지에 대한 샘플 세그먼테이션 결과들을 도시한다.
도 15a 및 도 15b는 각각, TRX 이미지들 및 SAG 이미지들에 대해 본 발명의 다양한 예시적인 실시예들에 따른 예시적인 CNN 및 다른 최첨단 모델들의 성공률 곡선들의 플롯들을 도시한다.
도 16은 다양한 컨볼루션 블록 및 정제 아키텍처들에 대해 수행된 어블레이션 연구들을 도시하는 표(표 4)를 도시한다.

본 발명의 다양한 실시예들은 CNN(convolutional neural network), 및 특히 심층(Deep) CNN에 기초한 이미지 프로세싱을 위한 방법 및 시스템을 제공한다. CNN은 인공 신경망들의 클래스 또는 유형이며, 이는 CNN 모델로서 또는 간단히 모델로서 또한 지칭된다. 예컨대, 배경에서 설명된 바와 같이, CNN은 일반적으로 다양한 예측 애플리케이션들에 대한 다양한 도메인들에 적용 가능한 것으로 이해될 수 있지만, 다양한 예측 애플리케이션들에서 CNN의 사용은 항상 만족스러운 예측 결과들을 제공하진 않을 수 있고(예컨대, 이미지 세그먼테이션 또는 이미지 분류에서 충분히 정확하지 않음) 만족스러운 예측 결과들을 획득하는 것은 어렵거나 난제일 수 있다. 예로서, 조직 구조(예컨대, 해부학적 구조 또는 종양과 같은 다른 유형들의 조직 구조)를 포함하는 초음파 이미지는 노이즈가 많으며 CNN에 기초한 이러한 초음파 이미지를 세그먼팅하는 종래의 방법들은 열악한 결과들을 생성하는 것으로 밝혀졌다. 따라서, 본 발명의 다양한 실시예들은 따라서 CNN에 기초한 이미지 프로세싱을 위한 종래의 방법들 및 시스템들과 연관된 하나 이상의 문제들을 극복하거나 적어도 개선하고자 하고, 특히 이미지 세그먼테이션과 같이(그러나 이에 제한되지 않음) CNN에 기초한 이미지 프로세싱과 연관된 예측 능력(예컨대, 예측 결과들의 정확성)을 향상 또는 개선하기 위한, CNN에 기초한 이미지 프로세싱을 위한 방법 및 시스템을 제공한다.

도 1은 본 발명의 다양한 실시예들에 따라 적어도 하나의 프로세서를 이용한 CNN에 기초한 이미지 프로세싱의 방법(100)의 개략적인 흐름도를 도시한다. 방법(100)은 입력 이미지를 수신하는 단계(102); 복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하는 단계(104); 및 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하는 단계(106)를 포함한다. 특히, 복수의 특징 추출 동작들 각각에 대해, 컨볼루션 층을 이용하여 특징 추출 동작을 수행하는 단계는, 컨볼루션 층에 의해 수신된 입력 특징 맵 및 복수의 가중화된 좌표 맵들에 기초하여 컨볼루션 층의 출력 특징 맵을 생성하는 단계; 복수의 좌표 맵들 및 공간 주의 맵에 기초하여 복수의 가중화된 좌표 맵들을 생성하는 단계; 및 복수의 가중화된 좌표 맵들을 생성하기 위해 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 공간 주의 맵을 생성하는 단계를 포함한다.

따라서, 이미지 프로세싱의 방법(100)은 유리하게는, 특히 이미지 세그먼테이션과 관련하여, 특히 초음파 이미지 세그먼테이션과 관련하여 예측 능력을 향상시키거나 개선하는 것으로 밝혀졌다. 특히, 위에서 설명된 바와 같은 방식으로 대응하는 컨볼루션 층을 이용하여 특징 추출 동작을 수행함으로써, 연관된 컨볼루션 동작이 (좌표 맵들(여분의 좌표 채널들)의 이용을 통해) 좌표 정보에 대한 액세스를 가질 수 있을 뿐만 아니라, 연관된 컨볼루션 동작은 (단순히 주의 맵으로서 또한 지칭될 수 있는 공간 주의 맵의 사용을 통해) 특징 추출 동작에 유익할 수 있는 특정 좌표들에 더 초점을 맞출 수 있을 수 있으며(즉, 추가된 주의), 그리하여 이러한 추가된 초점(즉, 추가된 주의)은 입력 특징 맵으로부터 도출된 공간 주의 맵을 통해 컨볼루션 층에 의해 수신된 입력 특징 맵에 의해 안내된다. 따라서, 연관된 컨볼루션 동작은 (예컨대, 데카르트 공간에서) 자신이 공간적으로 어디에 있는지를 알 뿐만 아니라, 연관된 컨볼루션 동작은 공간 주의 맵을 통해 어디에 더 초점을 맞춰야 하는지를 안다. 예컨대, 공간 주의 맵을 통해, 입력 특징 맵에 의해 안내되는 바와 같이 더 많은 초점 또는 주의를 요구할 수 있는 특정 좌표들에 여분의 가중치들이 추가될 수 있고 더 적은 초점 또는 주의를 요구할 수 있는 특정 좌표들에 가중치들이 감소될 수 있고(예컨대, 따라서 입력 특징 맵의 더 중요한 부분들이 특징 추출 동작에서 더 많은 주의를 받을 수 있음), 그리하여 컨볼루션 층의 연관된 컨볼루션 동작이 유리하게는 세심한 좌표 안내를 갖게 한다. 따라서, 이러한 세심한 좌표 안내를 갖는 컨볼루션 층을 이용한 특징 추출 동작을 AC-Conv(attentive coordinate-guided convolution)로서 지칭될 수 있고, 세심한 좌표 안내를 갖는 이러한 컨볼루션 층을 AC-Conv 층으로서 지칭될 수 있다. 이와 관련하여, 세심한 좌표 안내를 통해, 이미지 프로세싱의 방법(100)은 유리하게는, 예측 능력을 향상시키거나 개선하는 것이 발견되었다. 이러한 이점들 또는 기술적 효과들, 및/또는 다른 이점들 또는 기술적 효과들은 이미지 프로세싱의 방법(100)뿐만 아니라 이미지 프로세싱을 위한 대응하는 시스템이 본 발명의 다양한 실시예들 및 예시적인 실시예들에 따라 더 자세히 설명됨에 따라 당업자에게 더욱 명백해질 것이다.

다양한 실시예들에서, 위에서 언급된 공간 주의 맵을 생성하는 단계는 컨볼빙된 특징 맵을 생성하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 제1 컨볼루션 동작을 수행하는 단계; 및 공간 주의 맵을 생성하기 위해 컨볼빙된 특징 맵에 기초하여 활성화 함수를 적용하는 단계를 포함한다.

다양한 실시예들에서, 활성화 함수는 시그모이드 활성화 함수이다.

다양한 실시예들에서, 위에서 언급된 복수의 가중화된 좌표 맵을 생성하는 단계는 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 복수의 좌표 맵들 각각을 공간 주의 맵과 곱하는 단계를 포함한다.

다양한 실시예들에서, 복수의 좌표 맵들은 제1 차원에 대한 좌표 정보를 포함하는 제1 좌표 맵 및 제2 차원에 대한 좌표 정보를 포함하는 제2 좌표 맵을 포함하며, 제1 및 제2 차원들은 제1 컨볼루션 동작이 수행하도록 구성된 2개의 차원들이다.

다양한 실시예들에서, 위에서 언급된 컨볼루션 층의 출력 특징 맵을 생성하는 단계는, 결합된 특징 맵을 형성하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵 및 복수의 가중화된 좌표 맵들을 채널별로 결합(concatenating)하는 단계; 및 컨볼루션 층의 출력 특징 맵을 생성하기 위해 결합된 특징 맵에 기초하여 제2 컨볼루션 동작을 수행하는 단계를 포함한다.

다양한 실시예들에서, CNN은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하는 예측 서브-네트워크를 포함한다. 이와 관련하여, 방법(100)은 입력 이미지에 기초하여 예측 서브-네트워크를 사용하여 예측된 특징 맵들의 세트를 생성하는 단계를 더 포함하고, 위에서 언급된 예측된 특징 맵들의 세트를 생성하는 단계는, 예측 서브-네트워크의 적어도 하나의 컨볼루션 층을 이용하여, 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다. 또한, 예측된 특징 맵들의 세트의 복수의 예측 특징 맵들은 상이한 공간 해상도 레벨들을 갖는다.

다양한 실시예들에서, 예측 서브-네트워크는 인코더 블록들의 세트 및 디코더 블록들의 세트를 포함하는 인코더-디코더 구조를 갖는다. 예측 서브-네트워크의 인코더 블록들의 세트는 복수의 인코더 블록들을 포함하고 예측 서브-네트워크의 디코더 블록들의 세트는 복수의 디코더 블록들을 포함한다. 이와 관련하여, 방법(100)은, 예측 서브-네트워크의 복수의 인코더 블록들 각각에 대해, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계; 및 예측 서브-네트워크의 복수의 디코더 블록 각각에 대해, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계를 더 포함한다.

다양한 실시예들에서, 위에서 언급된 예측 서브-네트워크를 사용하여 예측된 특징 맵들의 세트를 생성하는 단계는 각각 복수의 디코더 블록들에 의해 생성된 복수의 업샘플링된 특징 맵들에 기초하여 복수의 예측된 특징 맵들을 생성하는 단계를 포함한다.

다양한 실시예들에서, 위에서 언급된 예측 서브-네트워크의 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계는, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및 인코더 블록에 의해 추출되는 추출된 다중 스케일 특징들에 기초하여 다운샘플링된 특징 맵을 생성하는 단계를 포함한다. 다양한 실시예들에서, 위에서 언급된 예측 서브-네트워크의 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계는, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및 디코더 블록에 의해 추출되는 추출된 다중 스케일 특징들에 기초하여 업샘플링된 특징 맵을 생성하는 단계를 포함한다.

다양한 실시예들에서, 예측 서브-네트워크의 복수의 인코더 블록들 각각은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 위에서 언급된 예측 서브-네트워크의 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계는 인코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다. 다양한 실시예들에서, 예측 서브-네트워크의 복수의 디코더 블록들 각각은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 위에서 언급된 예측 서브-네트워크의 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계는 디코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다.

다양한 실시예들에서, 예측 서브-네트워크의 복수의 인코더 블록들 각각의 각각의 컨볼루션 층은 CNN의 복수의 컨볼루션 층들 중 하나이다. 다양한 실시예들에서, 예측 서브-네트워크의 복수의 디코더 블록들 각각의 각각의 컨볼루션 층은 CNN의 복수의 컨볼루션 층들 중 하나이다.

다양한 실시예들에서, 예측 서브-네트워크의 복수의 인코더 블록들 각각은 잔차 블록으로서 구성된다. 다양한 실시예들에서, 예측 서브-네트워크의 복수의 디코더 블록들 각각은 잔차 블록으로서 구성된다.

다양한 실시예들에서, CNN은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하는 정제 서브-네트워크를 더 포함한다. 이와 관련하여, 방법(100)은 융합된 특징 맵에 기초하여 정제 서브-네트워크를 사용하여 정제된 특징 맵들의 세트를 생성하는 단계를 더 포함하고, 위에서 언급된 정제된 특징 맵들의 세트를 생성하는 단계는, 정제 서브-네트워크의 적어도 하나의 컨볼루션 층을 이용하여, 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다. 또한, 정제된 특징 맵들의 세트의 복수의 정제 특징 맵들은 상이한 공간 해상도 레벨들을 갖는다.

다양한 실시예들에서, 방법(100)은 융합된 특징 맵을 생성하기 위해 예측된 특징 맵들의 세트를 결합하는 단계를 더 포함한다.

다양한 실시예들에서, 정제 서브-네트워크는 각각 수의 정제된 특징 맵들을 생성하도록 구성된 복수의 정제 블록들을 포함하고, 복수의 정제 블록들 각각은 인코더 블록들의 세트 및 디코더 블록들의 세트를 포함하는 인코더-디코더 구조를 갖는다. 정제 서브-네트워크의 인코더 블록들의 세트는 복수의 인코더 블록들을 포함하고 정제 서브-네트워크의 디코더 블록들의 세트는 복수의 디코더 블록들을 포함한다. 이와 관련하여, 방법(100)은, 복수의 정제 블록들 각각에 대해: 정제 블록의 복수의 인코더 블록들 각각에 대해, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계; 및 정제 블록의 복수의 디코더 블록 각각에 대해, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계를 더 포함한다.

다양한 실시예들에서, 복수의 정제 블록들의 복수의 인코더-디코더 구조들은 상이한 높이들을 갖는다.

다양한 실시예들에서, 위에서 언급된 정제 서브-네트워크를 사용하여 정제된 특징 맵들의 세트를 생성하는 단계는 복수의 정제 블록들 각각에 대해, 정제 블록에 의해 수신된 융합된 특징 맵 및 정제 블록의 복수의 디코더 블록들의 제1 디코더 블록에 의해 생성된 업샘플링된 특징 맵에 기초하여 정제 블록의 정제된 특징 맵을 생성하는 단계를 포함한다.

다양한 실시예들에서, 위에서 언급된 정제 블록의 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계는, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및 인코더 블록에 의해 추출되는 추출된 다중 스케일 특징들에 기초하여 다운샘플링된 특징 맵을 생성하는 단계를 포함한다. 다양한 실시예들에서, 위에서 언급된 정제 블록의 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계는, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 정제 블록의 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및 디코더 블록에 의해 추출되는 추출된 다중 스케일 특징들에 기초하여 업샘플링된 특징 맵을 생성하는 단계를 포함한다.

다양한 실시예들에서, 복수의 정제 블록들 각각에 대해: 정제 블록의 복수의 인코더 블록들 각각은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 위에서 언급된 정제 블록의 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계는, 인코더 블록의 적어도 하나의 컨볼루션 층을 이용하여 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다. 다양한 실시예들에서, 복수의 정제 블록들 각각에 대해: 정제 블록의 복수의 디코더 블록들 각각은 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 위에서 언급된 정제 블록의 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계는 디코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함한다.

다양한 실시예들에서, 정제 블록의 복수의 인코더 블록들 각각의 각각의 컨볼루션 층은 CNN의 복수의 컨볼루션 층들 중 하나이다. 다양한 실시예들에서, 정제 블록의 복수의 디코더 블록들 각각의 각각의 컨볼루션 층은 CNN의 복수의 컨볼루션 층들 중 하나이다.

다양한 실시예들에서, 복수의 정제 블록들 각각에 대해, 정제 블록의 복수의 인코더 블록들 각각은 잔차 블록으로서 구성되고, 정제 블록의 복수의 디코더 블록들 각각은 잔차 블록으로서 구성된다.

다양한 실시예들에서, 출력 이미지는 정제된 특징 맵들의 세트에 기초하여 생성된다.

다양한 실시예들에서, 출력 이미지는 정제된 특징 맵들의 세트의 평균에 기초하여 생성된다.

다양한 실시예들에서, 위에서 언급된 입력 이미지를 수신하는 단계(102)는 복수의 입력 이미지들을 수신하는 단계를 포함하고, 복수의 입력 이미지들 각각은 훈련된 CNN을 획득하기 위해 CNN을 훈련하도록 라벨링된 이미지이다. 이와 관련하여, 복수의 입력 이미지들 각각에 대해: 복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하는 단계; 및 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하는 단계를 포함한다.

다양한 실시예들에서, 라벨 이미지는 조직 구조를 포함하는 라벨링된 초음파 이미지이다.

다양한 실시예들에서, 출력 이미지는 CNN을 사용하여 입력 이미지에 대한 추론의 결과이다.

다양한 실시예들에서, 입력 이미지는 조직 구조를 포함하는 초음파 이미지이다.

도 2는 본 발명의 다양한 예시적인 실시예들에 따라 CNN에 기초한 이미지 프로세싱을 위한 시스템(200)의 개략적인 블록도를 도시하며, 이 시스템(200)은 본 발명의 다양한 실시예들에 따라 도 1을 참조하여 앞서 설명된 바와 같은 이미지 프로세싱 방법(100)에 대응한다. 시스템(200)은 메모리(202); 및 메모리(202)에 통신 가능하게 커플링되고 본 발명의 다양한 예시적인 실시예들에 따라 본원에서 설명된 바와 같은 이미지 프로세싱의 방법(100)을 수행하도록 구성된 적어도 하나의 프로세서(204)를 포함한다. 따라서, 다양한 실시예들에서, 적어도 하나의 프로세서(204)는: 입력 이미지를 수신하고; 복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하고; 그리고 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하도록 구성된다. 특히, 앞서 설명된 바와 같이, 복수의 특징 추출 동작들 각각에 대해, 컨볼루션 층을 이용하여 특징 추출 동작을 수행하는 것은, 컨볼루션 층에 의해 수신된 입력 특징 맵 및 복수의 가중화된 좌표 맵들에 기초하여 컨볼루션 층의 출력 특징 맵을 생성하고; 복수의 좌표 맵들 및 공간 주의 맵에 기초하여 복수의 가중화된 좌표 맵들을 생성하고; 그리고 복수의 가중화된 좌표 맵들을 생성하기 위해 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 공간 주의 맵을 생성하는 것을 포함한다.

적어도 하나의 프로세서(204)가 다양한 기능들 또는 동작들을 수행하기 위해 적어도 하나의 프로세서(204)에 의해 실행 가능한 명령들의 세트(들)(예컨대, 소프트웨어 모듈들)를 통해 다양한 기능들 또는 동작들을 수행하도록 구성될 수 있다는 것이 당업자에 의해 인지될 것이다. 따라서, 도 2에 도시된 바와 같이, 시스템(200)은 입력 이미지를 수신하도록 구성된 입력 이미지 수신 모듈(또는 입력 이미지 수신 회로)(206); 복수의 출력 특징 맵들을 각각 생성하기 위해 입력 이미지에 기초하여 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하도록 구성된 특징 추출 모듈(또는 특징 추출 회로)(208); 및 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 입력 이미지에 대한 출력 이미지를 생성하도록 구성된 출력 이미지 생성 모듈(또는 출력 이미지 생성 회로)(210)을 포함할 수 있다.

위에서 언급된 모듈들은 반드시 별도의 모듈들일 필요는 없으며, 하나 이상의 모듈들은 본 발명의 범위로부터 벗어나지 않고 적절하게 또는 원하는 대로 하나의 기능 모듈(예컨대, 회로 또는 소프트웨어 프로그램)로서 구현되거나 실현될 수 있다는 것이 당업자에 의해 인지될 것이다. 예컨대, 입력 이미지 수신 모듈(206), 특징 추출 모듈(208) 및 출력 이미지 생성 모듈(210) 중 둘 이상이 하나의 실행 가능한 소프트웨어 프로그램(예컨대, 소프트웨어 애플리케이션 또는 간단히 "앱"으로서 지칭됨)으로 실현(예컨대, 함께 컴파일)될 수 있으며, 이 하나의 실행 가능한 소프트웨어 프로그램은 예컨대, 메모리(202)에 저장되고 본 발명의 다양한 실시예들에 따라 본원에서 설명된 바와 같은 다양한 기능들/동작들을 수행하기 위해 적어도 하나의 프로세서(204)에 의해 실행 가능해질 수 있다.

다양한 실시예들에서, 이미지 프로세싱을 위한 시스템(200)은 다양한 실시예들에 따라 도 1을 참조하여 앞서 설명된 바와 같은 이미지 프로세싱의 방법(100)에 대응할 수 있고, 이에 따라 적어도 하나의 프로세서(204)에 의해 수행되도록 구성된 다양한 기능들 또는 동작들은 다양한 실시예들에 따라 앞서 설명된 바와 같은 이미지 프로세싱의 방법(100)의 다양한 단계들 또는 동작들에 대응할 수 있고, 따라서 명확성 및 간결성을 위해 이미지 프로세싱을 위한 시스템(200)에 대해 반복될 필요가 없다. 즉, 방법들의 맥락에서 본원에서 설명된 다양한 실시예들은 대응하는 시스템에 대해 유사하게 유효하며, 그 반대도 마찬가지이다.

예컨대, 다양한 실시예들에서, 메모리(202)는, 본원에서 설명된 바와 같은 대응하는 기능들 또는 동작들을 수행하도록 적어도 하나의 프로세서(204)에 의해 실행 가능한, 다양한 실시예들에 따라 본원에서 설명된 바와 같은 이미지 프로세싱의 방법(100)의 다양한 단계들(또는 동작들 또는 기능들)에 각각 대응하는 입력 이미지 수신 모듈(206), 특징 추출 모듈(208) 및/또는 출력 이미지 생성 모듈(210)을 내부에 저장했을 수 있다.

다양한 실시예들에서, 본 발명의 다양한 실시예들에 따라, 적어도 하나의 프로세서를 이용하여 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법이 제공된다. 방법은 다양한 실시예들에 따라 앞서 설명된 바와 같이CNN에 기초한 이미지 프로세싱의 방법(100)을 수행하는 단계를 포함하고, 여기서, 입력 이미지는 조직 구조를 포함하는 초음파 이미지이고; 그리고 출력 이미지는 세그먼팅된 조직 구조를 갖고 CNN을 사용하여 입력 이미지에 대한 추론의 결과이다.

다양한 실시예들에서, CNN은 다양한 실시예들에 따라 앞서 설명된 바와 같이 훈련된다. 즉, CNN은 위에서 언급한 훈련된 CNN이다.

다양한 실시예들에 있어서, 위에서 언급된 다양한 실시예들에 따라 CNN을 사용하여 초음파 이미지에서 조직 구조를 세그먼팅하기 위한 시스템이 제공되며, 이 시스템은 다양한 실시예들에 따라 초음파 이미지에서 조직 구조를 세그먼팅할하는 위에서 언급된 방법에 대응하고, 시스템은: 메모리; 및 메모리와 통신 가능하게 커플링되고, 초음파 이미지에서 조직 구조를 세그먼팅하는 위에서 언급된 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함한다. 다양한 실시예들에서, 초음파 이미지에서 조직 구조를 세그먼팅하기 위한 시스템은 이미지 프로세싱을 위한 시스템(200)과 동일할 수 있으며, 여기서, 입력 이미지는 조직 구조를 포함하는 초음파 이미지이고; 그리고 출력 이미지는 세그먼팅된 조직 구조를 갖고 CNN을 사용하여 입력 이미지에 대한 추론의 결과이다.

컴퓨팅 시스템, 제어기, 마이크로제어기 또는 프로세싱 능력을 제공하는 임의의 다른 시스템이 본 개시내용의 다양한 실시예들에 따라 제공될 수 있다. 이러한 시스템은 하나 이상의 프로세서들 및 하나 이상의 컴퓨터 판독 가능 저장 매체들을 포함하는 것으로 간주될 수 있다. 예컨대, 앞서 설명된 이미지 프로세싱을 위한 시스템(200)은 예컨대, 본원에서 설명된 바와 같이 내부에서 수행되는 다양한 프로세싱에 사용되는 프로세서(또는 제어기)(204) 및 컴퓨터 판독 가능 저장 매체(또는 메모리)(202)를 포함할 수 있다. 다양한 실시예들에 사용되는 메모리 또는 컴퓨터-판독 가능 저장 매체는 휘발성 메모리 예컨대, DRAM(Dynamic Random Access Memory) 또는 비휘발성 메모리 예컨대, PROM(Programmable Read Only Memory), EPROM(Erasable PROM), EEPROM(Electrically Erasable PROM), 또는 플래시 메모리, 예컨대, 플로팅 게이트 메모리, 전하 트랩핑 메모리, MRAM(Magnetoresistive Random Access Memory) 또는 PCRAM(Phase Change Random Access Memory)일 수 있다.

다양한 실시예들에서, "회로"는 특수 목적 회로 또는 메모리에 저장된 소프트웨어를 실행하는 프로세서, 펌웨어 또는 이들의 임의의 조합일 수 있는 임의의 종류의 로직 구현 엔티티로서 이해될 수 있다. 따라서, 일 실시예에서, "회로"는 하드 와이어드 로직 회로 또는 프로그래밍 가능 로직 회로 이를테면, 프로그래밍 가능 프로세서, 예컨대, 마이크로프로세서(예컨대, CISC(Complex Instruction Set Computer) 프로세서 또는 RISC(Reduced Instruction Set Computer) 프로세서)일 수 있다. "회로"는 또한 소프트웨어, 예컨대, 임의의 종류의 컴퓨터 프로그램, 예컨대, Java와 같은 가상 기계 코드를 사용하는 컴퓨터 프로그램을 실행하는 프로세서일 수 있다. 개개의 기능들의 임의의 다른 어떤 종류의 구현이 또한 다양한 실시예들에 따른 "회로"로서 이해될 수 있다. 마찬가지로, "모듈"은 다양한 실시예들에 따른 시스템의 일부일 수 있고 위에서 설명된 바와 같은 "회로"를 포괄할 수 있거나, 또는 임의의 종류의 로직 구현 엔티티인 것으로 이해될 수 있다.

본 개시내용의 일부 부분들은 컴퓨터 메모리 내에서 데이터에 대한 동작들의 기능적 및 기호적 표현들 및 알고리즘들의 관점에서 명시적으로 또는 암시적으로 제시된다. 이들 알고리즘 설명들 및 기능적 또는 기호적 표현들은, 데이터 프로세싱 기술 분야의 당업자에 의해, 이들의 작업의 내용을 다른 당업자에게 가장 효과적으로 전달하기 위해 사용되는 수단이다. 여기서 그리고 일반적으로, 알고리즘은 원하는 결과에 이르는 단계들의 자기-완전성 시퀀스(self-consistent sequence)인 것으로 이해된다. 단계들은 저장, 전달, 조합, 비교 및 다른 방식으로 조작되는 것이 가능한 전기, 자기 또는 광학 신호들과 같은 물리량들의 물리적 조작들을 요구하는 단계들이다.

특별히 달리 언급되지 않는 한, 그리고 다음에서 명백한 바와 같이, 본 명세서 전반에 걸쳐, "수신하는", "수행하는", "생성하는", "곱하는", "결합하는", "추출하는" 등과 같은 용어들을 활용하는 설명 또는 논의들은, 컴퓨터 시스템 내에서 물리적 양들로서 표현되는 데이터를 컴퓨터 시스템 또는 다른 정보 저장, 송신 또는 디스플레이 디바이스들 내에서 물리적 양들로서 유사하게 표현되는 다른 데이터로 조작 및 변형하는, 컴퓨터 시스템 또는 유사한 전자 디바이스의 액션들 및 프로세스들을 지칭하는 것으로 인지될 것이다.

본 명세서는 또한 본원에서 설명된 다양한 방법들의 다양한 동작들/기능들을 수행하기 위한 시스템(예컨대, 이는 또한 디바이스 또는 장치로서 구현될 수 있음) 이를테면, 이미지 프로세싱을 위한 시스템(200)을 개시한다. 이러한 시스템은 요구되는 목적을 위해 특별히 구성될 수 있거나, 또는 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터 또는 다른 디바이스를 포함할 수 있다. 본원에서 제시된 알고리즘들은 본질적으로 임의의 특정 컴퓨터 또는 다른 장치와 관련되지 않는다. 다양한 범용 기계들이 본원에서의 교시내용들에 따라 컴퓨터 프로그램과 함께 사용될 수 있다. 대안적으로, 다양한 방법 단계들을 수행하기 위한 보다 전문화된 장치의 구성이 적절할 수 있다.

게다가, 본 명세서는 또한 본원에서 설명된 다양한 방법들의 개별 단계들이 컴퓨터 코드에 의해 실행될 수 있다는 것이 당업자에게 명백할 것이라는 점에서 컴퓨터 프로그램 또는 소프트웨어/기능 모듈을 적어도 암시적으로 개시한다. 컴퓨터 프로그램은 임의의 특정 프로그래밍 언어 및 그의 구현으로 제한되는 것으로 의도되지 않는다. 다양한 프로그래밍 언어들 및 그의 코딩이 본원에 포함된 본 개시내용의 교시내용들을 구현하기 위해 사용될 수 있다는 것이 인지될 것이다. 더욱이, 컴퓨터 프로그램은 임의의 특정 제어 흐름으로 제한되는 것으로 의도되지 않는다. 본 발명의 범위를 벗어나지 않고 상이한 제어 흐름들을 사용할 수 있는 컴퓨터 프로그램의 다수의 다른 변형들이 있다. 본원에서 설명된 다양한 모듈들(예컨대, 입력 이미지 수신 모듈(206), 특징 추출 모듈(208) 및/또는 출력 이미지 생성 모듈(210))은 요구된 기능들을 수행하기 위해 컴퓨터 프로세서에 의해 실행 가능한 명령들의 세트(들) 또는 컴퓨터 프로그램(들)에 의해 실현되는 소프트웨어 모듈(들)일 수도 있거나, 요구된 기능들을 수행하도록 설계된 기능적 하드웨어 유닛(들)인 하드웨어 모듈(들)일 수 있는 것이 당업자에 의해 인지될 것이다. 하드웨어 및 소프트웨어 모듈들의 조합이 구현될 수 있다는 것이 또한 인지될 것이다.

또한, 본원에서 설명된 컴퓨터 프로그램/모듈 또는 방법의 단계들 중 하나 이상은 순차적이기 보다는, 병렬로 수행될 수 있다. 이러한 컴퓨터 프로그램은 임의의 컴퓨터 판독 가능 매체에 저장될 수 있다. 컴퓨터 판독 가능 매체는 자기 또는 광학 디스크들, 메모리 칩들, 또는 범용 컴퓨터와의 인터페이싱에 적합한 다른 저장 디바이스들과 같은 저장 디바이스들을 포함할 수 있다. 컴퓨터 프로그램은 이러한 범용 컴퓨터 상에 로딩 및 실행될 때 본원에서 설명된 방법들의 단계들을 구현하는 장치를 효과적으로 발생시킨다.

다양한 실시예들에서, 하나 이상의 컴퓨터 판독 가능 저장 매체들(비일시적 컴퓨터 판독 가능 저장 매체(들))에 구현된 컴퓨터 프로그램 제품이 제공되며, 이는 다양한 실시예들에 따라 도 1을 참조하여 본원에서 설명된 바와 같이, 이미지 프로세싱의 방법(100)을 수행하기 위해 하나 이상의 컴퓨터 프로세서들에 의해 실행 가능한 명령들(예컨대, 입력 이미지 수신 모듈(206), 특징 추출 모듈(208) 및/또는 출력 이미지 생성 모듈(210))을 포함한다. 따라서, 본원에서 설명된 다양한 컴퓨터 프로그램들 또는 모듈들은 다양한 기능들을 수행하도록 시스템(200)의 적어도 하나의 프로세서(204)에 의한 실행을 위해 도 2에 도시된 바와 같은 이미지 프로세싱을 위한 시스템(200)과 같은 시스템에 의해 내부에 수용 가능한 컴퓨터 프로그램 제품에 저장될 수 있다.

다양한 실시예들에서, 하나 이상의 컴퓨터 판독 가능 저장 매체(비일시적 컴퓨터 판독 가능 저장 매체(들))에 구현된 컴퓨터 프로그램 제품이 제공되며, 이는 다양한 실시예들에 따라 초음파 이미지에서 조직 구조를 세그먼팅하는 위에서 언급된 방법을 수행하기 위해 하나 이상의 컴퓨터 프로세서들에 의해 실행 가능한 명령들을 포함한다. 따라서, 본원에서 설명된 다양한 컴퓨터 프로그램들 또는 모듈들은 다양한 기능들을 수행하기 위해 시스템의 적어도 하나의 프로세서에 의한 실행을 위해 초음파 이미지에서 조직 구조를 세그먼팅하기 위한 위에서 언급된 시스템과 같은 시스템에 의해 내부에 수용 가능한 컴퓨터 프로그램 제품에 저장될 수 있다.

본원에서 설명된 소프트웨어 또는 기능 모듈들은 또한 하드웨어 모듈들로서 구현될 수 있다. 보다 구체적으로, 하드웨어 의미에서, 모듈은 다른 구성요소들 또는 모듈과 함께 사용하도록 설계된 기능적 하드웨어 유닛이다. 예컨대, 모듈은 개별 전자 구성요소들을 사용하여 구현될 수도 있거나, ASIC(application specific integrated circuit)와 같은 전체 전자 회로의 일부를 형성할 수 있다. 수많은 다른 가능성들이 존재한다. 당업자들은 본원에서 설명된 소프트웨어 또는 기능 모듈(들)이 하드웨어 및 소프트웨어 모듈들의 조합으로서 또한 구현될 수도 있다는 것을 인지할 것이다.

다양한 실시예들에서, 이미지 프로세싱을 위한 시스템(200)은 제한이 아니라 단지 예로서 도 3에 개략적으로 도시된 컴퓨터 시스템(300)과 같이 적어도 하나의 프로세서 및 메모리를 포함하는 임의의 컴퓨터 시스템(예컨대, 데스크톱 또는 휴대용 컴퓨터 시스템)에 의해 실현될 수 있다. 다양한 방법들/단계들 또는 기능 모듈들은 컴퓨터 시스템(300) 내에서 실행되고, 다양한 실시예들에 따라 본원에서 설명된 바와 같은 다양한 기능들 또는 동작들을 수행하도록 컴퓨터 시스템(300)(특히 내부의 하나 이상의 프로세서들)에 지시하는 컴퓨터 프로그램과 같은 소프트웨어로서 구현될 수 있다 컴퓨터 시스템(300)은 컴퓨터 모듈(302), 입력 모듈들 이를테면, 키보드 및/또는 터치스크린들(304) 및 마우스(306), 및 복수의 출력 디바이스들 이를테면, 디스플레이(308) 및 프린터(310)를 포함할 수 있다. 컴퓨터 모듈(302)은 적합한 트랜시버 디바이스(314)를 통해 컴퓨터 네트워크(312)에 연결되어 인터넷 또는 다른 네트워크 시스템들 이를테면, LAN(Local Area Network) 또는 WAN(Wide Area Network)에 대한 액세스를 가능하게 할 수 있다. 본 예의 컴퓨터 모듈(302)은 다양한 명령들을 실행하기 위한 프로세서(318), RAM(Random Access Memory)(320) 및 ROM(Read Only Memory)(322)을 포함할 수 있다. 컴퓨터 모듈(302)은 또한 다수의 입력/출력(I/O) 인터페이스, 예컨대, 디스플레이(308)에 대한 I/O 인터페이스(324) 및 키보드(304)에 대한 I/O 인터페이스(326)를 포함할 수 있다. 컴퓨터 모듈(302)의 구성요소들은 전형적으로 상호연결된 버스(328)를 통해 그리고 관련 기술 분야의 당업자에게 알려진 방식으로 통신한다.

본원에서 사용된 용어는 단지 다양한 실시예들을 설명하기 위해서만 사용되며, 본 발명을 제한하는 것으로 의도되지 않는다는 것이 당업자에 의해 인지될 것이다. 본원에서 사용되는 바와 같이, 맥락이 명확하게 달리 표시하지 않으면, 단수 형태들은 복수 형태들을 또한 포함하는 것으로 의도된다. 추가로, "포함하는" 및/또는 "포함하다"라는 용어들이 본 명세서에서 사용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 구성요소들의 존재를 특정하지만, 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 요소들, 구성요소들, 및/또는 이들의 그룹들의 존재 또는 부가를 배제하지 않는다는 것이 이해될 것이다.

본원에서 "제1", "제2" 등과 같은 지정을 사용하는 요소 또는 특징에 대한 임의의 참조는 언급되거나 맥락이 그렇지 않은 경우를 요구하지 않는 한, 그러한 요소들 또는 특징들의 수량 또는 순서를 제한하지 않는다. 예컨대, 이러한 지정들은 둘 이상의 요소들 또는 요소의 인스턴스(instance)들 간을 구별하는 편리한 방식으로서 본원에서 사용될 수 있다. 따라서, 제1 및 제2 요소들에 대한 참조는, 2개의 요소들만이 이용될 수 있거나 제1 요소가 제2 요소에 선행해야 한다는 것을 반드시 의미하는 것은 아니다. 또한, 항목들의 목록 중 '적어도 하나'를 지칭하는 문구는 내부의 임의의 단일 항목 또는 내부의 둘 이상의 항목들의 임의의 조합을 지칭한다.

본 발명이 용이하게 이해되고 실제적인 효과를 발휘할 수 있도록, 이하에서는 본 발명의 다양한 예시적인 실시예들이 제한이 아니라 단지 예들로만 설명될 것이다. 그러나 본 발명은 다양한 상이한 형태들 또는 구성들로 구현될 수 있으며, 이하에서 기술되는 예시적인 실시예들로 제한되지 않는다는 것이 당업자에 의해 인지될 것이다. 오히려, 이들 예시적인 실시예들이 제공되어서, 본 개시내용은 철저하고 완전해질 것이고 본 발명의 범위를 당업자들에게 완전히 전달할 것이다.

특히, 본 발명의 더 나은 이해를 위해, 그리고 일반성의 제한 또는 손실 없이, 이제 본 발명의 다양한 예시적인 실시예들이 초음파 이미지인 입력 이미지 및 초음파 이미지 세그먼테이션에 대한 것인 이미지 프로세싱, 즉 초음파 이미지에서 조직 구조를 세그먼팅하기 위해 CNN에 기초한 이미지 프로세싱의 방법에 대해 설명될 것이다. 이러한 특정 애플리케이션(즉, 초음파 이미지 세그먼테이션)이 다양한 예시적인 실시예들에 따라 바람직할 수 있지만, 본 발명이 이러한 특정 애플리케이션으로 제한되지 않고, 이미지 프로세싱의 방법은 이미지 분류와 같은(그러나 이에 제한되지 않음) 다른 유형들의 애플리케이션들에서(예컨대, 입력 이미지가 비교적 노이즈가 많고 그리고/또는 관심있는 구조가 일반적으로 입력 이미지에서 유사한 포지션 및/또는 형상을 갖는 애플리케이션들에 대해) 원하는 대로 또는 적절하게 구현될 수 있다는 것이 당업자에 의해 인지될 것이다.

초음파 이미지 세그먼테이션은 감쇠, 쉐도잉(shadowing), 반점 노이즈, 스페클 노이즈, 불균일 텍스처들 및 흐릿한 경계들과 같이 양식들에 상속되는 아티팩트들의 존재로 인해 어려운 작업이다. 이와 관련하여, 다양한 예시적인 실시예들은 초음파 이미지들에서 연조직 구조들의 세그먼테이션을 위한 예측-정제 주의 네트워크(predict-refine attention network)(이는 CNN임)를 제공하며, 이는 본원에서 ACU²E-Net 또는 간단히 본 CNN 또는 모델로서 지칭될 수 있다. 예측-정제 주의 네트워크는 주의적 좌표 컨볼루션(AC-Conv)을 포함하는 예측 모듈 또는 블록(예컨대, 다양한 실시예들에 따라 앞서 설명된 바와 같은 예측 서브-네트워크에 대응하고 본원에서 ACU²-Net으로서 지칭될 수 있음); 및 복수(예컨대, 3개)의 병렬 잔차 정제 모듈들 또는 블록들(예컨대, 다양한 실시예들에 따라 앞서 설명된 바와 같은 복수의 정제 블록들에 대응함)을 포함하는 다중-헤드 잔차 정제 모듈 또는 블록(예컨대, 다양한 실시예들에 따라 앞서 설명된 바와 같은 정제 서브-네트워크에 대응하고, 본원에서 MH-RRM 또는 E-모듈로서 지칭될 수 있음)를 포함한다. 다양한 예시적인 실시예들에서, AC-Conv는 타겟 해부체의 형상 및 포지션 정보를 지각함으로써 세그먼테이션 정확도를 개선하도록 구성되거나 설계된다. 잔차 정제와 앙상블 전략들을 통합함으로써, MH-RRM은 유리하게는, 세그먼테이션 편향들 및 분산들 둘 모두를 감소시키고 앙상블 방법들에서 흔히 보여지는 다중 통과 훈련 및 추론을 회피하는 것으로 밝혀졌다. 다양한 예시적인 실시예들에 따른 초음파 이미지에서의 조직 구조의 세그먼테이션을 위한 본 CNN에 기초한 이미지 프로세싱 방법의 유효성을 입증하기 위해, 갑상선 초음파 스캔들의 데이터세트가 수집되었고 본 CNN은 최첨단 세그먼테이션 방법들에 대해 평가되었다. 최첨단 모델들에 대한 비교들은 횡단 및 시상 갑상선 이미지들 둘 모두에 대한 경쟁력이 있거나 개선된 본 CNN의 성능을 입증한다. 예컨대, 어블레이션 연구들은, AC-Conv 및 MH-RRM 모듈들이 베이스라인 모델의 세그먼테이션 다이스 점수(segmentation Dice score)를 79.62%로부터 80.97% 및 83.92%로 개선하면서, 분산을 6.12%로부터 4.67% 및 3.21%로 감소시킨다는 것을 보여준다.

배경에서 설명된 바와 같이, 초음파 이미지들은 핸드헬드 프로브로부터 획득될 수 있고, 이에 따라 오퍼레이터 의존적이며 심한 스페클 노이즈, 쉐도잉 및 흐릿한 경계들과 같은 매우 다수의 아티팩트들에 취약하다. 이는 이웃 조직들로부터 관심 있는 조직 구조들(예컨대, 해부학적 구조들)의 세그먼테이션의 어려움을 증가시킨다. 다수의 종래의 방법들(예컨대, 활성 윤곽선들, 그래프 컷, 슈퍼 픽셀 및 심층 모델들(예컨대, FCN(fully convolutional network), U-Net 등))이 초음파 이미지 세그먼테이션을 위해 제안되고 적응되었다. 그러나 초음파 이미지들의 노이즈 성질로 인해, 이러한 종래 방법들은 일반적으로 열악한 결과들을 생성한다. 심층 모델들은 종래의 방법들에 비해 뛰어난 개선들을 달성하였지만, 초음파 이미지들로부터 연조직 구조들의 정확한 세그먼테이션은 난제인 작업으로 남아있다.

초음파 이미지 세그먼테이션과 관련하여, 다양한 예시적인 실시예들은, 자연(natural) 이미지 세그먼테이션에서 상이한 형상들 및 포지션들로 이루어진 일반 오브젝트들과 달리, 초음파 이미지들 내 조직 구조들(예컨대, 해부학적 구조들)은 유사한 포지션 및 형상 패턴들을 갖는다는 것에 주의한다. 그러나 이러한 기하학적 특징들은 표현 및 인코딩이 어렵기 때문에 세그먼테이션 심층 모델들에서는 거의 사용되지 않는다. 따라서 일반적으로 초음파 이미지들에서 연조직 구조들의 특정 기하학적 제약들을 어떻게 활용하는지는 여전히 난제로 남아 있다. 단일 심층 모델들을 사용한 초음파 이미지들의 세그먼테이션과 연관된 다른 문제는 이들이 일반적으로 흐릿한 경계들 및 텍스처들로 인한 높은 편향들, 및 노이즈 및 불균질성으로 한 높은 분산을 갖는 결과들을 생성한다는 것이다.

따라서, 이러한 난제들을 극복하기 위해, 다양한 예시적인 실시예들은 위에서 언급된 AC-Conv 및 다중 헤드 잔차 정제 모듈(MH-RRM) 상에 구축된 예측 모듈을 포함하는, 위에서 언급된 주의 기반 예측-정제 아키텍처(즉, 본 CNN)를 제공한다. 이러한 주의 기반 예측-정제 아키텍처는 다중 패스 훈련 및 추론을 회피하면서, 세그먼테이션 결과들의 편향들 및 분산들을 감소시키기 위해 초음파 이미지들에 제시된 해부학적 포지션 및 형상 제약들을 유리하게 활용한다. 따라서 본 CNN의 기여들은, (a) 초음파 이미지들로부터 기하학적(예컨대, 형상 및 포지션 둘 모두) 정보를 지각함으로써 세그먼테이션 정확도를 개선하도록 구성된 AC-Conv; 및/또는 (b) 앙상블 전략 및 예측-정제 전략 둘 모두를 함께 통합함으로써 세그먼테이션 정확도를 개선하는 MH-RRM을 사용한 예측-정제 아키텍처를 포함한다. 아래에서 추후에 설명될 바와 같이, 다양한 예시적인 실시예들에 따라 초음파 이미지 세그먼테이션을 위해 본 CNN에 기초한 이미지 프로세싱의 방법은 갑상선 초음파 스캔들의 데이터세트 상에서 테스트되었으며 종래 모델들에 비해 개선된 성능(예컨대, 정확도)을 달성하였다.

CNN 아키텍처

도 4a 및 도 4b는 본 발명의 다양한 예시적인 실시예들에 따라 예시적인 CNN(400)의 예시적인 네트워크 아키텍처를 함께 도시한다. 또한 앞서 설명된 바와 같이, 예시적인 CNN(400)은 예측 모듈 또는 블록(ACU²-Net)(410)(도 4a) 및 MH-RRM(450)(도 4b)을 포함한다. 다양한 실시예들에서, 예측 모듈(410)은 주의적 좌표 안내 U²-Net(이는 ACU²-Net으로서 지칭될 수 있음)을 형성하도록 다양한 예시적인 실시예들에 따라 본원에서 설명된 AC-Conv 층으로 U²-Net 내 각각의 평이한 컨볼루션 층을 대체함으로써 Qin 등의 "U²-Net: Going Deeper with nested U-structure for salient object detection, Pattern Recognition, 106: 107404, 2020"(이는 본원에서 모든 Qin 인용문헌으로서 지칭되며, 그리하여 그 내용은 전체가 모든 목적을 위해 인용에 의해 통합됨)에 개시된 U²-Net에 기초하여 구성될 수 있다. 다양한 예시적인 실시예들에서, 정제 모듈(450)은 (예컨대, 상이한 공간 해상도 레벨들을 갖는 정제된 특징 맵들을 생성하기 위해) 예측 모듈(ACU²-Net)의 병렬 배열 변형들의 세트를 포함한다. 예로서, 도 4b에 도시된 바와 같이, 정제 모듈(450)은 각각 ACU²-Net-Ref7, ACU²-Net-Ref5 및 ACU²-Net-Ref3로서 도 4b에서 도시되고 병렬로 배열되는 3개의 정제 헤드 또는 블록들(454-1, 454-2, 454-3)(상이한 공간 해상도 레벨들을 갖는 정제된 특징 맵을 생성하기 위한 3개의 ACU²-Net 변형들임)을 갖도록 구성될 수 있다(예컨대, "E" 문자처럼 보이고, 이에 따라 정제 모듈(450)의 이러한 예시적인 구성은 본원에서 E-모듈로서 또한 지칭될 수 있음). 도 4a에 도시된 범례에서, AC-CBR이라는 용어는 AC-Conv+BacthNorm+ReLU를 나타낸다.

단지 예시를 위한 예로서만 그리고 제한 없이, 도 5는 다양한 예시적인 실시예들에 따른 예시적인 CNN(400)의 예측 모듈(410) 및 정제 모듈(450)의 예시적인 상세한 구성들을 예시하는 표(표 1)를 도시한다. 표 1의 빈 셀들은 그러한 스테이지들이 없음을 표시한다. 또한 "I", "M" 및 "O"는 각각의 AC-RSU 블록들(주의적 좌표 안내 잔차 U-블록)의 입력 채널들의 수(C_in), 중간 채널들 및 출력 채널들의 수(C_out)를 표시한다. "En_i"와 "De_J"는 각각 인코더와 디코더 스테이지들을 나타낸다. "AC-RSU-L"의 숫자 "L"는 AC-RSU 블록의 높이를 나타낸다. 당업자는 본 발명이 도 5에 도시된 예시적인 상세한 구성들(또는 파라미터들)을 갖는 CNN으로 제한되지 않는다는 것을 인지할 수 있을 것이며, 이는 단지 예시 목적을 위한 예로서만 그리고 제한 없이 제공된다. CNN의 파라미터들은 ACU²-Net의 인코더-디코더 구조의 원하는 높이, 생성된 예측된 특징 맵들의 원하는 상이한 공간 해상도 레벨들(및/또는 상이한 공간 해상도 레벨들의 원하는 수), 생성된 정제된 특징 맵들의 원하는 상이한 공간 해상도 레벨들(및/또는 상이한 공간 해상도 레벨들의 원하는 수), 인코더 또는 디코더 블록 내 층들의 원하는 수, 인코더 또는 디코더 블록 내 채널들의 원하는 수 등과 같은(그러나 이에 제한되지 않음) 다양한 목적을 위해 원하는 대로 또는 적절하게 변동되거나 수정될 수 있다는 것이 당업자에 의해 인지될 수 있을 것이다.

Qin 인용문헌은 SOD(salient object detection)을 위한 심층 네트워크 아키텍처(U²-Net로서 지칭됨)를 개시한다. U²-Net의 네트워크 아키텍처는 2-레벨 중첩 U-구조이다. 네트워크 아키텍처는 다음의 이점을 갖는다: (1) 잔차 U-블록들(간단히 RSU들로서 지칭될 수 있는 RSU 블록들) 내 상이한 크기들의 수용 필드들의 혼합으로 인해 상이한 스케일들로부터의 더 많은 맥락 정보를 캡처할 수 있고 (2) 이러한 RSU 블록들에 사용되는 풀링 동작들로 인해 컴퓨테이션 비용을 크게 증가시키지 않으면서 전체 아키텍처의 깊이를 증가시킨다. 이러한 네트워크 아키텍처는 이미지 분류 작업들로부터의 백본들을 이용하지 않고도 맨 처음부터 심층 네트워크의 훈련을 가능하게 한다. 특히, U²-Net은 이미지 분류로부터 어떠한 사전 훈련된 백본들을 사용하지 않고 SOD를 위해 설계된 2-레벨 중첩 U-구조이다. 이는 경쟁력 있는 성과를 달성하기 위해 맨 처음부터 훈련될 수 있다. 또한 네트워크 아키텍처는 메모리 및 컴퓨테이션 비용을 크게 증가시키지 않고도 네트워크를 보다 심층적이 되게 하여 고해상도를 달성한다. 이는 중첩된 U-구조에 의해 달성되며, 이에 따라 하단 레벨에서, 특징 맵 해상도를 저하시키지 않고 인트라-스테이지 다중 스케일 특징들을 추출할 수 있는 RSU 블록이 구성되고; 상단 레벨에서, 각각의 스테이지가 RSU 블록에 의해 채워지는 U-Net 유사 구조(인코더-디코더 구조)가 있다. 2-레벨 구성은 도 4a에 도시된 바와 같이 다양한 예시적인 실시예들에 따른 중첩된 U-구조, 및 중첩된 U-구조(인코더-디코더 구조)의 예를 초래하며, 그에 따라 U²-Net 내 각각의 평이한 컨볼루션 층은 다양한 예시적인 실시예들에 따라 본원에서 설명된 AC-Conv 층으로 대체되어 ACU²-Net(410)을 형성한다.

요약하면, 다중 레벨 심층 특징 통합 방법들은 더 나은 다중 레벨 특징 애그리게이션 전략들을 개발하는데 보다 초점을 맞춘다. 반면, 다중 스케일 특징 추출의 범주의 방법들은 백본 네트워크들에 의해 획득된 특징들로부터 로컬 및 글로벌 정보를 둘 모두 추출하기 위한 새로운 모듈을 설계하는 것을 목표로 한다. 이에 대해 U²-Net 또는 ACU²-Net(410)의 네트워크 아키텍처는 스테이지별로 다중스케일 특징들을 직접 추출하도록 구성된다.

RSU(Residual U-block)/AC-RSU(Attentive Coordinate-Guided Residual U-Block)

로컬 및 글로벌 맥락 정보 둘 모두는 주목 오브젝트 검출 및 다른 세그먼테이션 작업들에 대해 중요하다. VGG, ResNet, DenseNet 등과 같은 현대의 CNN 설계들에서, 1 x 1 또는 3 x 3 크기를 갖는 작은 컨벌루션 필터들이 특징 추출을 위해 가장 자주 사용되는 구성요소들이다. 이들은 더 적은 저장 공간을 요구하고 컴퓨테이션적으로 효율적이기 때문에 선호된다. 예컨대, 얕은 층들의 출력 피처 맵들은 로컬 피처들만을 포함하는데 그 이유는 1 x 1 또는 3 x 3 필터들의 수용 필드는 글로벌 정보를 캡처하기에는 너무 작기 때문이다. 얕은 층들로부터의 고해상도 특징 맵들에서 더 많은 글로벌 정보를 달성하기 위해, 가장 직접적인 아이디어는 수용 필드를 확대하는 것이다. 그러나 오리지널 해상도를 갖는 입력 특징 맵(특히 초기 스테이지) 상에서 다수의 확장 컨볼루션(dilated convolution)들을 수행하는 것은 너무 많은 컴퓨테이션들 및 메모리 자원들을 요구한다. 컴퓨테이션 비용들을 감소시키기기 위해, 오리지널 크기 특징 맵들 상의 확장 컨볼루션들이 아닌 다운샘플링된 특징 맵들 상의 작은 커널 필터들을 사용하는 PPM(pyramid pooling module)들로부터 병렬 구성이 적응될 수 있다. 그러나 직접 업샘플링 및 결합(또는 추가)에 의한 상이한 스케일 특징들의 융합은 고해상도 특징들의 저하로 이어질 수 있다.

따라서, Qin 인용문헌에서 설명된 바와 같이, 인트라 스테이지 다중 스케일 특징들을 캡처하기 위해 RSU 블록이 제공된다. 단지 예로서만 그리고 제한 없이, RSU-L(C_in, M, C_out) 블록(600)의 예시적인 구조가 도 6에 도시되며, 여기서 L은 인코더 내 층들의 수이고, C_in, C_out은 입력 및 출력 채널들을 나타내고, M은 RSU 블록(600)의 내부 층들 내 채널들의 수를 나타낸다. RSU-L 블록(600)은 도 6에 도시된 바와 같은 특정 치수들(예컨대, 층들의 수(L))로 제한되지 않으며, 이는 단지 예일 뿐이고 제한되지 않는 제한되지 않는다는 것이 당업자에 의해 인지될 것이다. 따라서, RSU 블록(600)은 3개의 구성요소들을 포함한다:

(i) 입력 특징 맵 를 C_out의 채널을 갖는 중간 맵 로 변환하는 입력 컨볼루션 층. 이는 로컬 특징 추출을 위한 평이한 컨볼루션 층이다;

(ii) 입력으로서 중간 특징 맵 를 취하고 다중 스케일 맥락 정보 를 추출 및 인코딩 인코딩하는, L의 높이를 갖는 U-Net 유사 대칭 인코더-디코더 구조. 는 도 6에 도시된 바와 같은 U-Net 유사 구조를 표현한다. 더 큰 L은 보다 심층적인 RSU(residual U-block), 더 많은 풀링 동작들, 더 큰 범위의 수용 필드들 및 더 풍부한 로컬 및 글로벌 특징들로 이어진다. 이 파라미터를 구성하는 것은 임의적 공간 해상도들을 사용하여 입력 특징 맵들로부터 다중 스케일 특징들의 추출을 가능하게 한다. 다중 스케일 특징들은 점진적으로 다운샘플링된 특징 맵들로부터 추출되고 진보적인 업샘플링, 결합 및 컨볼루션에 의해 고해상도 특징 맵들로 인코딩된다. 이 프로세스는 큰 스케일을 갖는 직접 업샘플링에 의해 야기되는 미세 세부사항들의 손실을 완화한다.

(iii) 합산: 에 의해 로컬 특징들 및 다중 스케일 특징들을 융합하는 잔차 연결.

더 나은 이해를 위해, 도 7a 및 도 7b는 비교를 위해 오리지널 잔차 블록(700)(도 7a) 및 RSU(residual U-block)(720)(도 7b)의 개략도들을 도시한다. 오리지널 잔차 블록(700) 내 연산은 로서 요약될 수 있으며, 여기서 는 입력 특징들 x의 원하는 매핑을 나타내고; 는 설정에서 컨볼루션 동작들인 가중치 층들을 나타낸다. RSU 블록(720)과 오리지널 잔차 블록(700) 사이의 주요 설계 차이는 RSU 블록(720)이 평이한 단일 스트림 컨볼루션을 U-Net 유사 구조(600)로 대체하고 오리지널 특징을 가중치 층에 의해 변환된 로컬 특징: 으로 대체한다는 것이며, 여기서 는 도 6에 예시된 것과 같은 다층 U-구조(600)를 표현한다. RSU 블록(720)과 오리지널 잔차 블록(700) 사이의 이러한 차이는 네트워크가 각각의 RSU 블록으로부터 직접 다수의 스케일들로부터의 특징들을 추출하도록 허용한다. 또한, 대부분의 동작들이 다운샘플링된 특징 맵들 상에 적용되기 때문에, U-구조로 인한 컴퓨테이션 오버헤드가 작다.

다양한 실시예들에서, AC-RSU 블록은 위에서 설명된 RSU 블록(720)에 기초하여(예컨대, 그와 동일하거나 또는 유사하게) 형성될 수 있으며(임의의 특정 치수들에 제한되지 않는데 이를테면, 층들의 수(L)는 원하는 대로 또는 적절하게 변동되거나 수정될 수 있음), 그에 따라 RSU 블록(720) 내 각각의 평이한 컨볼루션 층은 다양한 예시적인 실시예들에 따라 본원에서 설명된 바와 같이 AC-Conv 층으로 대체된다.

ACU ² -Net의 아키텍처

다양한 예시적인 실시예들에 따르면, 다수의 U-Net-유사 구조들이 중첩 방식으로 스택되는 ACUⁿ-Net가 개시된다. 특히, 지수 표기는 캐스캐이딩된 스태킹이 아닌 중첩된 U-구조를 지칭한다. 이론적으로 지수 n은 단일 레벨 또는 다중 레벨 중첩 U-구조를 달성하기 위해 임의적 양의 정수로 세팅될 수 있다. 그러나 너무 많은 중첩 레벨들을 가진 아키텍처들은 실제 애플리케이션들에서 구현하고 사용되기에는 너무 복잡하다. 예컨대, n을 2로 세팅하여 ACU²-Net을 형성할 수 있다. ACU²-Net은 2-레벨 중첩 U-구조를 갖고, 도 4a는 다양한 예시적인 실시예들에 따라 예측 모듈(410)을 형성하는 예시적인 ACU²-Net의 개략적인 블록도를 도시한다. 상단 레벨은 복수의 스테이지들(도 4a의 복수의 큐브들), 예컨대, 그리고 제한 없이 14개의 스테이지들을 포함하는 U-구조이다. 각각의 스테이지들은 구성된 AC-RSU 블록(하단 레벨 U-구조)에 의해 채워진다. 따라서 중첩된 U-구조는 보다 효율적인 인트라 스테이지 다중 스케일 특징들의 추출 및 인터 스테이지 다중 레벨 특징들의 애그리게이션을 가능하게 한다.

도 4a에 예시된 바와 같이, 예측 모듈(ACU²-Net)(410)은 인코더 블록들(420) 세트 및 디코더 블록들(430)의 세트를 포함하는 인코더-디코더 구조를 갖는다. 단지 예로서만 그리고 제한 없이, 예측 모듈(410)은 3개의 부분들: (1) 다중 스테이지(예컨대, 7-스테이지) 인코더 구조(420); (2) 다중 스테이지(예컨대, 7-스테이지) 디코더 구조(430); 및 (3) 디코더 스테이지들(430)에 커플링되거나 부착된 특징 맵 융합 모듈 또는 블록(440)을 포함한다.

인코더 스테이지들(420)에 대해, 인코더 블록들의 세트(420)의 예시적인 구성들이 도 5의 표 1에 도시된다. 디코더 스테이지(430)에 대해, 디코더 블록들의 세트(430)의 예시적인 구성들이 또한 도 5의 표 1에 도시된다. 앞서 언급된 바와 같이, "7", "6", "5" 및 "4"는 AC-RSU 블록들의 높이들(Z)을 나타낸다. 예컨대, L은 입력 특징 맵들의 공간 해상도에 따라 구성될 수 있다. 더 큰 높이 및 폭을 갖는 특징 맵들에 대해, 더 큰 L은 더 큰 스케일 정보를 캡처하는 데 사용될 수 있다. 예컨대, En_6 및 En_7의 특징 맵들의 해상도는 비교적 낮으며 이러한 특징 맵들의 추가 다운샘플링은 유용한 맥락의 손실로 이어진다. 따라서 En_6 및 En_7 둘 모두의 스테이지들에서, AC-RSU-4F가 사용되며, 여기서 "F"는 AC-RSU 블록이 예컨대, 풀링 및 업샘플링 동작들이 확장 컨볼루션들로 대체되는 확장 버전임을 나타낸다. 이 경우에, AC-RSU-4F의 모든 중간 특징 맵들은 그의 입력 특징 맵들과 동일한 해상도를 갖는다.

디코더 스테이지(430)에 대해, 디코더 블록들(AC-RSU)의 세트의 예시적인 구성들이 또한 도 5의 표 1에 도시된다. 다양한 예시적인 실시예들에서, 디코더 스테이지들(430)은 그의 대칭적 또는 대응하는 인코더 스테이지들(420)과 유사하거나 대응하는 구조들을 가질 수 있다. 예컨대, 확장 버전 AC-RSU-4F는 또한 디코더 블록들 De_6 및 De_7에 대해 사용되며, 이는 대칭적 또는 대응하는 인코더 블록들 En_6 및 En_7에 대해 사용되는 것과 유사하거나 대응한다. 도 4a에 도시된 바와 같이, 각각의 디코더 스테이지는 입력들로서 그의 바로 이전 스테이지로부터의 업샘플링된 특징 맵 및 그의 대칭적 또는 대응하는 인코더 스테이지로부터의 다운샘플링된 특징 맵의 결합을 취하도록 구성될 수 있다.

다양한 예시적인 실시예들에서, 예측 모듈(410)은 디코더 스테이지들(430)에 의해 생성된 업샘플링된 특징 맵들에 기초하여 복수의 예측된 특징 맵들을 생성하도록 구성될 수 있다. 단지 예로서만 그리고 제한 없이, 도 4a에 도시된 예시적인 구성에서, 각각 디코더 스테이지들 로부터의 7개의 예측된 특징 맵(예컨대, 사이드 출력 주목도 확률 맵(side output saliency probability map))들 는 3 X 3 컨볼루션 층 및 시그모이드 함수에 기초하여 생성될 수 있다. 그 후, 예측 모듈(410)은 사이드 출력 주목도 맵들의 로짓(logit)들(시그모이드 함수들 이전의 컨볼루션 출력들)을 입력 이미지 크기로 업샘플링하고 이를 결합 연산 및 이어지는 1 x 1 컨볼루션 층 및 시그모이드 함수로 융합하여 융합된 특징 맵(예컨대, 최종 주목도 확률 맵) (444)를 생성한다.

따라서 ACU²-Net의 구성은 풍부한 다중 스케일 특징들 및 비교적 낮은 컴퓨테이션 및 메모리 비용들로 심층 아키텍처를 갖도록 허용한다. 또한, 다양한 예시적인 실시예들에서, ACU²-Net 아키텍처는 이미지 분류로부터 적응된 어떠한 사전 훈련된 백본을 사용하지 않고 AC-RSU 블록들 상에 구축되기 때문에, 유연하고 사소한 성능 손실로 상이한 작업 환경들에 쉽게 적응된다.

따라서, 다양한 예시적인 실시예들에서, 예측 모듈(410)은 인코더 블록들의 세트(예컨대, En_1 내지 En_7)(420) 및 디코더 블록들의 세트(예컨대, De1 내지 De_7)(430)를 포함하는 인코더-디코더 구조를 갖는다. 도 4a에 도시된 바와 같이, 인코더 블록들의 세트의 복수의 인코더 블록들(예컨대, En_1 내지 En_5) 각각에 대해, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 인코더 블록을 이용하여 다운샘플링된 특징 맵이 생성될 수 있다. 또한, 도 4a에 도시된 바와 같이, 디코더 블록들의 세트의 복수의 디코더 블록들(예컨대, De1 내지 De_5) 각각에 대해, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 디코더 블록을 이용하여 업샘플링된 특징 맵이 생성될 수 있다. 따라서, 다양한 예시적인 실시예들에서, 복수의 디코더 블록들에 기초하여 생성된 복수의 예측된 특징 맵들은 상이한 공간 해상도 레벨들을 갖는다.

다양한 예시적인 실시예들에서, 복수의 예측된 특징 맵들은 복수의 디코더 블록들 각각에 의해 생성된 복수의 업샘플링된 특징 맵들에 기초하여 생성된다.

주의적 좌표 컨볼루션(AC-Conv)

다양한 예시적인 실시예들은 의료 이미지들에서 갑상선들과 같은 연조직 구조들이 세그먼테이션 프로세스를 보조하는 데 사용될 수 있는 예측 가능한 포지션 및 형상 패턴들을 갖는 것으로 나타난다는 점에 주의한다. 좌표 변환 문제를 해결하기 위해 도 8a에 도시된 바와 같은 좌표 컨볼루션(CoordConv)이 개시되었다(Liu 등의 "An intriguing failure of convolution Neural Networks and the CoordConv Solution", In NIPS, 9605-9616, 2018 참조, 본원에서 Liu 인용문헌으로서 지칭하며, 그리하여 그 내용은 모든 목적을 위해 전체가 인용에 의해 포함됨). 특히, 도 8a는 오리지널 CoordConv 층(800)의 개략적인 블록도를 도시한다. 입력 특징 맵 (804)이 주어지면, CoordConv는 로서 설명될 수 있으며, 여기서 M_i(806) 및 M_j(808) 각각이 행 및 열 좌표 맵들을 나타낸다. 그러나, 본 발명의 다양한 예시적인 실시예들은, 상이한 층들 내 특징들에 부착된 좌표 맵들이 거의 일정하므로, 이들을 상이한 층들 내 특징 맵들 M_in과 직접 결합하는 것은 네트워크의 일반화 성능이 저하시킬 수 있다는 것에 주의한다. 이는 이러한 좌표 맵들의 대응하는 컨볼루션 가중치들이 그들의 값 스케일들을 특징 맵 M_in의 값 스케일과 동기화할 뿐만 아니라 기하학적 정보를 추출하는 것을 담당하기 때문이다. 이 이슈를 해결하기 위해, 다양한 예시적인 실시예들은 도 8b에 도시된 바와 같이 주의적 좌표 컨볼루션(AC-Conv)(850)을 제공한다. 특히 도 8b는 본 발명의 다양한 예시적인 실시예들에 따라 AC-Conv(850)의 개략적인 블록도를 도시한다. AC-Conv(850)는 입력 특징 맵(854) 및 좌표 맵들(856', 858')(다양한 실시예들에 따라 앞서 설명된 바와 같이 복수의 가중화된 좌표 맵들에 대응함)의 (채널별)결합 이전에 공간 주의 유사 연산을 추가한다:

(수학식 1)

여기서 σ는 시그모이드 함수이다.

따라서, 다양한 예시적인 실시예들에서, 컨볼루션(AC-Conv) 층(850)을 사용하여 특징 추출 동작을 수행하는 것은, 컨볼루션 층(850)에 의해 수신된 입력 특징 맵(854) 및 복수의 가중화된 좌표 맵들(856', 858')에 기초하여 컨볼루션 층(850)의 출력 특징 맵(870)을 생성하는 것; 복수의 좌표 맵들(856, 858) 및 공간 주의 맵(860)에 기초하여 복수의 가중화된 좌표 맵들(856', 858')을 생성하는 것; 그리고 복수의 가중화된 좌표 맵들(856', 858')을 생성하기 위해 복수의 좌표 맵들(856, 858) 각각의 좌표 정보를 수정하기 위해 컨볼루션 층(850)에 의해 수신된 입력 특징 맵(854)에 기초하여 공간 주의 맵(860)을 생성하는 것을 포함한다. 다양한 예시적인 실시예들에서, 공간 주의 맵(860)을 생성하는 것은 컨볼빙된 특징 맵을 생성하기 위해 컨볼루션 층(850)에 의해 수신된 입력 특징 맵(854)에 기초하여 제1 컨볼루션 동작(862)을 수행하는 것; 그리고 공간 주의 맵(850)을 생성하기 위해 컨볼빙된 특징 맵에 기초하여 활성화 함수(864)를 적용하는 것을 포함한다. 다양한 예시적인 실시예들에서, 복수의 가중화된 좌표 맵들(856', 858')을 생성하는 것은 복수의 좌표 맵들(856, 858) 각각 내 좌표 정보를 수정하기 위해 복수의 좌표 맵들(856, 858) 각각을 공간 주의 맵(860)과 곱하는 것을 포함한다. 다양한 예시적인 실시예들에서, 컨볼루션 층(850)의 출력 특징 맵(870)을 생성하는 것은 결합된 특징 맵(866)을 형성하기 위해 컨볼루션 층(850)에 의해 수신된 입력 특징 맵(854) 및 복수의 가중화된 좌표 맵들(856', 858')을 채널별로 결합하는 것; 그리고 컨볼루션 층(850)의 출력 특징 맵(870)을 생성하기 위해 결합된 특징 맵(866)에 기초하여 제2 컨볼루션 동작(868)을 수행하는 것을 포함한다.

공간 주의 유사 동작은 현재 입력 특징 맵(854)으로부터 도출된 주의 맵(860)의 안내에 따라 더 중요한 기하학적 정보를 캡처하기 위해, i) M_in과 사이의 스케일 차이를 감소시키기 위한 동기화 층으로서; ii) 상수 좌표 맵을 사용하기 보다는, 모든 각각의 픽셀의 좌표들을 재가중화하는 두 가지 역할들을 한다. 예컨대, 두 개의 좌표들 i 및 j에 대해, i 좌표 맵(또는 i 좌표 채널)(856) 및 j 좌표 맵(또는 j 좌표 채널)(858)이 제공될 수 있다. 예컨대, i 좌표 맵(856)은 제1 행이 0(zero)들로 채워지고, 제2 행이 1(one)들로 채워지고, 제3 행이 2(two)들로 채워져 있는 식인 행렬일 수 있다. j 좌표 맵(858)은 z 좌표 맵(856)과 동일하거나 유사할 수 있지만 행들 대신 위에서 언급된 값들로 채워진 열들을 갖는다. 앞서 설명된 바와 같이, 다양한 예시적인 실시예들에 따르면, U²-Net에서 사용되는 RSU(720)는 다양한 예시적인 실시예들에 따라 AC-RSU를 생성하거나 구축하기 위해 다양한 예시적인 실시예들에 따른 AC-Conv 층(850)으로 컨볼루션 층들을 대체함으로써 수정 또는 적응된다. 예컨대, RSU(720)과 비교하여, AC-RSU는 상이한 수용 필드들로부터 텍스처 및 기하학적 특징들 둘 모두를 추출할 수 있다. 다양한 예시적인 실시예들에서, 정제 E-모듈(450) 내 예측 모듈 ACU²-Net(410) 및 3개의 서브-네트워크들(ACU²-Net-Ref7, ACU²-Net-Ref5 및 ACU²-Net-Ref3)은 모두 AC-RSU 상에 구축된다.

병렬 다중 헤드 잔차 정제 모듈(MH-RRM)

정확도를 추가로 개선하기 위한 시도로, 도 9a에 도시된 바와 같이, 캐스캐이딩된 서브-네트워크(캐스캐이딩된 정제 모듈) : 에 의해 대강의 결과를 재귀적으로 또는 점진적으로 정제하도록 다수의 종래의 예측-정제 모델들이 설계되었다. 마지막 출력()은 이론적으로 가장 정확한 출력이고 이에 따라 일반적으로 최종 결과로서 취해진다. 이 캐스캐이딩된 정제 전략은 세그먼테이션 결과들의 편향을 감소시킬 수 있다. 그러나, 다양한 예시적인 실시예들은 실제로 그러한 네트워크들을 사용하는 초음파 이미지들에서 연조직의 세그먼테이션이 종종 낮은 이미지 품질 및 흐릿한 경계들로 인해 큰 분산들을 갖는다는 것을 발견하였다. 다중 모델 앙상블 전략은 예측 편향들 및 분산들을 감소시키는 데 사용될 수 있다. 그러나 다양한 예시적인 실시예들은 다수의 심층 모델들의 직접 앙상블링이 과중한 컴퓨테이션 및 시간 비용들을 요구한다는 것을 발견하였다. 종래 기술들과 연관된 이러한 문제들을 해결하기 위해, 다양한 예시적인 실시예들은 앙상블 전략을 정제 모듈에 임베딩한다. 특히, 도 4b에 도시된 바와 같은 간단하고 효과적인 병렬 다중 헤드 잔차 정제 모듈(MH-RRM)(450)이 본 발명의 다양한 예시적인 실시예들에 따라 제공된다. 단지 예로서만 그리고 제한 없이, 다양한 예시적인 실시예에 따라 MH-RRM 헤드들(454-1, 454-2, 454-3)의 수(예컨대, 다양한 실시예들에 따라 앞서 설명된 바와 같은 복수의 정제 블록들에 대응함)는 도 4b에 도시된 바와 같이 3개의 로 세팅된다. 전술한 바와 같이, 3개의 정제 헤드들 또는 블록들(454-1, 454-2, 454-3)은 각각, 융합된 특징 맵(444)에 기초하여 상이한 공간 해상도 레벨을 갖는 정제된 특징 맵을 생성하도록 구성된 ACU²-Net에 기초하여 형성될 수 있다. 다양한 예시적인 실시예들에서, 복수의 정제 블록들(454-1, 454-2, 454-3)은 각각, 복수의 정제된 특징 맵들(464-1, 464-2, 464-3)을 생성한다. 따라서, 다양한 예시적인 실시예들에서, 복수의 정제된 특징 맵들(464-1, 464-2, 464-3)은 상이한 공간 해상도 레벨들을 갖는다.

다양한 예시적인 실시예들에서, 복수의 정제 블록들(454-1, 454-2, 454-3) 각각은 복수의 인코더 블록들 및 복수의 디코더 블록들을 포함하는 인코더-디코더 구조를 갖는다. 각각의 정제 블록에 대해, 그리고 정제 블록의 복수의 인코더 블록들 각각에 대해, 도 4b에 도시된 바와 같이, 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 인코더 블록을 사용하여 다운샘플링된 특징 맵이 생성될 수 있다. 또한, 각각의 정제 블록에 대해 그리고 정제 블록의 복수의 디코더 블록들 각각에 대해, 도 4b에 도시된 바와 같이, 디코더 블록에 의해 수신된, 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 입력 특징 맵에 기초하여 디코더 블록을 사용하여 업샘플링된 특징 맵이 생성될 수 있다. 다양한 예시적인 실시예들에서, 복수의 정제 블록들의 복수의 인코더-디코더 구조들은 상이한 높이들을 갖는다.

다양한 예시적인 실시예들에서, 도 4b에 도시된 바와 같이, 각각의 정제 블록에 대해, 정제 블록의 정제된 특징 맵은 정제 블록에 의해 수신된 융합된 특징 맵(444) 및 정제 블록의 복수의 디코더 블록들의 제1 디코더 블록(458-1, 458-2, 458-3)에 의해 생성된 업샘플링된 특징 맵에 기초하여 정제 블록의 정제된 특징 맵이 생성될 수 있다. 다양한 예시적인 실시예들에서, 예시적인 CNN(400)의 출력 이미지는 정제된 특징 맵들의 세트(464-1, 464-2, 464-3)의 평균에 기초하여 생성된다.

따라서, 다양한 예시적인 실시예들에서, 입력 이미지 A가 주어지면, 예시적인 CNN(400)의 최종 세그먼테이션 결과는 다음과 같이 표현될 수 있다:

(수학식 2)

도 9b는 위에서 언급된 병렬 정제 모듈을 갖는 예시적인 CNN(400)의 예측-정제 아키텍처의 의미론적 작업 흐름을 예시한다. 도 9a 및 도 9b에서, 굵은 글꼴들은 최종 예측 결과들을 표시한다.

훈련 및 추론

훈련 프로세스에서, E-모듈(450)의 3개의 정제 출력들 R⁽¹⁾(464-1), R⁽²⁾(464-2) 및 R⁽³⁾(464-3)은 도 4a 및 도 4b에 도시된 바와 같이 독립적으로 컴퓨팅된 손실들로, 예측 모듈(410)로부터의 7개의 사이드 출력들 및 하나의 융합된 출력 (444)과 함께 감독된다. 전체 모델은 BCE(Binary Cross Entropy) 손실로 엔드투엔드(end-to-end)로 훈련될 수 있다.

(수학식 3)

여기서 는 총 손실이고 및 는 사이드 출력들, 융합된 출력 및 정제 출력들의 대응하는 손실들이고, 및 는 상이한 출력들을 강조하기 위한 그의 대응하는 가중치들이다. 다양한 예시적인 실시예들에 따른 실험들에서, 모든 λ 가중치들은 1.0으로 세팅된다. 추론 프로세스에서, R⁽¹⁾(464-1), R⁽²⁾(464-2) 및 R⁽³⁾(464-3)의 평균이 최종 예측 결과로서 취해진다(예컨대, 다양한 실시예들에 따라 앞서 설명된 바와 같이 CNN의 출력 이미지에 대응함).

실험들

갑상선은 쇄골 바로 위쪽 목의 기저부에 있는 나비 형상의 기관으로, 왼쪽 및 오른쪽 엽들이 지협(isthmus)이라 불리는 중앙의 좁은 조직 띠에 의해 연결된다(도 10 참조). 특히, 도 10은 수동으로 라벨링된 갑상선엽 오버레이(1010)를 갖는 대응하는 초음파 이미지들과 함께, 갑상선 및 초음파 스캐닝 프로토콜의 개략도를 도시한다. 도 10의 이미지들의 상단 행의 점선 화살표들은 횡단(TRX) 및 시상(SAG) 평면들에서 초음파 프로브의 스캐닝 방향을 나타낸다. 도 10의 이미지들의 하단 행은 수동으로 라벨링된 갑상선엽 오버레이(1010)를 갖는 샘플 TRX(왼쪽) 및 SAG(오른쪽) 이미지들을 도시한다.

갑상선 이상들을 진단하기 위해, 임상의들은 수집된 초음파 스캔들로부터 수동으로 갑상선엽을 세그먼팅함으로써 그의 크기를 평가할 수 있다. 예시 목적만을 위한 예로서 그리고 제한 없이, 예시적인 CNN(400)은 갑상선 조직 세그먼테이션 문제에 대해 사례 연구로 평가되었다.

데이터세트

기존 공개 데이터세트들 중 어느 것도 대형 스케일 학습 기반 방법들에 대해 적합하지 않은 것으로 보인다. 대형 스케일 임상 애플리케이션들을 가능하게 하기 위해, 참여 센터들의 건강 연구 윤리 위원회의 승인을 얻어 포괄적인 갑상선 초음파 세그먼테이션 데이터세트가 수집되었다.

초음파 스캔 수집과 관련하여, 갑상선 초음파 검사를 위해 12개의 상이한 이미징 센터들에 내원한 18세 내지 82세의 700명의 환자들로부터 777개의 초음파 스캔들이 후향적으로(retrospectively) 수집되었다. 스캔들은 횡단(TRX) 및 시상(SAG) 평면들에서 초음파 프로브의 스캐닝 방향에 의해 분할되었다(예컨대, 도 10 참조). 따라서 2개의 부문들(TRX 및 SAG 세트들)이 이용 가능하였다. 각각의 부문은 환자 ID에 기초하여 훈련, 유효성 검증 및 테스트를 위해 랜덤으로 3개의 서브세트들로 추가로 분할되어서, 동일한 환자가 2개의 상이한 서브세트들에 속하지 않을 것이다. 도 11은 각각의 서브세트 내 볼륨들 및 대응하는 슬라이스들(이미지들)의 수를 예시하는 표(표 2)를 도시한다. 특히 표 2는 갑상선 데이터세트들의 TRX 및 SAG 갑상선 스캔들의 수를 도시하고 그에 의해 "Vol#" 및 "Slice#"은 각각 볼륨들의 수 및 대응하는 라벨링된 이미지들을 나타낸다.

주석 또는 라벨링과 관련하여, 데이터세트의 이미지들은 5명의 숙련된 초음파 검사자들에 의해 수동으로 라벨링되고 3명의 방사선 전문의에 의해 검증되었다. 전체적으로 사용 가능한 이미지들의 수가 상당히 많이 주어지면, 훈련 세트들의 초음파 스캔들은 라벨링 시간을 절약하기 위 3~5개의 슬라이스들 마다 라벨링되었다. 그러나 정확한 용적 평가를 위해 검증 및 테스트 세트들은 슬라이스별로 라벨링되었다.

구현 세부사항들과 관련하여, 예시적인 CNN(400)은 PyTorch로 구현되었다. 지정된 훈련, 유효 및 테스트 세트는 예시적인 CNN(400)의 성능을 평가하는 데 사용되었다. 훈련 프로세스에서, 입력 이미지들은 먼저 160x160x3으로 크기가 조정되고 그 후 144x144x3으로 랜덤으로 잘린다. 데이터세트를 증강시키기 위해 온라인 랜덤 수평 및 수직 뒤집기가 사용되었다. 훈련 배치 크기는 12로 세팅되었다. 모델 가중치들은 디폴트 He 균일 초기화에 의해 초기화되었다(예컨대, He 등의 "Delving deep into rectifiers: Surpassing human -level performance on imagenet classification", In Proceedings of the IEEE international conference on computer vision, 1026-1034, 2015 참조). Adam 최적화기(예컨대, Kingma의 “Adam: A method for stochastic optimization”, arXiv preprint arXiv: 1412.6980, 2014 참조)는 le-3의 학습률로 그리고 가중치 감소(weight decay) 없이 사용되었다. 훈련 손실은 약 50,000번의 반복 후에 수렴되며, 이는 약 24시간이 소요되었다. 테스트 프로세스에서, 입력 이미지들은 160x160x3으로 크기가 조정되었고 예시적인 CNN에 공급되었다. 다운샘플링 및 업샘플링 프로세스 둘 모두에서 쌍선형 보간법이 사용되었다. 훈련 및 테스트 프로세스 둘 모두는 NVIDIA GTX 1080 Ti GPU와 함께 AMD Ryzen Threadripper 2920x 4.3GHz CPU(128GB RAM)를 갖춘 12코어, 24-스레드 PC에서 수행되었다.

평가 메트릭들과 관련하여, 현재 방법의 전반적인 성능을 평가하기 위해 2개의 조치들: 용적 다이스(Volumetric Dice)(예컨대, Popovic 등의 "Statistical validation metric for accuracy assessment in medical image segmentation", UCARS, 2(2-4): 169-181, 2007 참조) 및 그의 표준 편차 a이 사용되었다. 다이스 점수는 다음과 같이 정의된다:

(수학식 4)

여기서 P 및 G는 각각 예측된 세그먼테이션 마스크 스윕 및 지상 실측 마스크 스윕 을 나타낸다. 다이스 점수들의 표준 편차는 다음과 같이 컴퓨팅된다:

(수학식 5)

여기서 N은 테스트 볼륨들의 수이고 는 전체 테스트 세트의 평균 용적 다이스 점수를 나타낸다. 수행된 실험들에서, 각각의 테스트 세트의 평균 다이스(Dice)가 표준 편차(a)와 함께 보고되었다.

예시적인 CNN(ACU²E-Net)(400)은 U-Net(Ronneberger 등의 "U-net: Convolutional networks for biomedical image segmentation", In MICCAI, 234-241, 2015) 및 그의 5개의 변형들 - 이는 Res U-Net(예컨대, Xiao 등의 "Weighted Res-UNet for high-quality retina vessel segmentation", In ITME, 327-331, 2018 참조), Dense U-Net(예컨대, Guan 등의 "Fully Dense UNet for 2-D Sparse Photoacoustic Tomography Artifact Removal", IEEE JBHI, 24(2): 568-576, 2019 참조), Attention U-Net(예컨대, Oktay 등의 "Attention u-net: Learning where to look for the pancreas", arXiv preprint arXiv: 1804:03999, 2018 참조), U-Net++(예컨대, Zhou 등의 "Unet++: A nested u-net architecture for medical image segmentation", In MICCALW, 3-11, 2018 참조) 및 U²-Net(예컨대, Qin 등의 "U²-Net: Going Deeper with nested U-structure for salient object detection, Pattern Recognition, 106: 107404, 2020 참조)을 포함함 - 뿐만 아니라, Stacked HourglassNet(예컨대, Newell 등의 "Stacked hourglass networks for human pose estimation, In ECCV, 483-499", 2016 참조), SRM(예컨대, Wang 등의 "A stagewise refinement model for detecting salient objects in images", In ICCV, 4019-4028, 2017 참조), C-U-Net(예컨대, Tang 등의 "Quantized densely connected u-nets for efficient landmark localization", In ECCV, 339-354, 2018 참조), R³-Net(Deng 등의 "R3net: Recurrent residual refinement network for saliency detection, In AAAI, 2018 및 BASNet (Qin 등의 "Basnet: Boundary-aware salient object detection", In CVPR, 7479-7489, 2019)를 포함하는 5개의 예측-정제 모듈을 포함하는 11개의 SOTA(state-of-the-art) 모델들과 비교되었다.

도 12는 TRX 및 SAG 테스트 세트들에 대한 다른 최첨단 세그먼테이션 모델과 예시적인 CNN(400)의 정량적 평가 또는 비교를 보여주는 표(표 3)를 도시한다. 표 3의 상단 부분은 전통적인 U-Net 및 Attention U-Net과 같은 그의 변형에 대한 비교들을 포함하는 반면, 표의 하단 부분은 R³-Net과 같은 예측-정제 전략을 수반하는 모델들에 대한 비교들을 도시한다. 예시적인 CNN(400)은 TRX 및 SAG 이미지들 둘 모두에 대해 가장 높은 다이스 점수를 생성한다는 것이 관찰될 수 있다. 더욱이, 병렬 정제 모듈(450)은 다이스 점수를 2.55% 및 1.22% 만큼 크게 개선하고 두 번째로 가장 좋은 모델(BASNet) 및 R³-Net과 같은 다른 정제 모듈 설계들에 대해 표준 편차를 31.99%, 7.51% 만큼 감소시킨다.

도 13a 내지 도 13l 및 도 14a 내지 도 14l은 TRX 및 SAG 갑상선 이미지들에 대한 샘플 세그먼테이션 결과들을 예시한다. 특히, 도 13a 내지 도 13l은 균질한 갑상선의 경우 샘플링된 TRX 슬라이스 상에서 상이한 방법들에 대한 지상 실측(흰색 점선) 및 세그먼테이션 결과들(흰색 실선)의 정성적 비교를 도시하고, 특히, 도 14a 내지 도 14l은 불균질한 갑상선의 경우 샘플링된 SAG 슬라이스 상에서 상이한 방법들에 대한 지상 실측(흰색 점선) 및 세그먼테이션 결과들(흰색 실선)의 정성적 비교를 도시한다. 알 수 있는 바와 같이, 예시적인 CNN(400)은 개선된(더 정확한) 세그먼테이션 결과들을 생성할 수 있었다. 구체적으로, 도 13a 내지 도 13l은 과한 스페클 노이즈들 및 흐릿한 경계들을 갖는 균일한 TRX 갑상선엽을 도시한다. Res U-Net, U-Net++, SRM, C -U-Net, R³-Net 및 BASNet은 정확한 경계를 캡처하지 못한다. U-Net, Dense U-Net, Attention U-Net, U²-Net 및 Stacked HourglassNet과 같은 다른 모델들은 갑상선의 왼쪽 상단 세장형 구역을 세그먼팅하는 데 실패한다. 도 14a 내지 도 14l은 여러 복잡한 결절들을 포함하는 불균질한 SAG 뷰 갑상선의 세그먼테이션 결과들을 예시한다. 따라서 알 수 있는 바와 같이, 예시적인 CNN(400)은 다른 모델들보다 비교적 더 나은 결과들을 생성한다.

예시적인 CNN(400)의 견고성을 추가로 평가하기 위해, TRX 이미지들 및 SAG 이미지들에 대한 예시적인 CNN(400) 및 다른 11개 최첨단 모델들의 성공률 곡선들이 각각 도 15a 및 도 15b에 플로팅된다. 성공률은 스캔들의 총 수에 대한 스캔 예측들의 수(특정 다이스 임계치보다 높은 점수들을 가짐)의 비로서 정의된다. 더 높은 성공률은 더 나은 성능을 나타내고 이에 따라 상단 곡선(ACU²E-Net)은 비교되는 다른 11개 최신 모델들보다 우수하다. 따라서 알 수 있는 바와 같이, 예시적인 CNN(400)은 TRX 및 SAG 테스트 세트들 둘 모두 상에서 다른 모델들보다 큰 차이로 성능이 뛰어나다.

다양한 예시적인 실시예들에 따른 AC-Conv의 유효성을 유효성 검증하기 위해, 적응된 U²-Net 내 평이한 컨볼루션(plain Conv)(LeCun 등의 "Gradient-based learning applied to document recognition", Proceedings of IEEE, 86(11): 2278-2324, 1998)을 다음 변형들: 압착 및 자극 블록을 통해 명시적으로 채널 상호 의존성을 모델링하는 SE-Conv(Hu 등의 "Squeeze-and-excitation networks", In CVPR, 7132-7141, 2018), 채널 및 공간 주의 블록들로 특징 맵들을 정제하는 CBAM-Conv (Woo 등의 "Cbam: Convolutional block attention module", In ECCV, 3-19, 2018), 좌표 채널들의 사용을 통해 자체 입력 좌표들에 대한 컨볼루션 액세스를 제공하는 CoordConv (Liu 등의 "An intriguing failing of convolution neural networks and the CoordConv solution", In NIPS, 9605-9616, 2018) 및 우리의 AC-Conv로 대체함으로써 어블레이션 연구들이 수행되었다. 도 16은 다양한 컨볼루션 블록 및 정제 아키텍처들에 대해 수행된 어블레이션 연구들을 도시하는 표(표 4)를 도시한다. 표 4에서, Ref7은 ACU²-Net-Ref7의 약어이다. 실험들은 TRX 갑상선 테스트 세트 상에서 수행되었다. TRX 테스트 세트 상의 결과들은 표 4의 상단 부분에 도시된다. 알 수 있는 바와 같이, AC-Conv를 사용한 ACU²-Net은 다이스 점수 및 표준 편차 a. 둘 모두의 관점에서 가장 좋은 결과들을 제공한다. 이는 기하학적 및 공간 정보를 공동으로 지각하는 조합된 전략이 독립형 공간 주의 기반(CBAM) 또는 좌표 기반(CoordConv) 방법들보다 더 효과적이라는 것을 추가로 입증한다.

MH-RRM(E-모듈)의 성능을 유효성 검증하기 위해, 캐스캐이딩된 RRM , 3개의 동일한 RRM 을 갖는 병렬 RRM 및 융합된 병렬 RRM 을 포함하는 상이한 정제 구성들 상에서 어블레이션 연구들이 또한 수행되었고, 여기서 병렬 정제 출력들은 추론에서 평균화하는 대신 컨볼루션 층에 의해 융합된다. 표 4의 하단 부분은 RRM에 대한 어블레이션 결과들을 도시하며, 이는 캐스캐이딩된 RRM, 동일한 분기들을 갖는 병렬 RRM뿐만 아니라, 융합된 병렬 RRM이 모두 다양한 예시적인 실시예들에 따른 MH-RRM보다 열등함을 표시한다.

따라서, 다양한 예시적인 실시예들은 초음파 이미지들에서 연조직 구조들의 세그먼테이션을 위한 주의 기반 예측-정제 네트워크(ACU²E-Net)(400)를 유리하게 제공한다. 특히, ACU²E-Net은, (a) 초음파 이미지들에서 갑상선엽의 기하학적 정보를 최대한 활용하는 주의적 좌표 컨볼루션(AC-Conv)(850) 및 (b) 앙상블 전략을 잔차 정제 접근법과 통합함으로써 세그먼테이션 결과들을 정제하는 병렬 다중 헤드 정제 모듈(MH-RRM)(450) 상에 구축된다.

앞서 설명된 최첨단 모델들과의 철저한 어블레이션 연구들 및 비교들은 훈련 및 추론 프로세스들을 복잡하게 하지 않으면서 예시적인 CNN(400)의 효율성 및 견고성을 입증한다. 예시적인 CNN(400)이 초음파 이미지들로부터 갑상선 조직의 세그먼테이션과 관련하여 설명되었지만, 예시적인 CNN(400)뿐만 아니라 AC-Conv(850) 및 MH-RRM(450)은 초음파 이미지로부터 갑상선 조직을 세그먼팅하는 데에만 적용되는 것으로 제한되지 않고 간, 비장, 및 신장뿐만 아니라 종양(예컨대, 간 또는 피하 종괴들의 HCC(Hepatocellular carcinom))과 같은(그러나 이에 제한되지 않음) 다른 유형들의 조직들을 원하는 대로 또는 적절히 초음파 이미지들로부터 세그먼팅하는데 적용될 수 있다는 것이 인지될 것이다.

본 발명의 실시예들이 특정 실시예들을 참조하여 상세하게 도시되고 설명되었지만, 형태 및 세부사항에서의 다양한 변경들이 첨부된 청구항들에 의해 정의된 바와 같은 본 발명의 범위로부터 벗어나지 않으면서 그 안에서 이루어질 수 있다는 것이 당업자들에 의해 이해되어야 한다. 따라서, 본 발명의 범위는 첨부된 청구범위에 의해 표시되며, 따라서 청구범위의 의미 및 균등 범위 내에 있는 모든 변경들이 포함되는 것으로 의도된다.

Claims

적어도 하나의 프로세서를 이용하여 CNN(convolutional neural network)에 기초한 이미지 프로세싱의 방법으로서, 상기 방법은:
입력 이미지를 수신하는 단계;
상기 복수의 출력 특징 맵들을 각각 생성하기 위해 상기 입력 이미지에 기초하여 상기 CNN의 복수의 컨볼루션 층들을 각각 사용하여 복수의 특징 추출 동작들을 수행하는 단계; 및
상기 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 상기 입력 이미지에 대한 출력 이미지를 생성하는 단계를 포함하고,,
상기 복수의 특징 추출 동작들 각각에 대해, 상기 컨볼루션 층을 이용하여 상기 특징 추출 동작을 수행하는 단계는:
상기 컨볼루션 층에 의해 수신된 입력 특징 맵 및 상기 복수의 가중화된 좌표 맵들에 기초하여 상기 컨볼루션 층의 출력 특징 맵을 생성하는 단계;
복수의 좌표 맵들 및 공간 주의 맵에 기초하여 상기 복수의 가중화된 좌표 맵들을 생성하는 단계; 및
상기 복수의 가중화된 좌표 맵들을 생성하기 위해 상기 복수의 좌표 맵들 각각 내 좌표 정보를 수정하기 위해 상기 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 상기 공간 주의 맵을 생성하는 단계를 포함하는,
이미지 프로세싱의 방법.
제1 항에 있어서,
상기 공간 주의 맵을 생성하는 단계는:
컨볼빙된 특징 맵을 생성하기 위해 상기 컨볼루션 층에 의해 수신된 입력 특징 맵에 기초하여 제1 컨볼루션 동작을 수행하는 단계; 및
상기 공간 주의 맵을 생성하기 위해 상기 컨볼빙된 특징 맵에 기초하여 활성화 함수를 적용하는 단계를 포함하는,
이미지 프로세싱의 방법.
제2 항에 있어서,
상기 활성화 함수는 시그모이드 활성화 함수인,
이미지 프로세싱의 방법.
제2 항 또는 제3 항에 있어서,
상기 복수의 가중화된 좌표 맵을 생성하는 단계는 상기 복수의 좌표 맵들 각각 내 상기 좌표 정보를 수정하기 위해 상기 복수의 좌표 맵들 각각을 상기 공간 주의 맵과 곱하는 단계를 포함하는,
이미지 프로세싱의 방법.
제2 항 내지 제4 항 중 어느 한 항에 있어서,
상기 복수의 좌표 맵들은 제1 차원에 대한 좌표 정보를 포함하는 제1 좌표 맵 및 제2 차원에 대한 좌표 정보를 포함하는 제2 좌표 맵을 포함하며, 상기 제1 및 제2 차원들은 상기 제1 컨볼루션 동작이 수행하도록 구성된 2개의 차원들인,
이미지 프로세싱의 방법.
제1 항 내지 제5 항 중 어느 한 항에 있어서,
상기 컨볼루션 층의 출력 특징 맵을 생성하는 단계는:
결합된 특징 맵을 형성하기 위해 상기 컨볼루션 층에 의해 수신된 입력 특징 맵 및 상기 복수의 가중화된 좌표 맵들을 채널별로 결합(concatenating)하는 단계; 및
상기 컨볼루션 층의 출력 특징 맵을 생성하기 위해 상기 결합된 특징 맵에 기초하여 제2 컨볼루션 동작을 수행하는 단계를 포함하는,
이미지 프로세싱의 방법.
제1 항 내지 제6 항 중 어느 한 항에 있어서,
상기 CNN은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하는 예측 서브-네트워크를 포함하고,
상기 방법은 상기 입력 이미지에 기초하여 상기 예측 서브-네트워크를 사용하여 예측된 특징 맵들의 세트를 생성하는 단계를 더 포함하고, 상기 예측된 특징 맵들의 세트를 생성하는 단계는, 상기 예측 서브-네트워크의 적어도 하나의 컨볼루션 층을 이용하여, 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하고,
상기 예측된 특징 맵들의 세트의 복수의 예측된 특징 맵들은 상이한 공간 해상도 레벨들을 갖는,
이미지 프로세싱의 방법.
제7 항에 있어서,
상기 예측 서브-네트워크는 인코더 블록들의 세트 및 디코더 블록들의 세트를 포함하는 인코더-디코더 구조를 갖고, 상기 예측 서브-네트워크의 인코더 블록들의 세트는 복수의 인코더 블록들을 포함하고 상기 예측 서브-네트워크의 디코더 블록들의 세트는 복수의 디코더 블록들을 포함하고, 그리고
상기 방법은:
상기 예측 서브-네트워크의 복수의 인코더 블록들 각각에 대해, 상기 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 상기 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계; 및
상기 예측 서브-네트워크의 복수의 디코더 블록 각각에 대해, 상기 디코더 블록에 의해 수신된, 상기 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 상기 입력 특징 맵에 기초하여 상기 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계를 더 포함하는,
이미지 프로세싱의 방법.
제8 항에 있어서,
상기 예측 서브-네트워크를 사용하여 상기 예측된 특징 맵들의 세트를 생성하는 단계는 각각 상기 복수의 디코더 블록들에 의해 생성된 복수의 업샘플링된 특징 맵들에 기초하여 상기 복수의 예측된 특징 맵들을 생성하는 단계를 포함하는,
이미지 프로세싱의 방법.
제8 항 또는 제9 항에 있어서,
상기 예측 서브-네트워크의 인코더 블록을 사용하여 상기 다운샘플링된 특징 맵을 생성하는 단계는:
상기 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및
상기 인코더 블록에 의해 추출되는 상기 추출된 다중 스케일 특징들에 기초하여 상기 다운샘플링된 특징 맵을 생성하는 단계를 포함하고, 그리고
상기 예측 서브-네트워크의 디코더 블록을 사용하여 상기 업샘플링된 특징 맵을 생성하는 단계는,
상기 디코더 블록에 의해 수신된 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 상기 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및
상기 디코더 블록에 의해 추출되는 상기 추출된 다중 스케일 특징들에 기초하여 상기 업샘플링된 특징 맵을 생성하는 단계를 포함하는,
이미지 프로세싱의 방법.
제8 항 내지 제10 항 중 어느 한 항에 있어서,
상기 예측 서브-네트워크의 복수의 인코더 블록들 각각은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 상기 예측 서브-네트워크의 인코더 블록을 사용하여 상기 다운샘플링된 특징 맵을 생성하는 단계는 상기 인코더 블록의 적어도 하나의 컨볼루션 층을 이용하여 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하고; 그리고
상기 예측 서브-네트워크의 복수의 디코더 블록들 각각은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 상기 예측 서브-네트워크의 디코더 블록을 사용하여 상기 업샘플링된 특징 맵을 생성하는 단계는 상기 디코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하는,
이미지 프로세싱의 방법.
제11 항에 있어서,
상기 예측 서브-네트워크의 복수의 인코더 블록들 각각의 각각의 컨볼루션 층은 상기 CNN의 복수의 컨볼루션 층들 중 하나이고, 그리고
상기 예측 서브-네트워크의 복수의 디코더 블록들 각각의 각각의 컨볼루션 층은 상기 CNN의 복수의 컨볼루션 층들 중 하나인,
이미지 프로세싱의 방법.
제8 항 내지 제12 항 중 어느 한 항에 있어서,
상기 예측 서브-네트워크의 복수의 인코더 블록들 각각은 잔차 블록으로서 구성되고, 그리고
상기 예측 서브-네트워크의 복수의 디코더 블록들 각각은 잔차 블록으로서 구성되는,
이미지 프로세싱의 방법.
제7 항 내지 제13 항 중 어느 한 항에 있어서,
상기 CNN은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하는 정제 서브-네트워크를 더 포함하고,
상기 방법은 융합된 특징 맵에 기초하여 상기 정제 서브-네트워크를 사용하여 정제된 특징 맵들의 세트를 생성하는 단계를 더 포함하며, 상기 정제된 특징 맵들의 세트를 생성하는 단계는 상기 정제 서브-네트워크의 적어도 하나의 컨볼루션 층을 이용하여 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하고, 상기 정제된 특징 맵들의 세트의 복수의 정제된 특징 맵들은 상이한 공간 해상도 레벨들을 갖는,
이미지 프로세싱의 방법.
제14 항에 있어서,
상기 융합된 특징 맵을 생성하기 위해 상기 예측된 특징 맵들의 세트를 결합하는 단계를 더 포함하는,
이미지 프로세싱의 방법.
제14 항 또는 제15 항에 있어서,
상기 정제 서브-네트워크는 각각 상기 수의 정제된 특징 맵들을 생성하도록 구성된 복수의 정제 블록들을 포함하고, 상기 복수의 정제 블록들 각각은 인코더 블록들의 세트 및 디코더 블록들의 세트를 포함하는 인코더-디코더 구조를 가지며, 상기 정제 서브-네트워크의 인코더 블록들의 세트는 복수의 인코더 블록들을 포함하고 상기 정제 서브-네트워크의 디코더 블록들의 세트는 복수의 디코더 블록들을 포함하고,
상기 방법은 상기 복수의 정제 블록들 각각에 대해:
상기 정제 블록의 복수의 인코더 블록들 각각에 대해, 상기 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 상기 인코더 블록을 사용하여 다운샘플링된 특징 맵을 생성하는 단계; 및
상기 정제 블록의 복수의 디코더 블록 각각에 대해, 상기 디코더 블록에 의해 수신된, 상기 디코더 블록에 대응하는 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 상기 입력 특징 맵에 기초하여 상기 디코더 블록을 사용하여 업샘플링된 특징 맵을 생성하는 단계를 더 포함하는,
이미지 프로세싱의 방법.
제16 항에 있어서,
상기 복수의 정제 블록들의 복수의 인코더-디코더 구조들은 상이한 높이들을 갖는,
이미지 프로세싱의 방법.
제16 항 또는 제17 항에 있어서,
상기 정제 서브-네트워크를 사용하여 정제된 특징 맵들의 세트를 생성하는 단계는 상기 복수의 정제 블록들 각각에 대해, 상기 정제 블록에 의해 수신된 융합된 특징 맵 및 상기 정제 블록의 복수의 디코더 블록들의 제1 디코더 블록에 의해 생성된 업샘플링된 특징 맵에 기초하여 상기 정제 블록의 정제된 특징 맵을 생성하는 단계를 포함하는,
이미지 프로세싱의 방법.
제16 항 내지 제18 항 중 어느 한 항에 있어서,
상기 정제 블록의 인코더 블록을 사용하여 상기 다운샘플링된 특징 맵을 생성하는 단계는:
상기 인코더 블록에 의해 수신된 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및
상기 인코더 블록에 의해 추출되는 상기 추출된 다중 스케일 특징들에 기초하여 상기 다운샘플링된 특징 맵을 생성하는 단계를 포함하고, 그리고
상기 정제 블록의 디코더 블록을 사용하여 상기 업샘플링된 특징 맵을 생성하는 단계는:
상기 디코더 블록에 의해 수신된 디코더 블록에 대응하는 상기 정제 블록의 인코더 블록에 의해 생성된 다운샘플링된 특징 맵 및 상기 입력 특징 맵에 기초하여 다중 스케일 특징들을 추출하는 단계; 및
상기 디코더 블록에 의해 추출되는 상기 추출된 다중 스케일 특징들에 기초하여 상기 업샘플링된 특징 맵을 생성하는 단계를 포함하는,
이미지 프로세싱의 방법.
제16 항 내지 제19 항 중 어느 한 항에 있어서,
상기 복수의 정제 블록들 각각에 대해:
상기 정제 블록의 복수의 인코더 블록들 각각은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 상기 정제 블록의 인코더 블록을 사용하여 상기 다운샘플링된 특징 맵을 생성하는 단계는 상기 인코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하고, 그리고
상기 정제 블록의 복수의 디코더 블록들 각각은 상기 CNN의 복수의 컨볼루션 층들 중 적어도 하나의 컨볼루션 층을 포함하고, 상기 정제 블록의 디코더 블록을 사용하여 상기 업샘플링된 특징 맵을 생성하는 단계는 상기 디코더 블록의 적어도 하나의 컨볼루션 층을 사용하여 상기 복수의 특징 추출 동작들 중 적어도 하나의 특징 추출 동작을 수행하는 단계를 포함하는,
이미지 프로세싱의 방법.
제20 항에 있어서,
상기 정제 블록의 복수의 인코더 블록들 각각의 각각의 컨볼루션 층은 상기 CNN의 복수의 컨볼루션 층들 중 하나이고, 그리고
상기 정제 블록의 복수의 디코더 블록들 각각의 각각의 컨볼루션 층은 상기 CNN의 복수의 컨볼루션 층들 중 하나인,
이미지 프로세싱의 방법.
제16 항 내지 제21 항 중 어느 한 항에 있어서,
상기 복수의 정제 블록들 각각에 대해, 상기 정제 블록의 복수의 인코더 블록들 각각은 잔차 블록으로서 구성되고, 그리고
상기 정제 블록의 복수의 디코더 블록들 각각은 잔차 블록으로서 구성되는,
이미지 프로세싱의 방법.
제14 항 내지 제21 항 중 어느 한 항에 있어서,
상기 출력 이미지는 정제된 특징 맵들의 세트에 기초하여 생성되는,
이미지 프로세싱의 방법.
제23 항에 있어서,
상기 출력 이미지는 상기 정제된 특징 맵들의 세트의 평균에 기초하여 생성되는,
이미지 프로세싱의 방법.
제1 항 내지 제24 항 중 어느 한 항에 있어서,
상기 입력 이미지를 수신하는 단계는 복수의 입력 이미지들을 수신하는 단계를 포함하고, 상기 복수의 입력 이미지들 각각은 훈련된 CNN을 획득하기 위해 상기 CNN을 훈련하도록 라벨링된 이미지이고;
상기 복수의 입력 이미지들 각각에 대해:
상기 복수의 출력 특징 맵들을 각각 생성하기 위해 상기 입력 이미지에 기초하여 상기 CNN의 복수의 컨볼루션 층들을 각각 사용하여 상기 복수의 특징 추출 동작들을 수행하고; 그리고
상기 복수의 컨볼루션 층들의 복수의 출력 특징 맵들에 기초하여 상기 입력 이미지에 대한 출력 이미지를 생성하는,
이미지 프로세싱의 방법.
제25 항에 있어서,
상기 라벨 이미지는 조직 구조를 포함하는 라벨링된 초음파 이미지인,
이미지 프로세싱의 방법.
제1 항 내지 제24 항 중 어느 한 항에 있어서,
상기 출력 이미지는 상기 CNN을 사용하여 상기 입력 이미지에 대한 추론의 결과인,
이미지 프로세싱의 방법.
제27 항에 있어서,
상기 입력 이미지는 조직 구조를 포함하는 초음파 이미지인,
이미지 프로세싱의 방법.
CNN에 기초한 이미지 프로세싱을 위한 시스템으로서, 상기 시스템은:
메모리; 및
상기 메모리에 통신 가능하게 커플링되고, 제1 항 내지 제28 항 중 어느 한 항에 따라 상기 CNN에 기초한 이미지 프로세싱의 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함하는,
CNN에 기초한 이미지 프로세싱을 위한 시스템.
하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체들에 구현되고, 제1 항 내지 제28 항 중 어느 한 항에 따른 CNN에 기초한 이미지 프로세싱의 방법을 수행하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령들을 포함하는 컴퓨터 프로그램 제품.
적어도 하나의 프로세서를 이용하여 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법으로서, 상기 방법은:
제1 항 내지 제24 항 중 어느 한 항에 따른 CNN에 기초한 이미지 프로세싱의 방법을 수행하는 단계를 포함하고,
상기 입력 이미지는 상기 조직 구조를 포함하는 초음파 이미지이고; 그리고
상기 출력 이미지는 세그먼팅된 조직 구조를 갖고 상기 CNN을 사용하여 상기 입력 이미지에 대한 추론의 결과인,
적어도 하나의 프로세서를 이용하여 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법.
제31 항에 있어서,
상기 CNN은 제25 항 또는 제26 항에 따라 훈련되는,
적어도 하나의 프로세서를 이용하여 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법.
CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하기 위한 시스템으로서, 상기 시스템은:
메모리; 및
상기 메모리와 통신 가능하게 커플링되고, 제31 항 또는 제32 항에 따라 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함하는,
CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하기 위한 시스템.
하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체들에 구현되고, 제31 항 또는 제32 항에 따라 CNN을 이용하여 초음파 이미지에서 조직 구조를 세그먼팅하는 방법을 수행하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령들을 포함하는 컴퓨터 프로그램 제품.