본문 바로가기
논문 리뷰

[논문 리뷰] End-to-end Lung Nodule Detection in Computed Tomography

by 코딩새내기_ 2022. 8. 11.

오늘의 논문

이번 논문은 End-to-end Lung Nodule Detection in Computed Tomography 입니다.

https://arxiv.org/ftp/arxiv/papers/1711/1711.02074.pdf

여기서 논문을 바로 보실 수 있습니다.


논문 목차

1. Introduction

2. Methodology

2.1 Overview

2.2 Reconstruction Sub-Network

2.3 Detection Sub-Network

2.4 End-to-End Fine Tuning

2.5 Inference

3. Simulation Setup

3.1 Data Source

3.2 Training Parameters

3.3 Evaluation

4. Results

4.1 FROC analysis

4.2 Reconstructed Images

5. Conclusion and Discussion


1. Introduction

● 본 논문에서는 multiple-step learning이 아닌 end-to-end방식을 이용하여 raw data에서 image로 reconstruction 시킨 뒤 lung nodule을 detection하는 방식을 제안하였습니다.

 

2개의 sub-network로 구성됩니다.

· reconstruction sub-network : primal-dual algorithm을 5번정도 반복하여 raw data를 image data로 reconsturction하였습니다.

· detection sub-network : 3D-CNN으로 구성되었고 image에서 lung nodules의 위치를 찾습니다.

 

● 먼저 reconstruction sub-network를 학습시킨 뒤에 end-to-end 방식으로 detection 성능만 최대로 끌어올리게 학습을 진행하였습니다.

 

2. Methodology

2.1 Overview

 

End-to-End 방식으로 학습을 진행할 때는 R에서 E를 통해 patch extraction을 진행하고 D에서 나온 결과와 ground truth의 cross entropy loss가 최소화되게 학습을 진행합니다.

 

2.2 Reconstruction Sub-Network

reconstruction image와 ground truth의 L2 Loss를 최소화하게 학습합니다.

 

2.3 Detection Sub-Network

위 식이 사용되고, R은 reconstruction sub-network에서 나온 결과, E는 patch extraction matrix, D는 detection sub-network, H는 cross entropy loss입니다.

 

2.4 End-to-End Fine Tuning

두 개의 Sub-Network를 학습시키고 

$$ \theta_1, \ \eta_1 에\ 대해서 \ 1\ epoch \ training을\ 진행합니다.$$

gradient backpropagation은 detection sub-network부터 reconstruction sub-network까지 진행하였습니다.

 

2.5 Inference 

sliding window 방식을 통해서 detection을 하고 Non-Max-Suppress를 통하여 최종 detection을 결정합니다.

 

3. Simulation Setup

3.1 Data Source

LIDC-IDRI dataset이 사용되었고, 1018개의 CT scan으로 이루어져 있습니다.

작은 결절의 영상은 사용된 CT 프로토콜에 대해 안정적이지 않았기 때문에 지름 3mm이상의 작지 않은 작지 않은 결절을 감지하는 task입니다.

 

3.2 Training Parameters

training set은 916개, testing set은 102개로 나누었습니다.

 

Reconstruction Sub-Network

Filtered backprojection (FBP) result로 학습을 진행합니다. 

학습에 사용된 파라미터는 다음과 같습니다.

$$ learning\ rate : 1×10^{-4}, \quad \beta_1=0.9, \quad \beta_2=0.999    $$

1epoch당 50개의 sample을 랜덤으로 추출해서 학습을 진행합니다.

 

Detection Sub-Network

 샘플링에는 32×32×16의 패치 크기가 사용되었습니다.

 non-small nodules에 대해서는 [-8, 8] mm 사이를 랜덤하게 이동하고 3개의 축에 대해서 flip을 주는 augmentation을 20회 진행하였습니다.

 모든 negative sample에서는 positive sample로부터 64mm 이상의 거리를 두었습니다.

 non-nodule annotation에서는 5배의 augment를 진행하였습니다. 

400개의 patch는 폐 내부에서 랜덤하게 추출하였고, 100개의 patch는 폐 외부에서 랜덤하게 추출하였습니다. 

 Adam optimizer 튜닝은 Reconstruction Sub-Network와 동일하게 하였습니다.

 

End-to-End Fine Tuning

Detection Sub-Network와 동일한 patch sampling을 하였습니다.

 Adam optimizer 튜닝은 Reconstruction Sub-Network와 동일하게 하였습니다.

 

3.3 Evaluation

▪ 4mm 크기의 윈도우를 사용하였고, Non-max-Suppression을 사용했습니다.

▪ detection 성능을 평가하기 위해서 bootstrapp 방법으로 1000개의 랜덤 샘플을 추출하여 FROC를 계산하였고, nodule의 중심이 positive patch에 있을 때 true positive로 count하였습니다. 

▪ Mean FROC scores는 스캔당 1/8, 1/4, 1/2, 1, 2, 4, 8  false positive일 때 민감도의 평균 값으로 계산되었습니다.

 

4. Results

4.1 FROC analysis

저자는 본 논문의 end-to-end 방식을 기존의 FBP, Two-step 방식과 Reference와 비교해서 결과를 보여줍니다.

위에 그림에서 볼 수 있듯이 FBP 방식은 선량이 낮을수록 streak artifact가 많이 보이게 됩니다.

Two-step 방식은 Reconstruction Sub-Network를 학습시키고 Detection Sub-Network는 Reconstruction Sub-Network의 weights를 고정시킨채로 학습하는 방식입니다.

그리고 Reference는 original resampled image로 학습한 결과를 보여줍니다.

위의 결과를 보시면 End-to-end 방식이 FBP, Two-step 보다 더 좋은 성능을 보여줍니다.

그리고 노이즈를 추가했을 때 다른 방법들은 성능이 떨어지지만 End-to-end 방식은 다른 방법들에 비해 더 Robust하다고 볼 수 있습니다.

 

4.2 Reconstructed Images

end-to-end 방식은 줄무늬 구조가 보이는 반면 two-step 결과가 시각적으로 더 좋은 결과를 보여주었습니다.

하지만 Contrast to Noise Ratio(CNR)와 detection 성능에 대해서는 end-to-end 방식의 결과가 더 좋았습니다.

 

저자는 이런 결과를 바탕으로 사람과 달리 Computer Vision에서는 streak artifact 보다 CNR이 높을수록 better detection performance가 나온다고 생각하는 것 같습니다.

(human observer에게는 Computer Vision에서보다 streak artifact가 더욱 민감합니다.)

* FBP쪽을 보시면 streak artifact(줄무늬 구조)가 심하게 나타납니다.

 

5. Conclusion and Discussion

본 논문에서는 low-dose CT에서 end-to-end 방식의 lung nodule detection을 제안하였습니다. 

reconstruction network를 먼저 학습시킨뒤에 detection 성능을 높이는 방법으로 end-to-end로 학습을 진행하였습니다.

 

하지만 reconstruction sub-network와 detection sub-network를 신중하게 결정하지 않았고 최적화시키지는 않았다고 합니다.

차후 계획은 좀 더 개선된 detection, reconstruction sub-network를 찾는 것이 목표인 것 같습니다.

 

댓글