본문 바로가기

Deep Learning + Hierarchical Knowledge

Ingraining Expert Label Knowledge in Deep Neural Networks - Introduction

제가 이번에 연구할 Ingraining Hierarchical Knowledge to Deep Learning이라는 주제는 이전 포스트 "Ingraining Hierarchical Knowledge to Deep Learning 대장정의 시작" 에서 언급한 Ingraining Expert Label Knowledge in Deep Neural Networks라는 논문을 베이스로 두고 있습니다. 


따라서 당분간 해당 논문의 분석과 해당 논문에 실려있는 레퍼런스 논문을 분석하여 포스팅 할 계획입니다.



이번 포스팅은 Ingraining Expert Label Knowledge in Deep Neural Networks의 서론입니다. 석사 학위논문이다보니 분량도 많고 문제에 대한 정의를 글로 표현하는 방법을 배우기 굉장히 좋은 것 같아서 제 졸업논문을 작성할 때 좋은 글을 쓰고자 서론자체만을 포스팅하게 되었습니다. 



본 논문의 Introduction은 왜 이 연구를 하게 되었는지에 대한 Motivation과 이 연구가 어떠한 문제해결에 기여를 하였는지에 대한 Contribution으로 구성되어 총 4장 분량을 차지하고 있습니다. 논문을 직역하는것이 아니라 적절하게 의견을 섞어서 작성을 했으니까 참고 부탁드리겠습니다.



Motivation은 딥러닝 패러다임에 대한 설명으로 시작합니다. 


딥러닝 모델들이 지능을 encapsulation하는 개념은 딥러닝 패러다임을 굉장히 특별하고 powerful한 아이디어로 만들어주었습니다. 

왜냐하면, 딥러닝 모델들은 Perception, Knowledge, inference ability 등을 포함하는 정보를 짧은 수식들과 몇백만개의 파라메터로써 인코딩이 가능하다는 것을 보여주었기 때문인데요, 


딥러닝을 위해서는 방대한양의 데이터와 powerful한 컴퓨팅 파워가 필요하지만,


인터넷 덕분에, 지능을 duplicate 하고, 전세계로 deploy하는것이 굉장히 쉬워지고, 컴퓨팅 기술의 진보로, 빠르고 값싸고 방대하게 병렬처리하는 것이 가능해짐으로써 방대한 양의 데이터가 제공되고 컴퓨팅 파워가 향상되면서 꾸준히 향상되어온 딥러닝 모델의 성능은 현재 다양한 분야에서 인간 수준을 뛰어넘는 성능을 갖게 된 것을 많은 논문들에서 쉽게 찾아볼 수 있습니다. 


이 논문은 Medicine 도메인에 초점을 맞추어 딥러닝 패러다임의 잠재적 impact가 얼마나 엄청난지를 보여줄 것을 예고하면서, Radiologist(방사선 전문의)와 의사들의 상황에 딥러닝 기술이 적용되었을때의 상황을 간단하게 제시합니다. 


----------------------------------------------------------------------------------------------------------------------------------------


1. Radiologist들이 모든 합병증에 대한 의료 영상들을 두눈으로만 접근을 하고,


2. 또 의사들에게 수백만 환자로부터 얻어지는 증상 정보를 기반으로 한 진단과 최신 연구의 본문으로부터 얻을 수 있는 정보가 있지만, 최신 의료 연구를 위해 주어지는 시간이 제한적이라는 상황을 가정해 보았을때, 


----------------------------------------------------------------------------------------------------------------------------------------


인간의 수준에서는 체력적인 부분과 같은 인적자원의 한계점으로 인해 소실되는 정보들이 굉장히 많게 됩니다.


하지만, 딥러닝 기술을 사용하면 컴퓨팅 파워가 갖춰져있다는 가정하에 인간에게서 존재하는 한계점들의 극복이 충분히 가능합니다. 물론 의료분야에 딥러닝이 적용되고 그 잠재력을 깨달을 수 있기까지에는 많은 장애물들이 존재하기 때문에, 해결해야할 과제들은 아직 많이 남아있는 상태지만요.



의료 도메인에서는, 현재 딥러닝 기법에 충분히 반영하기 위해 요구되는 즉 분류 태스크를 위하여 생성된 데이터셋들은, "sufficiently large number of labeled datapoint"와 "coverage of all classes"부족한 문제가 있습니다. 이뿐 아니라 비슷한 태스크들을 위해 존재하는 데이터셋 들은 다음과 같은 또 다른 문제들을 지니고 있습니다. 


- Unbalanced class distribution (불균형한 클래스의 분포)

- Skewed cost functions (한쪽으로 쏠린 비용 함수들)

- Confounding variables (불명확한 변수들?)

- Data Scarcity Issue (데이터 부족 이슈)


이러한 문제들을 위하여 딥러닝 기반의 모델을 차용할 때에는 그 결정 처리 과정의 이해를 위하여 

투명성(Transparency)해석가능성(Interpretability)이 요구됩니다. 


이러한 문제를 해결하기 위하여 신경망 뉴런의 활성값을 시각화한 연구들이 시도되었습니다.

[* 정리를 해두었으니 링크를 참고해주세요.]

Back projection을 기반으로 시각화하는 기법을 제안

Attentive Response map을 시각화하여 딥러닝모델이 의료영상을 판별하는 과정의 이해를 위한 연구



이 논문의 저자는 분류 문제가 주로 straightforward multinomial classification model(one-of-K prediction;K개 중 하나로 예측하는 것)으로 

접근되는 것에도 주목하였습니다. 

CIFAR10/100, MNIST, IMAGENET데이터 셋등을 기반으로 딥러닝 모델을 통해서 많은 연구들이 분류를 수행하였는데, 이때 one-of-K prediction은

이산적인 클래스들간의 연관성을 알기 어렵게 만드는 문제에 주목한 것인데, 


우리가 'man', 'woman', 'boy', 'girl'의 클래스는 다양한 시각적 의미론적 속성을 공유하지만, 딥러닝 모델을 기반으로 분류를 수행할때, 

'man'을 'boy'로 예측하는 경우 loss함수를 통하여 penalize해주기 때문에, 이들 클래스간의 일치성을 제공받을 수 없는 것을 예로 들 수가 있을것 같습니다.


따라서, 저자는 이 논문의 가설을 세우는데 다음과 같습니다.

" 서로 다른 이산적 클래스들간의 관계를 알게됨으로써 분류모델이 얻을 수 있는 이득을 기반으로, 인간의 지식(혹은 label이나 데이터의 계층적 지식)을 

딥러닝 모델에 베어들게 한다면(ingraining), 모델의 제대로된 학습에 요구되는 데이터의 수량을 감소시킬수 있을 것이다. "


Ian Goodfellow의 Deep learning책에 따르면, DNN은 클래스들을 분산된 개념의 nested 계층구조로 표현하도록 학습하면서, 대용량의 데이터셋으로부터

데이터에서 자연스레 보여지는 전문지식을 파생시킬 수 있게 된다고 합니다. 그렇기 때문에, 전문가의 interference는 딥러닝 모델들의 효율성에 

핵심요소로 간주된다고 하네요. 


하지만, 의료 도메인에서는 굉장히 적은수로 레이블링 되어있는 데이터의 문제로 인해, Deep learning책의 이론적 관념을 진정한 의미로 받아들이기는 어렵습니다.


그렇기 때문에 추가적인 가설을 더 내세우는데 다음과 같습니다.

" 딥러닝 모델의 결정처리과정을 조정하는 것과 같은 전문가 지식을 딥러닝 모델로 끌어올 수 있다면, 모델들의 explainability를 향상시킬 수 있을 것이다. "


딥러닝 모델들을 신뢰하는데 fully 투명한 결정처리과정에 대한 이해가 필요하지는 않습니다. 

하지만, 우리는 의료 분야에서는 모델들이 low-level 신호들을 관측하여 vision system을 통해 분석하여 입증하는것보다, 

Radiologist들이 교육생과정을 거치면서 얻은 경험적 증거들을 기반으로 이미지(X-ray사진)를 정확하게 해석하고, 

합병증들에 대한 이해를 기반으로 높은 수준의 추론을 통한 진단으로 이어지는 과정을 더 신뢰합니다.


그렇게 때문에 저자는 인간전문가에 의해 해석가능한 높은 수준의 개념으로써 학습된 확률변수 들을 통해 구축된 예측 프로세스 안에서

최종단계에 높은 수준의 추론을 기반으로 결과를 내어놓는 모델을 제안하는것에 초점을 맞추어 연구를 진행하였다고 합니다. 


논문의 목표 : 딥러닝 모델에 클래스의 구조에 기반한 전문가지식을 활용함으로써 DNN에 유연성을 확보하고

                    데이터 부족으로 인한 제약을 넘어서는 모델을 제안하는 것



이 논문의 Contribution 은 다음의 두가지가 될 수 있습니다.


1. 기계학습 방법론에서 분류정보를 활용하는 연구들에 대한 광범위한 조사

2. 이론적인 방식에 기반하여 주어진 분류정보를 끌어오는 것을 기반으로 한 새로운 방법론 제안 

   (계층적 지식의 활용을 통한 새로운 분류기법 제안)



[그림1. label hierarchy의 예시 : WordNET의 subset ]



지금까지 전문가 레이블 지식을 딥러닝에 왜 적용시키게 되었는지에 대한 서론을 살펴보았습니다.


다음 포스팅은 관련된 연구들에 대하여 하나씩 업로드 하도록 하겠습니다.




"피드백은 언제나 환영입니다."