영문 제목: A Study on Data Selection and Utilization Considering Real World Data Characteristics

국문 제목: 실제 데이터 특성을 고려한 데이터 선별 및 활용 방법 연구


클릭해주셔서 감사합니다. 해당 페이지는 작성한 석사학위논문을 소개하기 위해 작성되었으며 1) 논문이 집중한 문제, 2) 문제에 대해 제시하는 해결 방안 그리고 3), 4), 5)에서는 제시하는 해결방안들을 조금 더 자세하게 다루며 6) 요약으로 마무리합니다.

1. 집중한 문제


학습에 사용된 데이터는 실제 상황(Real World)에서 입력되는 데이터와 도메인이 다를 수 있음

학습에 사용된 데이터는 실제 상황(Real World)에서 입력되는 데이터와 도메인이 다를 수 있음

본 학위청구논문은 *머신러닝은 Non-IID 시나리오에서 작동할 수 있는가? 라는 의문점에서 시작하여, 실제 상황에 적용 가능한 머신러닝 기술이라는 해결책을 위해 학위 과정 중 수행한 연구로 구성됩니다.

머신러닝 연구는 주로 제시된 방법론의 우수성을 증명하기 위해 잘 가공된 데이터셋을 사용합니다. 이때, 대부분의 이러한 데이터셋은 학습 데이터와 평가 데이터의 도메인이 같습니다.

한편 머신 러닝에 사용되는 학습 데이터는 실제 서비스에서 입력되는 데이터를 언제나 대표할 수는 없습니다. 1) 학습 데이터의 수집과정에 문제가 있을 수 있고, 2) 시간에 따라 유행이 바뀌어 outdated 될 수 있기 때문입니다.

본 논문에서 말하는 Non-IID란, 위와 같은 가정이 성립하지 않아, 학습 데이터가 동작할 데이터의 도메인을 완벽하게 포괄하지 못하는 경우를 의미합니다.

2. 제시하는 해결 방안


논문에서 정의한 대표적인 세 가지 Non-IID 상황

논문에서 정의한 대표적인 세 가지 Non-IID 상황

따라서 이 논문에서는 머신러닝 모델의 학습 데이터와 해당 모델이 서비스하는 데 사용되는 입력 데이터 간의 도메인 일치를 완벽하게 기대할 수 없을 때, 즉 IID 가정이 유지된다는 가정을 할 수 없을 때의 상황을 세 가지로 나누었고 그에 대한 해결책을 제시합니다.

아래에서 논문에서 제시하는 해결책에 대해 간단하게 소개드리겠습니다.

3. 공유하는 맥락 정보에 집중할 것


해당 시나리오는 RGB 카메라로 구축된 데이터베이스를 이용한 검색 시스템이 Thermal(열화상) 카메라로 수집 된 데이터에서도 동작하기 위한 해결책을 제시합니다. 서로 다른 두 도메인의 데이터가 물체의 외각 정보라는 공통된 정보를 제공한다는 것에 집중하여, 공통정보를 추출할 수 있는 모델을 GAN 기반으로 설계하였습니다. 아래의 장표에서 모델이 추출한 invariant 이미지의 예시를 볼 수 있습니다. 제안하는 방법론을 통해 추출한 공통 정보(invariant 이미지)를 활용하여 기존 검색 시스템에 새로운 Thermal 데이터베이스를 구축할 필요 없이 질의 가능한 데이터의 도메인을 넓힐 수 있습니다.

석사학위청구-3_1.png