영문 제목: A Study on Data Selection and Utilization Considering Real World Data Characteristics
국문 제목: 실제 데이터 특성을 고려한 데이터 선별 및 활용 방법 연구
클릭해주셔서 감사합니다. 해당 페이지는 작성한 석사학위논문을 소개하기 위해 작성되었으며 1) 논문이 집중한 문제, 2) 문제에 대해 제시하는 해결 방안 그리고 3), 4), 5)에서는 제시하는 해결방안들을 조금 더 자세하게 다루며 6) 요약으로 마무리합니다.
1. 집중한 문제
학습에 사용된 데이터는 실제 상황(Real World)에서 입력되는 데이터와 도메인이 다를 수 있음
본 학위청구논문은 *머신러닝은 Non-IID 시나리오에서 작동할 수 있는가? 라는 의문점에서 시작하여, 실제 상황에 적용 가능한 머신러닝 기술이라는 해결책을 위해 학위 과정 중 수행한 연구로 구성됩니다.
머신러닝 연구는 주로 제시된 방법론의 우수성을 증명하기 위해 잘 가공된 데이터셋을 사용합니다. 이때, 대부분의 이러한 데이터셋은 학습 데이터와 평가 데이터의 도메인이 같습니다.
한편 머신 러닝에 사용되는 학습 데이터는 실제 서비스에서 입력되는 데이터를 언제나 대표할 수는 없습니다. 1) 학습 데이터의 수집과정에 문제가 있을 수 있고, 2) 시간에 따라 유행이 바뀌어 outdated 될 수 있기 때문입니다.
- Non-IID: 머신러닝이 학습 데이터로 습득한 지식이 실제 동작 환경에서도 적용 가능함을 가정하기 위해 모든 데이터는 독립적이고 동일한 확률로 존재한다는 가정(IID 가정)을 합니다.
본 논문에서 말하는 Non-IID란, 위와 같은 가정이 성립하지 않아, 학습 데이터가 동작할 데이터의 도메인을 완벽하게 포괄하지 못하는 경우를 의미합니다.
2. 제시하는 해결 방안
논문에서 정의한 대표적인 세 가지 Non-IID 상황
따라서 이 논문에서는 머신러닝 모델의 학습 데이터와 해당 모델이 서비스하는 데 사용되는 입력 데이터 간의 도메인 일치를 완벽하게 기대할 수 없을 때, 즉 IID 가정이 유지된다는 가정을 할 수 없을 때의 상황을 세 가지로 나누었고 그에 대한 해결책을 제시합니다.
- Case1: 학습 데이터의 도메인이 서비스에 입력될 데이터 도메인(이하 작동 도메인)과 맥락은 공유하지만 도메인이 일치하지 않는 경우입니다. (# 공유하는 맥락 정보에 집중해 도메인 차이를 해결) 서비스에 사용되는 높은 성능의 머신러닝 모델은 대부분 "지도 학습" 모델로, 학습에 라벨이 필요합니다. 그러나 라벨이 있는 데이터를 모델 학습에 충분히 많이 수집하는 것은 어려워, 가상의 데이터를 생성하는 것이 해결책이 될 수 있습니다. 이때 가상으로 생성한 학습 데이터는 작동 도메인의 데이터와 맥락을 공유하지만 완벽히 일치하지는 않습니다(대표적으로 GTA에서 생성한 주행 데이터로 자율주행 모델을 학습하는 경우가 있습니다). 본 논문은 이에 대한 해결책으로, 학습 데이터와 서비스 입력 데이터의 공통 정보를 추출하는 모델을 설계하여, 학습 데이터 도메인으로 학습한 맥락 지식을 작동 도메인에도 적용할 수 있게 합니다.
- Case2: 수집한 학습 데이터가 매우 적어, 작동 도메인을 모두 포괄할 수 없는 경우입니다. (# 학습에 사용가능한 데이터의 범위를 넓혀 도메인 차이를 해결) 모델 학습 알고리즘의 발전과 연산 장치의 발전으로 인공지능 서비스 도입의 문턱이 낮아지고 있습니다. 그러나 학습 데이터 구축 비용은 아직 인공지능 서비스를 도입하려는 기관이 해결해야 하는 문제로 남아있습니다. 본 학위 논문은 구축된 학습 데이터가 충분하지 않은 경우 추가적인 어노테이션(라벨링) 없이 학습에 사용할 수 있는 데이터의 도메인을 넓히기 위한 해결책을 제시합니다. 소량의 학습 데이터로 학습한 모델의 지식을 이용하여 라벨이 없는 데이터에 라벨을 부여하고(Pseudo label), 이렇게 학습 가능한 형태로 변환된 데이터를 활용해 새로운 데이터를 합성하여 학습 데이터 도메인이 대표할 수 있는 범위를 넓힙니다.
- Case3: 학습 데이터가 전혀 존재하지 않는 경우입니다. (# 학습 데이터 구축 프로세스를 개선해 도메인 차이를 효율적으로 해결) 이런 경우, 학습 데이터를 새롭게 구축해야 합니다. (기존에 이용했던 학습 데이터가 완전히 outdated 되는 경우도 이 시나리오에 포함됩니다.) 학습 데이터를 구축은 데이터 전문가가 수집한 데이터를 검토하고 모델 학습을 위한 학습 데이터를 선별하여 가공하는 것이 일반적입니다. 해당 프로세스를 효율적으로 하기 위한 연구가 Active Learning입니다. Active Learning은 인공지능 모델이 학습할 데이터를 직접 선별하는 기술을 다루며, 라벨링할 데이터를 선별하는 과정을 자동화하고, 효율적으로 라벨링해야 할 데이터의 수를 줄일 수 있습니다. (또한 Active Learning은 사용되고 있는 인공지능 모델의 성능을 지속적으로 관리하고 최신화하는 MLOps 를 구축하는데 사용될 수 있습니다.) 본 논문은 이러한 학습 데이터 구축 프로세스의 핵심 기술 중 하나인 Active Learning 알고리즘을 개선하여 본 기술이 실제 데이터셋 구축 프로세스나 MLOps를 위해 사용 될 수 있도록 발돋움하고자 합니다.
아래에서 논문에서 제시하는 해결책에 대해 간단하게 소개드리겠습니다.
3. 공유하는 맥락 정보에 집중할 것
해당 시나리오는 RGB 카메라로 구축된 데이터베이스를 이용한 검색 시스템이 Thermal(열화상) 카메라로 수집 된 데이터에서도 동작하기 위한 해결책을 제시합니다. 서로 다른 두 도메인의 데이터가 물체의 외각 정보라는 공통된 정보를 제공한다는 것에 집중하여, 공통정보를 추출할 수 있는 모델을 GAN 기반으로 설계하였습니다. 아래의 장표에서 모델이 추출한 invariant 이미지의 예시를 볼 수 있습니다. 제안하는 방법론을 통해 추출한 공통 정보(invariant 이미지)를 활용하여 기존 검색 시스템에 새로운 Thermal 데이터베이스를 구축할 필요 없이 질의 가능한 데이터의 도메인을 넓힐 수 있습니다.