Zhi-Hua Zhou
Introduction
- 현실에서 마주하게 되는 데이터 중 알맞은 레이블을 마주하기 쉽지 않음
- 해당의 경우 Weakly Supervised Learning을 통해 접근 가능
Types of Weakly Supervised Learning
- Incomplete Supervision
- Inaccurate Supervision
- Inexact Supervision
- 각 데이터 마다 레이블이 존재 하는 것이 아니라 coarse-grained 레이블이 주어진 경우
Incomplete Supervision
Sub Categories
- Active Learning
- Semi-Supervised Learning
Active Learning
Active Learning
- Method
- 레이블이 존재하는 데이터를 통해 모델을 학습
- 레이블이 존재하지 않는 데이터들 중 가장 불확실한 데이터(들)을 선정
- 해당 데이터(들)이 가장 정보가 많고 레이블이 주어지면 유용할 것이라고 판단
- 선정된 레이블들에 한해서 직접 레이블링 후 학습 데이터에 포함
- 데이터 선발 기준
- Informativeness measure
- 레이블 되어 있지 않은 데이터 중 가장 불확실성이 큰 데이터 선정
- 단점: 레이블 데이터에 매우 의존적임 → 레이블 데이터가 압도적으로 부족할 경우 성능이 불안정함
- Representativeness measure
- 레이블이 없는 데이터에 클러스터링을 적용 후 클러스터 구조를 파악 후 해당 클러스터들을 가장 잘 대표하는 데이터 선정
- 단점: 레이블이 없는 데이터에 매우 의존적임 → 클러스터링 정보에 의존하기 때문에 성능이 취약한 경우 존재
Semi-Supervised Learning
- Method
- 레이블이 있는 데이터를 통해 초기 지도학습 모델 학습
- 레이블이 없는 데이터들을 추론 후 pseudo label 생성 후 학습 데이터 업데이트
- 모델 재학습
- 2~3번 반복
- 레이블이 없는 데이터의 활용성에 대한 가정
- Cluster assumption
- 데이터를 클러스터링 하면 같은 클러스터의 데이터들은 모두 같은 클래스이다
- Manifold assumption
- 매니폴드 공간 내 서로 거리가 가까운 데이터들은 같은 클래스를 갖는다
- 레이블이 없는 데이터들의 분포와 특징 분석이 핵심
- 4 major category
- Generative method
- 레이블이 있는 데이터와 없는 데이터 모두 동일한 내부 모델로 부터 생성된다고 가정
- 레이블이 없는 데이터를 missing value로 취급 → EM 알고리즘을 기반으로 레이블에 대한 기대값이 최대가 되도록 레이블 생성
- 적절한 내부 생성 모델 필수
- Graph-based method
- graph = node + edge
- node: training instance
- edge: relation between instances
- 구성한 그래프에 레이블 정보를 전파
- 단점: $n$개의 데이터 $=\ n^2,n^3$ 저장 공간 필요, 데이터 추가 → 그래프 재구성
- Low-density separation method
- 모델 결정 경계를 공간 내 가장 덜 밀집 되어 있는 부분에 위치 시키는 방법
- 레이블이 존재하는 데이터들이 구분 되는 조건 하에 레이블이 없는 데이터의 밀집도가 가장 낮은 위치에 구분선 설정
- 최적화 이론 기반
- Disagreement-based method
- 여러 개의 학습 모델을 만들어 협업하는 방법
- 대표적으로 Co-training 방법
- 레이블이 되어 있는 데이터를 두개로 나눔
- 따로 각 모델을 학습 시킴
- 데이터의 양이 충분해야 하고 서로 독립적이어야 한다는 가정 필수
- 이후 레이블이 없는 데이터를 각 모델들에 넣어 높은 확률로 분류가 되는 데이터를 상대 모델 학습 데이터에 추가
- 2~3 반복