출처
Chen, Baixu, et al. “Debiased self-training for semi-supervised learning.” Advances in Neural Information Processing Systems 35 (2022): 32424-32437.
Copyright of figures and other materials in the paper belongs to original authors.
Abstract
- self-training is well-believed to be unreliable and often leads to training instability
- 이러한 bias를 줄이기 위해서 DST(debiased self-training)을 제안하고자 함.
- pseudo label들의 generation과 utilization은 직접적인 오류 누적을 피하기 위해서 두개의 independent classifider을 사용해서 진행됨.
- 최악의 self-training bias를 예측함
- 여기서 말하는 최악의 상황이란, 수도 라벨링 함수가 labeled sample에 대해서 정확하지만, unlabeled sample에 대해서는 아주 많은.. 오류를 뱉을때를 말함
- representation을 adversarially optimize해서 수도 라벨들의 퀄리티를 높이고자 함
- 이러한 bias를 줄이기 위해서 DST(debiased self-training)을 제안하고자 함.
1 Introduction
- self-training is an effective approach to deal with the lack of labeled data.
-
Although self-training has achieved great advances in benchmark datasets, they still exhibit large training instability and extreme performance imbalance across classes.
- see FixMatch
-
Besides, although FixMatch improves the average accuracy, it also leads to the Matthew effect, i.e., the accuracy of well-behaved categories is further increased while that of poorly-behaved ones is decreased to nearly zero
-
- The above findings are caused by the bias between the pseudo labeling function with the unknown target labeling function.
- 저자는 bias issuue들을 두가지로 나누어서 생각했음
- Data bias
- semi-supervised learning에 내제적으로 존재하는 bias
- Training bias
- 부정확한 수도 라벨을 통한 self-training을 해서 증가된 bias
- Data bias
- 이러한 관점에서 Debiased self-training (DST) 를 제안함.
- 특히 training bias를 줄이기 위해서 classifier head는 clean labeled sample들로만 학습하고, unreliable 수도 labeled sample으로는 학습하지 않음 .
- 더 나아가서 data bias를 줄이고자 했는데 이거는 직접적으로 계산되기 힘듦. 따라서, training bias의 최악의 case를 추정함. 이후 최악의 경우 bias를 감소해서 수도 레이블의 퀄리티를 향상시키기 위해서 representation을 obtimize함.
2 Related work
- pass
3 Analysis of Bias in self-training
- 본 섹션에서는 self-training의 bias가 어디서부터 도출되는지에대해서 분석해보고자 했음
- P가 input space X의 distribution이라고 가정하자. K class들에 대한 분류를 할때, P^k를 class-conditional distrbution of x conditioned on ground truth f*(x)=k라고 하자. 수도라벨러 f_pl이 n labeled samples P_n으롱인해서 획득된다고 가정함. M(f_pl)은 잘 못 생성된 수도라벨 샘플들을 의미함.
- self training 속의 bias를 deviation between the learned decision hyperplanes and the true decision hyperplanes에 대응되며, 이는 모든 클래스에서 잘못된 수도 레이블로 표시된 샘플의 수로 측정될 수 있음.
-
다양한 training condition아래에서 실험을 진행한 결과, nontrivial finding들을 발견함
- The sampling of labeled data will largely influence the self-training bias(Figure 1을 보면 알수 있음)
- The pre-trained representations also affect the self-training bias.
- Figure 2 shows that different pre-trained representations lead to different category bias, even if the pre-trained dataset and the downstream labeled dataset are both identical.
- 각기 다른 pre-trained model으로부터 학습된 representatin들은 data의 다른 aspect에 집중한다는 것이 이유가 될 수 있음.
- Figure 2 shows that different pre-trained representations lead to different category bias, even if the pre-trained dataset and the downstream labeled dataset are both identical.
- Training with pseudo labels aggressively in turn enlarges the self-training bias on some categories(Figure 3을 보면 알 수 있음)
- 특정 카테고리에 대한 performance gap이 after training with pseudo label, 변화했다는 것을 알 수 있음
- Based on the above observations, we divide the bias caused by self-training into two categories
- Data bias
-
figure 4의 blue area,
-
conditional distrbution of x conditioned on ground truth f*(x)
- 즉, bias가 없는 상황
- 수도라벨러 f_pl
-
- Training bias
-
figure 4의 yellow area
- semi를 사용했을때의 상황을 나타냄.
-
- 본 논문에서는 figure4의 빨간색 area 에 해당되는 방법을 제안하고자 함.
- Data bias
4 Debiased Self-training
-
The standard cross-entropy loss on weakly augmented labeled examples
- ψ =feature generator
- h = task-spacific head
- alpha = weak augmentation function
- Since there are few labeled samples, the feature generator and the task-specific head will easily over-fit, and typical SSL methods use these pseudo labels on plenty of unlabeled data to decrease the generalization error.
- Fixmach는 일정 한계점을 통해서 unreliable pseudo label들을 filtering 해줌
- Fixmatch에는 두가지 이슈가 존재함
- 수도 라벨이 같은 head를 통해서 생성되고 적용됨 → 이는 training bias로 이어질 수 있음
- 엄청나게 적은 labeled sample을통해서 학습 될 경우, confidence threshold mechanism이 소용없을 수 있음.
- 이를 해결하기 위한 방안을 section 4.1과 4.2에서 제안.
4.1 Generate and utilize pseudo labels independently
-
Fixmatch의 training bias는 스스로 생성한 수도 라벨을 스스로 학습한다는 것에 있음. 이러한 문제를 해소하기 위해, 아래 figure 5(b), (c)와 같은 방법이 사용될 수 있음.
- 하지만 (b)(c)방법에서 모두 수도 라벨을 생성하는 teacher model과 수도 라벨을 활용하는 student model에 강한 relationship이 형성되고, 이에 따라 training bias는 여전히 클 수 밖에 없음.
- 이러한 training bias를 줄이기 위해서, task-specific head를 사용함
- L : labeled dataset
- U : unlabeled dataset
- 적은 labeled sample에 overfitting되는 것을 방지하기 위해서 수도 label을 사용하기는 하지만 더 좋은 representation을 생성하기 위해서 사용함.
- figure5(d)에서 나와있듯, pseduo head h_pseduo 를 제안하는데 이는 feature generator ψ에 연결되어서 U에 있는 수도 라벨들로만 optimized됨.
-
따라서 training objective는 아래와 같음.
- 수도 라벨은 h으로부터 생성되는데, 독립적인 h_psudo에서 utilized되는 방식임.
- h와h_pseudo가 같은 backbone network으로부터 feature을 받아온다고 해도, 이들의 파라미터가 독립적이기 때문에 pseudo head를 잘못된 수도 라벨으로 학습하는 것은 head h 에 직접적으로 오류를 축적시키기는 않을 것임.
- pseudo head는 feature generator 의 backpropagation에 responsible하고 inference에서는 사용되지 않는 형식임
4.2 Reduce generation of erroneous pseudo labels
-
figure6(a)에서 확인할 수 있듯, data bias으로 인해서 각 class의 labeled sample들이 decision hyperplane들로부터의 거리가 각각 다를 수 있음.
- 이는 학습된 hyperplane과 실제 decision hyperplane간의 간극으로 이어질 수 있는데 특히 적은 라벨을 가지고 있을 때 이런 현상이 자주 발생함.
- 결과적으로 수도 라벨링은 이렇게 biased decision hyperplane들에 가까운 points들에 부정확한 수도 라벨을 할 가능성이 높음.
- 우리가 U를 위한 라벨이 없기 때문에, data bias를 직접적으로 측정하고 그걸 없애는 방법은 없음. 하지만 data bias와 training bias는 어느정도의 상관관계를 보임.
- section 4.1에서와 같이 task-specific head h는 clean labeled data에 optimized되었음. 이때 부정확한 수도 라벨으로 optimized될 시, learned hyperplane을 더 편향된 방향으로 밀 것이고, training bias는 커질 것임.
- 따라서, training bias는 data bias의 축적된 결과로 여겨질 수 있음
- Specifically, the worst training bias corresponds to the worst possible head h 0 learned by pseudo labeling, such that h 0 predicts correctly on all the labeled samples L while making as many mistakes as possible on unlabeled data U ,where the mistakes of h 0 on unlabeled data are estimated by its discrepancy with the current pseudo labeling function fb.
- 이 케이스는 figure6(b)임.
-
아래 식은 worst-case of task-specific head h를 찾는 것을 목적으로 함.
-
Note that Equation 6 measures the degree of data bias, which depends on the feature representations generated by ψ, thus we can adversarially optimize feature generator ψ to indirectly decrease the data bias,
-
참고) 기존Fixmach의 loss 함수
- h : the task-specific head.
- ψ : the feature generator
- f : pseudo labeling function
- A : the strong augmentation function.
-
overall loss
- worst possible head h`에 대해서는 cross-entropy loss를 최대화하고,
- feature generator, task-specific-head, h_pseudo에 대한 loss는 최소화함.
-