출처

Chen, Baixu, et al. “Debiased self-training for semi-supervised learning.” Advances in Neural Information Processing Systems 35 (2022): 32424-32437.

Copyright of figures and other materials in the paper belongs to original authors.

Abstract

  • self-training is well-believed to be unreliable and often leads to training instability
    • 이러한 bias를 줄이기 위해서 DST(debiased self-training)을 제안하고자 함.
      • pseudo label들의 generation과 utilization은 직접적인 오류 누적을 피하기 위해서 두개의 independent classifider을 사용해서 진행됨.
      • 최악의 self-training bias를 예측함
        • 여기서 말하는 최악의 상황이란, 수도 라벨링 함수가 labeled sample에 대해서 정확하지만, unlabeled sample에 대해서는 아주 많은.. 오류를 뱉을때를 말함
      • representation을 adversarially optimize해서 수도 라벨들의 퀄리티를 높이고자 함

1 Introduction

  • self-training is an effective approach to deal with the lack of labeled data.
    • Although self-training has achieved great advances in benchmark datasets, they still exhibit large training instability and extreme performance imbalance across classes.

      image

      • see FixMatch
    • Besides, although FixMatch improves the average accuracy, it also leads to the Matthew effect, i.e., the accuracy of well-behaved categories is further increased while that of poorly-behaved ones is decreased to nearly zero

      image

  • The above findings are caused by the bias between the pseudo labeling function with the unknown target labeling function.
  • 저자는 bias issuue들을 두가지로 나누어서 생각했음
    • Data bias
      • semi-supervised learning에 내제적으로 존재하는 bias
    • Training bias
      • 부정확한 수도 라벨을 통한 self-training을 해서 증가된 bias
  • 이러한 관점에서 Debiased self-training (DST) 를 제안함.
  • 특히 training bias를 줄이기 위해서 classifier head는 clean labeled sample들로만 학습하고, unreliable 수도 labeled sample으로는 학습하지 않음 .
  • 더 나아가서 data bias를 줄이고자 했는데 이거는 직접적으로 계산되기 힘듦. 따라서, training bias의 최악의 case를 추정함. 이후 최악의 경우 bias를 감소해서 수도 레이블의 퀄리티를 향상시키기 위해서 representation을 obtimize함.

2 Related work

  • pass

3 Analysis of Bias in self-training

  • 본 섹션에서는 self-training의 bias가 어디서부터 도출되는지에대해서 분석해보고자 했음
  • P가 input space X의 distribution이라고 가정하자. K class들에 대한 분류를 할때, P^k를 class-conditional distrbution of x conditioned on ground truth f*(x)=k라고 하자. 수도라벨러 f_pl이 n labeled samples P_n으롱인해서 획득된다고 가정함. M(f_pl)은 잘 못 생성된 수도라벨 샘플들을 의미함.
  • self training 속의 bias를 deviation between the learned decision hyperplanes and the true decision hyperplanes에 대응되며, 이는 모든 클래스에서 잘못된 수도 레이블로 표시된 샘플의 수로 측정될 수 있음.
  • 다양한 training condition아래에서 실험을 진행한 결과, nontrivial finding들을 발견함

    image

    • The sampling of labeled data will largely influence the self-training bias(Figure 1을 보면 알수 있음)
    • The pre-trained representations also affect the self-training bias.
      • Figure 2 shows that different pre-trained representations lead to different category bias, even if the pre-trained dataset and the downstream labeled dataset are both identical.
        • 각기 다른 pre-trained model으로부터 학습된 representatin들은 data의 다른 aspect에 집중한다는 것이 이유가 될 수 있음.
    • Training with pseudo labels aggressively in turn enlarges the self-training bias on some categories(Figure 3을 보면 알 수 있음)
      • 특정 카테고리에 대한 performance gap이 after training with pseudo label, 변화했다는 것을 알 수 있음
  • Based on the above observations, we divide the bias caused by self-training into two categories
    • Data bias
      • figure 4의 blue area,

        image

      • conditional distrbution of x conditioned on ground truth f*(x)

        • 즉, bias가 없는 상황
        • 수도라벨러 f_pl
    • Training bias
      • figure 4의 yellow area

        image

        • semi를 사용했을때의 상황을 나타냄.

      image

    • 본 논문에서는 figure4의 빨간색 area 에 해당되는 방법을 제안하고자 함.

4 Debiased Self-training

  • The standard cross-entropy loss on weakly augmented labeled examples

    image

    • ψ =feature generator
    • h = task-spacific head
    • alpha = weak augmentation function
  • Since there are few labeled samples, the feature generator and the task-specific head will easily over-fit, and typical SSL methods use these pseudo labels on plenty of unlabeled data to decrease the generalization error.
  • Fixmach는 일정 한계점을 통해서 unreliable pseudo label들을 filtering 해줌
  • Fixmatch에는 두가지 이슈가 존재함
    1. 수도 라벨이 같은 head를 통해서 생성되고 적용됨 → 이는 training bias로 이어질 수 있음
    2. 엄청나게 적은 labeled sample을통해서 학습 될 경우, confidence threshold mechanism이 소용없을 수 있음.
  • 이를 해결하기 위한 방안을 section 4.1과 4.2에서 제안.

4.1 Generate and utilize pseudo labels independently

  • Fixmatch의 training bias는 스스로 생성한 수도 라벨을 스스로 학습한다는 것에 있음. 이러한 문제를 해소하기 위해, 아래 figure 5(b), (c)와 같은 방법이 사용될 수 있음.

    image

    • 하지만 (b)(c)방법에서 모두 수도 라벨을 생성하는 teacher model과 수도 라벨을 활용하는 student model에 강한 relationship이 형성되고, 이에 따라 training bias는 여전히 클 수 밖에 없음.
  • 이러한 training bias를 줄이기 위해서, task-specific head를 사용함
    • L : labeled dataset
    • U : unlabeled dataset
    • 적은 labeled sample에 overfitting되는 것을 방지하기 위해서 수도 label을 사용하기는 하지만 더 좋은 representation을 생성하기 위해서 사용함.
      • figure5(d)에서 나와있듯, pseduo head h_pseduo 를 제안하는데 이는 feature generator ψ에 연결되어서 U에 있는 수도 라벨들로만 optimized됨.
      • 따라서 training objective는 아래와 같음.

        image

  • 수도 라벨은 h으로부터 생성되는데, 독립적인 h_psudo에서 utilized되는 방식임.
  • h와h_pseudo가 같은 backbone network으로부터 feature을 받아온다고 해도, 이들의 파라미터가 독립적이기 때문에 pseudo head를 잘못된 수도 라벨으로 학습하는 것은 head h 에 직접적으로 오류를 축적시키기는 않을 것임.
    • pseudo head는 feature generator 의 backpropagation에 responsible하고 inference에서는 사용되지 않는 형식임

4.2 Reduce generation of erroneous pseudo labels

  • figure6(a)에서 확인할 수 있듯, data bias으로 인해서 각 class의 labeled sample들이 decision hyperplane들로부터의 거리가 각각 다를 수 있음.

    image

    • 이는 학습된 hyperplane과 실제 decision hyperplane간의 간극으로 이어질 수 있는데 특히 적은 라벨을 가지고 있을 때 이런 현상이 자주 발생함.
    • 결과적으로 수도 라벨링은 이렇게 biased decision hyperplane들에 가까운 points들에 부정확한 수도 라벨을 할 가능성이 높음.
  • 우리가 U를 위한 라벨이 없기 때문에, data bias를 직접적으로 측정하고 그걸 없애는 방법은 없음. 하지만 data bias와 training bias는 어느정도의 상관관계를 보임.
    • section 4.1에서와 같이 task-specific head h는 clean labeled data에 optimized되었음. 이때 부정확한 수도 라벨으로 optimized될 시, learned hyperplane을 더 편향된 방향으로 밀 것이고, training bias는 커질 것임.
    • 따라서, training bias는 data bias의 축적된 결과로 여겨질 수 있음
    • Specifically, the worst training bias corresponds to the worst possible head h 0 learned by pseudo labeling, such that h 0 predicts correctly on all the labeled samples L while making as many mistakes as possible on unlabeled data U ,where the mistakes of h 0 on unlabeled data are estimated by its discrepancy with the current pseudo labeling function fb.
      • 이 케이스는 figure6(b)임.
  • 아래 식은 worst-case of task-specific head h를 찾는 것을 목적으로 함.

    image

    • Note that Equation 6 measures the degree of data bias, which depends on the feature representations generated by ψ, thus we can adversarially optimize feature generator ψ to indirectly decrease the data bias,

      image

    • 참고) 기존Fixmach의 loss 함수

      image

      • h : the task-specific head.
      • ψ : the feature generator
      • f : pseudo labeling function
      • A : the strong augmentation function.
    • overall loss

      image

      • worst possible head h`에 대해서는 cross-entropy loss를 최대화하고,
      • feature generator, task-specific-head, h_pseudo에 대한 loss는 최소화함.

image