논문 및 사진 출처

Peyser, Cal, et al. “A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at Scale.” ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023.

Abstract

unparied text와 audio injection은 ASR 성능을 향상시키는 중요한 방법 중하나였음
하지만, 이러한 방법을 사용해서 ASR system을 향상시키기 위해서는 guidance에 대한 연구가 많이 없음
본 연구에서는 SOTA semi-supervised mthods를 unpaired text and audio와 함께 controlled setting에서 비교하고자 함
본 연구에서 제안한 setting을 통해서 성능 개선을 보임

1 Introduction

speech recognition의 문제를 해결하기 위한 방법으로 semi-supervised learning이 제안됨
semi-supervised training scheme에서는 unpaired speech 혹은 text examples이 supervised dataset에 보충제역할로 제공되어서 더 좋은 language / acoustic coverage를 가질 수 있도록 함
audio와 text을 사용한 semi-supervised learning은 ASR task에서 아주 좋은 성능을 보였음.
하지만, 제안된 방법들은 주로 industrial scale에서 제공된 데이터셋보다 더 작고, supervised data가 거의 없는 사례들에 초점이 맞추어져 있음
또한, 현재 mobile phone이나 streaming prediction이 가능해야하는 현실 세계에서의 application과는 괴리가 있는게 모델의 크기가 엄청 큼.
본 연구에서는 몇개의 leading semi-supervised methods을 비교하는데 제한된 setting에서 비교를 진행함.
- 여기서 말하는 state-of art semi-supervised methods는 TTS augmentations, JOIST, BEST-RQ를 의미함.
- 이전 연구들과는 다르게, 본 연구에서는 semi-supervised methods을 conformer에 적용했음
  - 여기서 conformer은 160M-streaming conformer을 의미하고, 엄청나게 큰 supervised corpus에 대해서 미리 학습된 모델임
decoder의 computational load와 lattice density에 대해서 improvements을 보였음.

2.1 Text injection

Unsupervised text injection in ASR은 LM에서 fusion으로 주로 수행되어 왔음.
- inference time / training time 모두에서
- 이러한 방법은 paired data에 훈련된 acoustic model과 unpaired text에 훈련된 LM의 모델 파라미터를 명시적으로 분리하게 하는 것.
- 이러한 improvement가 있었지만, inference time에서 additional LM param에 대한 cost를 요하게 되었음
fusion 을 사용하지 않는 대안이 모색되기는 했음.
- unsupervised text을 사용해서 acoustic model을 직접 훈련하는 방법
- 여기에서 자주 사용되었던 방법중 하나는 synthesized audio를 통해서 수도 라벨을 생성하는 것임.
unpaired text injection을 위한 또다른 방법은 TTsS 수도 레이블을 생성하지 않은 채 ASR encoder을 학습하는 것임. 하지만 이러한 작업들은 ASR encoder가 텍스트나 오디오 둘중하나를 나타내도록 훈련이 되고, unpairedtext가 audio와 유사하게 처리되는 것을 요했음

2.2 Audio injection

Unsupervised audio injection에 대한 연구는 활발하게 진행되어 왔음.
constrastive loss를 사용하거나 audio input을 양자화 하는 방법이 있음

3 Methods

3.1 Architecture

E_c : causal encoder
- 오른쪽 범위의 context를 입력받지 않은채 오디오 feature을 처리
E_nc : non-causal encoder
- Ec의 output과 오른쪽 범위의 900ms 의 입력 값 사용
D_c : causal decoder
- inference때 해당 decoder은 immediate prdiction을 산출해냄
D_nc : non-causal decoder
- inference 때 해당 decoder은 short latency로 causal decoder의 prediction을 수정하는데에 사용됨
이전 연구들과 다르게, 본 연구에서는 audio 와 text 중 하나의 representation을 consume하도록 했음.
- 이를 위해서 JOIST를 따랐는데, E_c가 입력
- 두개의 neural frontedns를 선택하는데 하나는 audio feature들을 위한거고 나머지 하나는 text feature을 위한 것임.
- JOIST에서 우리는 text fronted output을 upsample해서 text와 audio의 길이가 대략적으로 비슷하게 될 수 있게 맞춰줬음

3.2 Tasks

causal ASR에서 x는 audio frontend에 전달되어서 Ec로 encoding되고, Dc로 decoding됨.
noncausal SR에서는 E_nc, D_nc를 사용해서 훈련
- 파란색 선 : causal
- 초록색 선 : non-causal
본 연구에서의 모델은 RNN-T loss를 사용해서 end-to-end로 training됨

3.2.1 TTS augmentation

frozen parameter을 가지고 pre-trained된 TTS system을 사용해서, 본 연구의 저자들은 audio clip ~\hat{x} 을 생성해 냄. ~\hat{x}는 unsupervised text segment y 에 대응되는 audio clip임.
본 연구에서는 (~\hat{x},y}를 supervised audio-text pair으로 treat해서 causal 과 non-causal ASR task들을 훈련함.
이는 figure 1에서 dotted blue와 dotted green으로 표현되어 있음.
저자들은 합리적인 학습 속도를 달성하기 위해서, TTS system 이 input word-pieces를 raw audio롤 convert 하는 것이 아니라, acoustic features의 sequence으로 convert하는 것이 중요하다고 주장했음.
- sequence of acoustic feature은 audio frontend으로부터 consumed됨
- 이는 decoder이 autoregressive하게 작동되기 때문에, audio sequence 의 길이가 training speed에 영향을 미치게 되기 때문.

3.2.2 JOIST

masked unpaired text examples을 text frontend에 입력시켜주는데, text frontend는 learnd projection으로 구성되어 있음.
결과는 오디오와 같이 E_C, D_C 혹은 E_nc, D_nc로 차례대로 전달되고 RNN-T손실을 사용해서 원본 text sequence와 비교하게 됨
본 연구의 저자들은 JOIST가 text token과 대조적으로 y의 음소 representation들을 consume하는 것이 중요하다는 것을 참고논문을 통해서 주장했음.
masking 전에 text를 처리하는 text-to-음소들 lookup을 포함함.
JOIST loss는 standard한 word-piece representation에 대해서 작동함
- JOIST loss는 masked 된 음소 시퀀스로부터 word pieces을 생성하는 것으로부터 학습됨

3.2.3 BESt-RQ

BEST-RQ 이후에 audio injection을 modeling했음
Audio feature들은 masked 되고 fronted를 사용해서 process됨
이후, causal 혹은 non-causal encoder을 통해서 encoding함.
추가적으로 audio feature들은 randomly init된 projection에 의해서 process되고, fixed codebook에 있는 가장 가까운 entry으로부터 반올림해서 이산화됨
이후, encoder은 masked 된 region에 대해서 quantized target을 예측하도록 학습되고 이는 figure 1에서 빨간색 dashed line으로 표현되어 있음.

Conclusion

해당 포스트에는 실험결과가 생략되어있지만, 실험 결과를 통해서 본 연구는 semi-supervised learning을 ASR system에 적용할 수 있는 insight를 제공하고, semi-supervised technique에 따라 ASR performance가 어떻게 달라지는지 보였음.(특히 challenging 한 acoustic scene에서)
온디바이스 시스템의 구성요소로 ASR이 적용되었을 때, decoding state와 lattice richness를 측정함

Abstract

1 Introduction

2 Related work

2.1 Text injection

2.2 Audio injection

3 Methods

3.1 Architecture

3.2 Tasks

3.2.1 TTS augmentation

3.2.2 JOIST

3.2.3 BESt-RQ

Conclusion