Whisper
๐ Key Takeaways
- 1๏ธโฃ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์๋ ๋ฐ์ดํฐ์ ์๊ณผ ์ ํ์ด ๋ ์ค์ํ ์ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ Plain Transformer ๋ชจ๋ธ์ ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์ Weakly Supervised ๋ฐฉ์์ผ๋ก ํ์ต์์ผฐ๋ค.
- 2๏ธโฃ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ 16๋ฐฐ ์ฆ๊ฐํ๋ฉด WER์ด ์ ๋ฐ์ผ๋ก ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
- 3๏ธโฃ Unsupervised Pretrain & Fine-Tuning ๊ตฌ์กฐ๋ dataset-specific quirks์ผ ํ๋ฅ ์ด ๋๋ค. ์ด๋ฅผ ์ํด Fine-Tuning ๋จ๊ณ๋ฅผ ์์ ๊ณ Zero-shot์ผ๋ก๋ง ์ฑ๋ฅ์ ์ธก์ ํ๋ค.
1. Previous Unsupervised Pre-training์ ๋ฌธ์ ์
Wav2Vec์ผ๋ก ๋ํ๋๋ ๊ธฐ์กด์ Unsupervised pre-training์ audio encoder์ ํ์ง์ ์๋นํ๊ฒ ์ฌ๋ ธ์ง๋ง, decoder๊ฐ ์ด๋ฅผ ๋ฐ๋ผ์ฌ ์ ์์๋ค. ์ฆ, decoder๊ฐ text์ audio representation์ ๋งคํํ ์ ์์๋ค. ๋ฐ๋ผ์ supervised fine-tuning์ด ํ์์ ์ด์๋ค. supervised fine-tuning์ label์ด ์์ด์ผ ํ๋ฏ๋ก ๋งค์ฐ ๋น์ธ๊ณ , model์ usefulness์ robustness๋ฅผ ์ ํํ๋ค. ์ฆ, ๋ฐ์ดํฐ์ ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ข์ง์ฐ์ง(dataset-specific quirks)ํ๋ค๋ ๊ฒ์ด๋ค.
์ ์๋ค์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ ์ ํ ์ฐ๊ตฌ๋ค์์ ์์ด๋์ด๋ฅผ ์ป์๋ค.
- ๋ํ unlabeled dataset์ ์ฌ์ฉํ๋ Wav2Vec๊ณผ ๋ฌ๋ฆฌ ์ํ labeled dataset์ ์ฌ์ฉํ๋ supervised model์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
- CV ๋ถ์ผ์์ ๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก weakly supervised learning์ ํ์ ๋ robustness์ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ค.
์ ์๋ค์ ๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก weakly supervised learning์ ์คํํ๊ธฐ๋ก ํ๋ค.
2. Approch
2.1 ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ
์ ์๋ค์ ์ด 680,000 hours์ ์ด๋ํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๋ค. ์ด๋ Wav2Vec์ 60,000 hours๋ฅผ ํ์ฉ ์ํํ๋ ํฌ๊ธฐ์ด๋ค. ๊ทธ ์ค 117,000 hours๋ 96๊ฐ์ ์ธ์ด ์์ฑ์ด๊ณ , ์ด๋ฅผ ์์ด๋ก ๋ฒ์ญํ 125,000 hours์ ๋ฐ์ดํฐ๋ ํฌํจํ๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์์ ์์ฃผ ์ฐ์ธ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ธ standardization๊ณผ ITN(Inverse Text Normalization)์ ๊ณผ๊ฐํ๊ฒ ์๋ตํ๋ค. ์ด๋ฅผ ํตํด robustness๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์๋ค. ๋์ ์ ์ ์๋ค์ Machine-Generated data๋ฅผ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ผ๋ก ํํฐ๋งํ์ฌ ์ ๊ฑฐํ๋ค. ๋ํ์ ์ธ ์๋ก ๋ชจ๋ uppercase ๋๋ lowercase์ด๊ฑฐ๋, ์ผํ๋ฅผ ์์ ์์ค ๊ฒ์ด ์๋ค.
2.2 Model
์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ด์ ์ ๋ง์ถ์ง ์์๋ค. ๋จ์ํ๊ฒ Transformer ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ค.
2.3 Multitask Format
pretraining-zero shot ๊ตฌ์กฐ๋ง์ผ๋ก๋ ์ค๋์ค ๋ถ์ผ์ ๋ค์ํ task๋ฅผ ์ง์ํ ์ ์๊ฒ ๊ณ ์๋์๋ค. ๋ฐ๋ก special token์ ์ฌ์ฉํ์ฌ task์ conditioning information์ decoder์ ์ ๋ ฅ์ ํจ๊ป ๋ฃ์ด ์ฃผ๋ ๊ฒ์ด๋ค.
<|nospeech|>
: predict no speech in an audio segment<|transcribe|>
๋๋<|translate|>
: ์ด๋ค task์ธ์ง specificํ๊ฒ ์ค์ ํด ์ค๋ค.
์ฌ๋ด์ด์ง๋ง ์ ๊ทธ๋ฆผ์ ํ๊ตญ์ด๊ฐ ์์ด์ ๋๋ฌด ๋ฐ๊ฐ์ ๋ค.
2.4 Training Details
๋ค์ํ ๋ชจ๋ธ ํฌ๊ธฐ๋ก ์คํํ์๋ค. ์ ์ ์์ epoch๋ง ํ์ตํ๊ธฐ ๋๋ฌธ์ ๊ณผ์ ํฉ์ ๋ฐ๋ก ๊ณ ๋ คํ์ง ์์๋ ๋๋ค. robustness์ generalization์ ๋์ด๊ธฐ ์ํด data augmentation์ด๋ normalization์ ๋ฐ๋ก ์ฌ์ฉํ์ง ์์๋ค.
3. Experiments
3.1 Zero-shot Evaluation
open source dataset์ ์ฌ์ฉํ์ฌ zero-shot์ผ๋ก evaluationํ์๋ค. ๋ณดํต ํ์ตํ ๋ชจ๋ธ์ ํ๊ฐํ ๋๋ train๊ณผ ๊ฐ์ distribution์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค. ํ์ง๋ง Whisper์์๋ ์ฌ๋ฌ ์ธ์ด ๊ด๋ จ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ด robustํ์ง ํ์ธํ๊ณ ์ ํ๋ค.
3.2 Evaluation Metrics
์์ฑ ์ธ์(ASR) ๋ถ์ผ์์๋ ์ ํต์ ์ผ๋ก WER(Word Error Rate)๊ฐ ํ๊ฐ ์งํ๋ก ์ฌ์ฉ๋๋ค. WER์ string edit-distance๊ธฐ๋ฐ์ด๋ค. WER์ ๋ฌธ์ ์ ์ ๋ณํ๋ transcipt์์ ์ฌ๋์๊ฒ๋ ์ ํ ๋ฌธ์ ๊ฐ ๋์ง ์๋ ์ฐจ์ด๋ ๋ฐ์ํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ํน์ task์์์ ๋ฐ์ดํฐ format์ ๋ฐ์ํ์ง ์๋ Zero-shot ๋ชจ๋ธ์์๋ ํฐ ๋ฌธ์ ๊ฐ ๋๋ฏ๋ก ์ ์๋ค์ non-semantic difference๋ฅผ ์ ์ธํ WER๋ฅผ ๋น๊ตํ์๋ค.
3.3 English Speech Recognition
์ ์๋ค์ WER์ด ํ์ต๋ ๋ฐ์ดํฐ์ ์ ์น์ค๋ ํ๊ฐ ์งํ๋ผ ๋นํํ๋ค. ๊ทธ๋ฌ๋ฉด์ ์ธ๊ฐ๊ณผ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ๋ฉด์ ํ๊ฐ๋ฐ๋๋ค๋ ํฅ๋ฏธ๋ก์ด ์ฃผ์ฅ์ ์ ์ํ์๋ค. ์ธ๊ฐ์ distribution์ ๊ตฌ์ ๋ฐ์ง ์๋๋ค. ์ฆ ์ธ๊ฐ์ generalization๋ ๋ถํฌ ๋ฐ์์ ์ธก์ ๋๋ค. ํ์ง๋ง ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ distribution์ conditioned๋๋ค. ์ฆ, ๋ชจ๋ธ ์ฑ๋ฅ์ distribution ๋ด์ generalization์ผ๋ก ๊ฒฐ์ ๋๋ค.
๊ธฐ์กด ๋ชจ๋ธ(ํ๋์)๊ณผ ๋ค๋ฅด๊ฒ Whisper(๋ณด๋ผ์)์ ์ธ๊ฐ(์ฃผํฉ์)๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ค. ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํ์ตํ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ์๋น์ด ๋์ WER ๊ฐ์ ๋ณด์ธ๋ค.
3.4 Multi-lingual Speech Recognition
VoxPopuli ๋ฐ์ดํฐ์ ์์๋ Whisper๊ฐ ๋ค๋ฅธ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋นํด ๋ ๋์ WER๋ฅผ ๋ณด์ธ๋ค. Whisper๋ Zero-shot์ธ๋ฐ ๋ฐํด ๊ธฐ์กด ๋ชจ๋ธ๋ค์ Fine-Tuning์ผ๋ก VoxPopuli ๋ฐ์ดํฐ์ distribution์ด ๋ํด ํ์ตํด์ฉ ๋๋ฌธ์ด๋ค. ๋ค๋ฅด๊ฒ ์ค๋ช ํ๋ฉด, ๋ค์ํ distribution ์ ๊ฐ๋ audio dataset ์ ๋ํด์ speech recognition ์ ์ํํ๋ ๊ฒฝ์ฐ์๋ fine-tuning ์์ ์ฌ์ฉํ dataset ์์ ๊ฒ์ฆ๋ ์ฑ๋ฅ๋ณด๋ค ์ค์ ์ฑ๋ฅ์ด ์ข์ง ์์ ์ ๋ฐ์ ์๋ ๊ฒ์ด๋ค.
pretraining dataset์์ ํด๋น ์ธ์ด์ ๋ฐ์ดํฐ๊ฐ ์ฐจ์งํ๋ ์๊ณผ ๊ทธ WER์ ์๊ด๊ด๊ณ๋ $R^2=0.84$๋ก ๊ต์ฅํ ๋๊ฒ ๋์จ๋ค.