The Lottery Ticket Hypothesis와 그 후속 연구들 리뷰

History

2020.11.19.	초안 작성.

들어가기 전에

이 글은 무엇을 다루는가?

머신 러닝 분야의 탑 티어 컨퍼런스 중 하나인 ICLR 2019의 Best Paper Award를 수상한 The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks와 그 후속 연구들을 다룹니다.

현재의 딥러닝 모델은 데이터의 수와 복잡성에 비해서도 훨씬 많은 파라미터를 사용하고 있습니다. 일반적으로 머신 러닝에서 the curse of dimensionality라는 이야기를 합니다. 요약하면 '더 많은 파라미터', '더 복잡한 모델'은 데이터의 수가 적을 경우 거의 암기해버리기 때문에 문제가 된다는 이야기인데요. 아래의 맨 왼쪽 그림처럼 과적합(Overfit)이 일어난다면 현재 주어진 학습 데이터는 정확하게 맞추지만 현실의 데이터는 바르게 추론할 수 없게됩니다. 중간지점이 가장 이상적이라고 할 수 있습니다.

출처 : CURSE OF DIMENSIONALITY - Builtin

하지만 딥뉴럴넷과 경사하강법(Gradient Descent)은 자체적으로 어느 정도 정규화(regularization) 효과가 존재하며, 그 결과 빅데이터와 딥러닝의 조합이 훌륭한 특징점 추출기(feature extractor)를 만드는 현존하는 최고의 방법(state-of-the-art)라는 것이 알려져 있습니다.

하지만 이 논문에서는 아래와 같은 가설을 제시합니다.

The Lottery Ticket Hypothesis. A randomly-initialized, dense neural network contains a subnetwork that is initialized such that—when trained in isolation—it can match the test accuracy of the original network after training for at most the same number of iterations.

번역하면 다음과 같습니다.

무작위로 초기화된 밀집된 딥뉴럴넷에서 어떤 부분을 가져왔을 때, 따로 트레이닝 하더라도, 기존의 네트워크와 같은 성능을 같은 학습 횟수 내에 달성할 수 있을 것이다.

이게 무슨 이야기일까요? 일반적으로 딥뉴럴넷의 트레이닝에는 비싼 GPU를 많이 필요로 합니다.

GPU Memory를 마지막 한톨까지 뽑아먹고 있는 랩메이트

그런데 아래와 같이 기존의 밀집된 네트워크에서 부분을 가져와서 학습을 시킬 수 있다면 훨씬 GPU를 적게 쓰면서도 학습 속도도 빨라질 것입니다. 그러나 모델의 크기가 줄어들면 학습할 수 있는 양도 줄어들기 때문에 당연히 성능이 떨어지기 마련입니다.

하지만 이 논문에서는 오른쪽과 같이 부분적인 네트워크를 잘 골라내면 기존의 큰 네트워크와 같은 효과를 낼 수 있을 거라고 생각했는데 그게 바로 Lottry Ticket Hypothesis입니다.

그리고 이 논문에서는 그 방법중에 하나로 (대단히 비효율적인)Iterative Manitude Pruning을 통해 부분 네트워크를 잘 찾는 방법을 제안합니다. 그리고 이 논문에 영감을 받은 많은 연구자들이 효율적으로 잘 찾는 방법을 많이 제시하는데 그게 이 글의 주제입니다.

History

들어가기 전에

이 글은 무엇을 다루는가?

어떤 기반 지식이 필요한가?