• Some Prototypical Examples
  • standard Gaussian distribution 3 개에서 sampling 을 하는데, 가장 큰 값만을 이용해 분포를 만들면, mean 값이 0.85 가 나온다.
  • 즉, expected disappointment 가 된다.

  • Expected disappointment 는 distribution (reward model or action) 이 더 많아질수록 커진다.