• 임의로 아무 콘텐츠나 시도해보며 콘텐츠의 반응률을 유추하는 과정을 탐색 (explore) 라고 부르며, 지금까지 반응률이 가장 높았던 콘텐츠를 노출시키는 것을 활용 (exploit) 이라 부른다.
  • Exploit 과 explore 는 trade-off 관계이므로, 이 둘을 잘 조절하는 것이 Multi-Armed Bandit 의 핵심이다.

Thompson sampling

예시

|400