Open Challenges in LLM Research
현재 연구되고 있는 LLM 고도화 방향
특정 부분을 개선하면 우리만의 세일즈 포인트를 찾아볼 수 있을지…?
개선 포인트에서 현실성이 떨어지는 부분은 제외함
A.1) 할루시네이션 감소
- 창의적인 task 에서는 환각은 일종의 feature 역할을 한다. 하지만 대부분의 경우 버그 취급.
- 환각 현상을 줄이는 것도 중요하고, 현상을 측정하는 metric 을 develop 하는것도 중요하다.
- Ad-hoc 방식의 트릭이 존재: 프롬프트를 자세하게 쓰거나, chain-of-thought, self-consistency 등
A.2) Context 길이 및 구성 최적화
A.2.1) Context in LLM
- QA 상황에서 대부분의 질문은 context 를 요구함
- 예를 들어, “ 최고의 베트남 음식 전문점은 어딘가?” → 미국에서 최고? 베트남에서 최고?
- QA 상황에서 16.5% 의 질문이 context 에 의존적인 질문임
- 하지만 엔터프라이즈 환경에서는 해당 지분이 더 높을것임
- 예를 들어, 고객은 단순히 어떤 물품에 대한 질답을 원하지 않고, 사용자 히스토리나, 물품 정보에 기반한 대답을 원함
- (charlie) 요약 task 도 context 가 요구될 수 있음. 단순히 몇 줄 요약이 아니라, 대화 내 여행/쇼핑 내용 위주의 요약을 해달라는 등의 구체적인 요청이 발생할 수 있음.
A.2.2) Context Length and Efficiency
- Context 길이는 특히 RAG 에서 중요함
- 길이가 길수록 벡터 DB 에 저장할 수 있는 document 의 context 압축 정도가 향상됨 → 더 많은 데이터에 접근할수록 더 나은 응답을 기대
- 그럼 context 길이를 무작정 늘리면 좋은거냐?
- 그렇지만도 않음. context 를 어떻게 효율적으로 사용하냐도 중요함.
- 어떤 논문에서는 언어 모델은 일반적으로 context 의 앞과 끝 부분에 비해, 가운데 부분을 잘 활용하지 못한다고 주장.
- (charlie) 요약 모델의 경우 context 가 긴것을 선호하지만, 막상 context 를 늘렸을 때 실제 성능이 잘 나올 수 있을지는 추가적으로 고려할 문제
A.3) 더 저렴하고 빠른 LLM
-
Four major techniques for model optimization/compression:
- Quantization: Quantization reduces a model’s size by using fewer bits to represent its parameters, e.g. instead of using 32 bits to represent a float, use only 16 bits, or even 4 bits.
- Knowledge distillation: a method in which a small model (student) is trained to mimic a larger model or ensemble of models (teacher).
- Low-rank factorization (e.g. LoRA): the key idea here is to replace high-dimensional tensors with lower-dimensional tensors to reduce the number of parameters.
- Pruning
-
매우 challenging 하지만, 새로운 하드웨어가 나오는 이상 피할수 없다.
- new architecture will need to be optimized for common hardware, and hardware will need to support common architecture
A.4) Agent 를 더 유용하게
A.5) 사용자 선호도로 부터 학습하기
A.6) 비 영어권 LLM 모델 만들기
- 영어 기반 LLM 모델에서 비 영어는 영어보다 성능과 속도 모두 취약하다.
- 예를 들어, ChatGPT 토크나이저에서는 평균적으로 한국어보다 약 2.2 배 정도 더 많은 토큰이 필요하다 (All languages are NOT created (tokenized) equal).
- 더 많은 토큰을 요구할수록 (1) prompt 에 입력할 수 있는 정보량이 제한되고, (2) 더 많은 비용이 필요하며, (3) 더 실행에 오랜시간이 걸린다.
- 사실 이 이슈는 모두 어떻게 해결하는지 알고 있다: 모델에 특정 언어의 데이터를 학습시키기만 하면 된다.
- 하지만 쉽지 않다. (1) 영어나 중국어에 비해 좋은 퀄리티의 데이터가 부족하며, (2) 투자할 비용과 노력도 부족하다.
- 다른 언어를 학습할때는 다른 학습 방식이 필요할지 모른다.
B) Discussion
그 외의 것들
- evaluation
- Interpretable
- multi-modality