1 min read
... 수 있음으로 딥러닝 모델 사용시에 매우 유효한 최적화 전략 중 하나입니다. Kernel Fusion 을 수행하는 방법으로는 직접 Kernel 을 CUDA C++ 로 작성하는 방법이 있고, TensorRT 와 같이 자동으로 Kernel Fusion 을 지원하는 툴들을 이용하여 학습된 모델을 최적화 하는 방법도 있습니다. C) Related D) References 새로운 루다를 지탱하는 모델...
Triton Triton Inference Server 는 딥러닝 모델을 높은 성능으로 서빙을 할 수 있는 오픈소스 추론서버입니다. ONNX, TensorFlow, PyTorch, TensorRT 와 같은 다양한 딥러닝 프레임워크를 지원하며 다양한 모델 실행과 효율적인 배치 전략을 통해 하드웨어 활용도를 극대화할 수 있도록 최적화 설계되었습니다 (C++ base). B) Reposi...