- Published on
Trong bài viết này mình sẽ giới thiệu về một chủ đề khá hot hiện nay là Large Language Model (LLM). Nội dung chính mình muốn trình bày là cách host một model trên Kubernetes cluster (on-premise) của mình bằng llama.cpp, đây là một giải pháp cho phép chúng ta host mà không cần sử dụng GPU.