Chạy các mô hình AI riêng trên VPS: Hướng dẫn DeepSeek & Llama
Tìm hiểu cách chạy các LLM mạnh mẽ như DeepSeek-R1 và Llama 3 trên VPS của riêng bạn để có được sự riêng tư dữ liệu tuyệt đối.

AI đang thay đổi cách chúng ta làm việc, nhưng việc sử dụng các mô hình dựa trên đám mây như ChatGPT đồng nghĩa với việc chia sẻ dữ liệu nhạy cảm của bạn với các tập đoàn. Xu hướng hiện nay là AI cục bộ (Local AI). Với VPS hiệu suất cao từ Hiddence (đặc biệt là các gói Ryzen 9 và Intel Core i9 của chúng tôi), bạn có thể vận hành trung tâm trí tuệ của riêng mình trên đám mây, giữ cho các câu lệnh và dữ liệu của bạn riêng tư 100%.
Yêu cầu phần cứng
Các LLM cần RAM và CPU nhanh. Chúng tôi khuyên dùng:
- Tối thiểu: RAM 16GB cho các mô hình 7B/8B (Llama 3, DeepSeek-7B)
- Khuyên dùng: RAM 32GB trở lên cho các mô hình lớn hơn hoặc ngữ cảnh cao hơn
- CPU: AMD Ryzen 9 hoặc Intel Core i9 hiện đại để suy luận nhanh mà không cần GPU
1. Cài đặt Ollama
Ollama là cách dễ nhất để chạy các LLM trên Linux.
curl -fsSL https://ollama.com/install.sh | sh2. Tải xuống mô hình của bạn
Để lập trình và thực hiện các tác vụ chung, DeepSeek-R1 là một sự lựa chọn hàng đầu. Để trò chuyện thông thường, Llama 3 là một lựa chọn tuyệt vời.
ollama pull deepseek-r1:8b
# HOẶC
ollama pull llama33. Cung cấp qua API (An toàn)
Ollama cung cấp một API tương thích với OpenAI. Bạn có thể tạo đường hầm qua SSH để truy cập nó một cách an toàn từ máy cục bộ mà không cần đưa nó lên web công cộng.
ssh -L 11434:localhost:11434 root@your-vps-ip
# Bây giờ hãy truy cập http://localhost:11434 trong các ứng dụng cục bộ của bạn