Это старая версия документа!


AI Models

Блок питания (Спецификации)

Компонент Модель / Название Параметры и Совместимость
Блок питания HP 500W Platinum SFF P/N: L89233-001 / L77487-001
Производитель Delta Electronics / Lite-On Модель: DPS-500AB-51 A / PA-5501-2HA
Разъемы Фирменные HP (4+4+7 pin) В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты
Форм-фактор SFF (Small Form Factor) Устанавливается внутрь корпуса HP 805D SFF
Эффективность 80 Plus Platinum Максимальный КПД и низкий нагрев

Совместимые видеокарты NVIDIA и AI-модели

Модель GPU (Low Profile) VRAM Длина Рекомендуемые AI-модели (2026)
GeForce RTX 4060 LP 8 GB ~182 мм Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL
GeForce RTX 3050 LP 8 GB ~182 мм Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11
GeForce GTX 1660 Ti LP 6 GB ~182 мм Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5
GeForce RTX 3050 LP 6 GB ~170 мм Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B
Семейство AI Конкретные модели (для 8GB VRAM) Особенности работы на вашем железе
Qwen (Alibaba) Qwen 2.5 / 3 (7B, 14B 4-bit) Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2).
DeepSeek DeepSeek-V3 (Lite), DeepSeek-Coder-V2 Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров.
Open Source (OSS) Llama 3.2 (3B/8B), Mistral NeMo (12B) Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы.
Мультимодальные Llama 3.2 Vision (11B), Qwen2-VL Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации.
Локальные агенты OpenDevin, AutoGPT (на базе Qwen 7B) Можно запускать полноценных AI-агентов для автоматизации задач на ПК.

RTX 3080 Ti (12GB VRAM) в LM Studio

Модель AI Параметры Рекомендуемое квантование Настройки LM Studio (GPU Offload)
DeepSeek-V3 671B (MoE) IQ2_XS / IQ2_M Не влезет в VRAM. Использовать только через API или GGUF с системной RAM.
DeepSeek-Coder-V2 16B Q5_K_M или Q6_K Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек.
Qwen 2.5 / 3 14B / 32B 14B: Q8_0; 32B: Q3_K_M 14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM).
Llama 3.1 / 3.2 8B / 70B 8B: Q8_0 (FP16); 70B: IQ1_S 8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM).
Mistral NeMo 12B Q6_K или Q8_0 Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты.
Gemma 2 9B / 27B 9B: Q8_0; 27B: Q3_K_L 9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев).
Command R 35B IQ3_M Частичный оффлоуд. Хорошо подходит для RAG (работы с документами).

Модели для кодинга (Python, JS, C++, SQL и др.)

Название модели Параметры Квантование (12GB VRAM) Настройка в LM Studio
DeepSeek-Coder-V2-Lite 16B Q5_K_M (или Q6) Full GPU Offload. Лучшая модель для кода на сегодня.
Qwen 2.5 Coder 7B Q8_0 (FP16) Full GPU Offload. Самая быстрая, идеальна для простых скриптов.
CodeLlama 13B Q6_K Full GPU Offload. Проверенная классика от Meta.
Phind-CodeLlama 34B IQ3_M Partial Offload (20-24 слоя). Очень умная, но требует системной RAM.
Granite-Code (IBM) 8B Q8_0 Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code.

12 ГБ VRAM

Модель для кодинга Параметры Квантование (для 12GB) Скорость / Настройка
DeepSeek-Coder-V2-Lite 16B Q4_K_M (или IQ4_XS) Full GPU Offload. Самая мощная модель для кода, влезающая в 12ГБ.
Qwen 2.5 Coder 7B Q8_0 (Макс. качество) Full GPU Offload. Невероятная скорость, идеальна для автодополнения.
StarCoder 2 15B Q5_K_M Full GPU Offload. Оптимизирована для работы с большим контекстом.
CodeLlama 13B Q6_K Full GPU Offload. Проверенная временем модель от Meta.
$ npm install -g @qwen-code/qwen-code
$ qwen --version
$ npm install -g @google/gemini-cli
$ gemini
  • Sora 2
  • Kling AI
  • Veo 3
  • Hailuo
  • Seedance
  • Wan
  • Alibaba Group объявила о выходе модели искусственного интеллекта Qwen3-Coder — она доступна с открытым исходным кодом и предназначается для написания программного кода.