AI Models

Это старая версия документа!

Компонент	Модель / Название	Параметры и Совместимость
Блок питания	HP 500W Platinum SFF	P/N: L89233-001 / L77487-001
Производитель	Delta Electronics / Lite-On	Модель: DPS-500AB-51 A / PA-5501-2HA
Разъемы	Фирменные HP (4+4+7 pin)	В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты
Форм-фактор	SFF (Small Form Factor)	Устанавливается внутрь корпуса HP 805D SFF
Эффективность	80 Plus Platinum	Максимальный КПД и низкий нагрев

Модель GPU (Low Profile)	VRAM	Длина	Рекомендуемые AI-модели (2026)
GeForce RTX 4060 LP	8 GB	~182 мм	Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL
GeForce RTX 3050 LP	8 GB	~182 мм	Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11
GeForce GTX 1660 Ti LP	6 GB	~182 мм	Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5
GeForce RTX 3050 LP	6 GB	~170 мм	Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B

Семейство AI	Конкретные модели (для 8GB VRAM)	Особенности работы на вашем железе
Qwen (Alibaba)	Qwen 2.5 / 3 (7B, 14B 4-bit)	Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2).
DeepSeek	DeepSeek-V3 (Lite), DeepSeek-Coder-V2	Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров.
Open Source (OSS)	Llama 3.2 (3B/8B), Mistral NeMo (12B)	Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы.
Мультимодальные	Llama 3.2 Vision (11B), Qwen2-VL	Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации.
Локальные агенты	OpenDevin, AutoGPT (на базе Qwen 7B)	Можно запускать полноценных AI-агентов для автоматизации задач на ПК.

Модель AI	Параметры	Рекомендуемое квантование	Настройки LM Studio (GPU Offload)
DeepSeek-V3	671B (MoE)	IQ2_XS / IQ2_M	Не влезет в VRAM. Использовать только через API или GGUF с системной RAM.
DeepSeek-Coder-V2	16B	Q5_K_M или Q6_K	Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек.
Qwen 2.5 / 3	14B / 32B	14B: Q8_0; 32B: Q3_K_M	14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM).
Llama 3.1 / 3.2	8B / 70B	8B: Q8_0 (FP16); 70B: IQ1_S	8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM).
Mistral NeMo	12B	Q6_K или Q8_0	Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты.
Gemma 2	9B / 27B	9B: Q8_0; 27B: Q3_K_L	9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев).
Command R	35B	IQ3_M	Частичный оффлоуд. Хорошо подходит для RAG (работы с документами).

Название модели	Параметры	Квантование (12GB VRAM)	Настройка в LM Studio
DeepSeek-Coder-V2-Lite	16B	Q5_K_M (или Q6)	Full GPU Offload. Лучшая модель для кода на сегодня.
Qwen 2.5 Coder	7B	Q8_0 (FP16)	Full GPU Offload. Самая быстрая, идеальна для простых скриптов.
CodeLlama	13B	Q6_K	Full GPU Offload. Проверенная классика от Meta.
Phind-CodeLlama	34B	IQ3_M	Partial Offload (20-24 слоя). Очень умная, но требует системной RAM.
Granite-Code (IBM)	8B	Q8_0	Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code.

Модель для кодинга	Параметры	Квантование (для 12GB)	Скорость / Настройка
DeepSeek-Coder-V2-Lite	16B	Q4_K_M (или IQ4_XS)	Full GPU Offload. Самая мощная модель для кода, влезающая в 12ГБ.
Qwen 2.5 Coder	7B	Q8_0 (Макс. качество)	Full GPU Offload. Невероятная скорость, идеальна для автодополнения.
StarCoder 2	15B	Q5_K_M	Full GPU Offload. Оптимизирована для работы с большим контекстом.
CodeLlama	13B	Q6_K	Full GPU Offload. Проверенная временем модель от Meta.

$ npm install -g @qwen-code/qwen-code
$ qwen --version

$ npm install -g @google/gemini-cli
$ gemini

Alibaba Group объявила о выходе модели искусственного интеллекта Qwen3-Coder — она доступна с открытым исходным кодом и предназначается для написания программного кода.

Agents