Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.
Спецификация для компактной рабочей станции HP 805D SFF.
| Компонент | Спецификация | Детали |
|---|---|---|
| Производитель/Модель БП | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 |
| OEM-производитель | Delta Electronics / Lite-On | Модель: DPS-500AB-51 A / PA-5501-2HA |
| Форм-фактор | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF |
| Разъемы питания | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты |
| Сертификация | 80 Plus Platinum | Высокий КПД, низкое тепловыделение |
Возможности апгрейда для корпуса SFF.
| Модель GPU (Low Profile) | VRAM | Длина | Ключевые AI-модели (2026) |
|---|---|---|---|
| NVIDIA GeForce RTX 4060 LP | 8 GB | ~182 мм | Llama 3.2 (8B), Mistral 7B, Qwen 2.5/3, Stable Diffusion XL |
| NVIDIA GeForce RTX 3050 LP (8GB) | 8 GB | ~182 мм | Llama 3.1 (8B), Qwen 2.5 (7B), Stable Diffusion 1.5/XL |
| NVIDIA GeForce GTX 1660 Ti LP | 6 GB | ~182 мм | Phi-3.5 Mini, Gemma 2 (2B/9B) |
| NVIDIA GeForce RTX 3050 LP (6GB) | 6 GB | ~170 мм | Gemma 2 (2B), DeepSeek Coder 7B |
| Семейство AI | Конкретные модели (для 8GB VRAM) | Особенности работы |
|---|---|---|
| Qwen (Alibaba) | Qwen 2.5 / Qwen 3 (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). |
| DeepSeek | DeepSeek-V3 (Lite), DeepSeek-Coder-V2 (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. |
| Meta & Open Source | Llama 3.2 (3B/8B), Mistral NeMo (12B) | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. |
| Мультимодальные | Llama 3.2 Vision (11B), Qwen2-VL (7B) | Позволяют анализировать изображения. Требуют оптимизации и квантования. |
| Локальные агенты | OpenDevin, AutoGPT (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. |
| Объем VRAM | Рекомендуемый битность (2026) | Пример модели | Тип квантования (GGUF) | Комментарий |
|---|---|---|---|---|
| 8 ГБ (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | IQ3_M, Q4_K_M | Баланс качества и размера. Для 7B-8B можно Q5_K_M. |
| 12 ГБ (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | Q4_K_M, Q5_K_M, Q6_K | Лучшее качество. 14B модели в Q4_K_M работают идеально. |
| 16+ ГБ (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | Q8_0, FP16 | Запуск больших моделей с минимальной деградацией. |
| Модель AI | Параметры | Оптимальное квантование | Скорость/Качество | Назначение |
|---|---|---|---|---|
| DeepSeek R1 (Distill) | 14B | Q5_K_M | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ |
| Qwen 3 | 14B | Q4_K_M / Q5_K_M | Отличная скорость, лучший русский | Универсальный чат, функции |
| Gemma 3 (2026) | 12B | Q6_K | Высокое качество, креативность | Творчество, письмо |
| DeepSeek Coder V2 | 16B | IQ4_XS / Q4_K_M | Эталон для кода, хорошая скорость | Программирование, аудит кода |
| Mistral NeMo | 12B | Q6_K | Стабильно, создана под 12 ГБ | Универсальная, инструменты |
| GLM-5 | 9B | Q8_0 | Максимальное качество | Мультимодальность (Vision) |
| OLMo-3-13B-Instr. | 13B | Q6_K | Высокое качество, открытая | Исследования, анализ |
| Ministral 8B | 8B | Q8_0 | Очень высокая скорость | Автоматизация (n8n, JSON) |
| Модель AI | Параметры | Оптимальное квантование | Комментарий |
|---|---|---|---|
| DeepSeek R1 (Distill) | 14B | IQ3_M | Работает на грани, но качество стоит того. |
| Qwen 3 | 14B | IQ3_M | Основной выбор для универсальных задач. |
| Gemma 3 (2026) | 12B | IQ3_M / Q4_K_M | Отличный баланс для творческих задач. |
| DeepSeek Coder V2 | 16B | IQ2_M | Единственный способ запустить 16B на 8 ГБ. |
| Mistral NeMo (L3.1) | 12B | Q3_K_M | Стабильная работа, хорошая скорость. |
| Reflection 1 (L3.1) | 8B | Q5_K_M | Механизм самокоррекции, качественно. |
| Qwen 2.5 Coder | 7B | Q6_K / Q8_0 | Летает, отличное качество кода для размера. |
| Llama 3.2 | 8B | Q6_K | Надежный и предсказуемый стандарт. |
| Модель | Параметры | Команда скачивания | Назначение |
|---|---|---|---|
| Qwen 3 | 7B | docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n |
| DeepSeek R1 | 14B | docker exec -it ollama ollama pull deepseek-r1:14b | Сложная логика и кодинг (через рассуждения) |
| Mistral NeMo | 12B | docker exec -it ollama ollama pull mistral-nemo | Анализ длинных документов и суммаризация |
| Llama 3.2 | 3B | docker exec -it ollama ollama pull llama3.2:3b | Мгновенная классификация (самая быстрая) |
| Название модели | Параметры | Квантование (12GB) | Квантование (8GB) | Особенности |
|---|---|---|---|---|
| DeepSeek-Coder-V2-Lite | 16B | Q5_K_M | IQ2_M | Лучшая модель для кода на 2026 год. |
| Qwen 2.5/3 Coder | 7B/14B | Q8_0 / Q4_K_M | Q6_K / IQ3_M | Быстрая, отличная поддержка языков. |
| CodeLlama | 13B | Q6_K | Q3_K_S | Проверенная классика, стабильна. |
| Phind-CodeLlama | 34B | IQ3_M (partial) | Не рекомендуется | Очень умная, но требует много RAM. |
| Granite-Code (IBM) | 8B | Q8_0 | Q6_K | Легкая и быстрая для интеграции в IDE. |
| Базовая модель | Популярные чекпоинты | Требования VRAM | Комментарий для 12 ГБ |
|---|---|---|---|
| Stable Diffusion XL (SDXL) | Pony Diffusion V6, RealVisXL | ~10-12 ГБ | Идеально. Генерация 1024x1024 без проблем. |
| Stable Diffusion 1.5 | Realistic Vision, ChilloutMix | ~4-6 ГБ | Огромная база LoRA, очень быстрая. |
| Flux.1 (Schnell/Dev) | RealismLoRA, Flux-Pony | 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. |
| Pony Diffusion | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. |
| Модель AI | Роль | Квантование (8-12GB) | Критерий |
|---|---|---|---|
| Qwen 2.5/3 (7B) | Универсальный диспетчер | Q8_0 / Q5_K_M | Идеален для JSON и вызова функций. |
| DeepSeek-V3-Distill (14B) | Сложная логика, ветвление | Q4_K_M / IQ3_M | Высокая точность следования инструкциям if/else. |
| Nemotron 3 Nano (4B) | Экстракция текста в JSON | Q8_0 | Сверхбыстрая, только структурирование. |
| Mistral NeMo (12B) | Работа с документами (RAG) | Q6_K | Отлично держит длинный контекст. |
| SmolLM 2/3 (1.7B) | Микро-агент, классификация | Q8_0 | Только JSON, скорость >150 токенов/сек. |
| Тип | ~Биты | Качество | Рекомендация |
|---|---|---|---|
| Q8_0 | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. |
| Q6_K | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. |
| Q5_K_M | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. |
| Q4_K_M | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество". |
| Q3_K_M | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. |
| Q2_K | 3.3 | Низкое | Только для ознакомления, возможны "галлюцинации". |
| Тип | ~Биты | Особенности | Применение |
|---|---|---|---|
| IQ4_XS | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. |
| IQ3_M | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). |
| IQ3_XS | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. |
| IQ2_M | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. |
| Суффикс | Значение |
|---|---|
| \_S (Small) | Максимальное сжатие в группе (экономия памяти). |
| \_M (Medium) | Рекомендуемый вариант (баланс точности и размера). |
| \_L (Large) | Минимальное сжатие (лучшее качество, большой файл). |
| Категория | Инструмент | Ссылка | Описание |
|---|---|---|---|
| GUI-клиент | LM Studio | LM Studio | Основной графический интерфейс для GGUF моделей. |
| CLI-движок и API | Ollama | Ollama | Простой CLI для управления моделями, идеален для фоновой работы и API. |
| Продвинутый GUI | Faraday.dev | Faraday.dev | Альтернатива с встроенным RAG и утилитами. |
| Веб-интерфейс | Oobabooga | Oobabooga | Продвинутый веб-интерфейс с поддержкой множества бэкендов. |
| Категория | Инструмент | Ссылка | Описание |
|---|---|---|---|
| Автоматизация рабочих процессов | n8n | n8n | Платформа для создания AI-агентов и автоматизации. |
| AI-редактор кода | Cursor | Cursor | Продвинутый редактор с глубокой интеграцией локальных LLM через API. |
| Плагин для VS Code | Continue.dev | Continue.dev | Плагин для использования локальных LLM прямо в VS Code. |
| Терминальный агент | OpenDevin | OpenDevin | Агент для выполнения задач через терминал. |
| Категория | Инструмент | Ссылка | Описание |
|---|---|---|---|
| Веб-интерфейс для SD | Forge UI (A1111 Fork) | Forge UI | Самый быстрый и современный интерфейс для Stable Diffusion. |
| Платформа для моделей | Civitai | Civitai | Основная библиотека чекпоинтов, LoRA, Embeddings. |
| Альтернативный интерфейс | ComfyUI | ComfyUI | Визуальное программирование пайплайнов генерации. |
| Ресурс | Ссылка | Описание |
|---|---|---|
| Hugging Face | Hugging Face | Главный хаб для всех открытых моделей ИИ. |
| TheBloke (автор GGUF) | TheBloke | Основной источник качественно квантованных GGUF моделей. |
| bartowski (автор GGUF) | bartowski | Качественные квантования, особенно для 12 ГБ карт. |
| mradermacher (автор IQ) | mradermacher | Специализируется на IQ-квантах для 8 ГБ карт. |
Скачивайте файлы `.gguf` для использования в LM Studio или Ollama.
| Модель AI | Параметры | Автор квантования (HF) | Рекомендуемый файл | Прямая ссылка |
|---|---|---|---|---|
| DeepSeek R1 (Distill) | 14B | mradermacher | `IQ3_M.gguf` (8GB) | Скачать |
| DeepSeek R1 (Distill) | 14B | bartowski | `Q5_K_M.gguf` (12GB) | Скачать |
| Qwen 3 | 14B | mradermacher | `IQ3_M.gguf` (8GB) | Скачать |
| Qwen 3 | 14B | bartowski | `Q4_K_M.gguf` (12GB) | Скачать |
| Gemma 3 (2026) | 12B | bartowski | `Q6_K.gguf` (12GB) | Скачать |
| DeepSeek Coder V2 | 16B | mradermacher | `IQ2_M.gguf` (8GB) | Скачать |
| DeepSeek Coder V2 | 16B | mradermacher | `IQ4_XS.gguf` (12GB) | Скачать |
| Mistral NeMo | 12B | TheBloke | `Q3_K_M.gguf` (8GB) | Скачать |
| Mistral NeMo | 12B | TheBloke | `Q6_K.gguf` (12GB) | Скачать |
| GLM-5 | 9B | TheBloke | `Q8_0.gguf` (12GB) | Скачать |
Рекомендация по загрузке: Для RTX 3080 Ti (12 ГБ) ищите модели от автора `bartowski` — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте `Q4_K_M` или `Q5_K_M`. Для RTX 4060 (8 ГБ) ищите модели от `mradermacher` (специализируется на IQ-квантах для 8 ГБ) или `bartowski`. Для моделей 12B-14B берите версию `IQ3_M`.
Для отслеживания новостей в мире открытых моделей:
# Установка Qwen Code Agent $ npm install -g @qwen-code/qwen-code $ qwen --version
# Установка Gemini CLI $ npm install -g @google/gemini-cli $ gemini
# Установка Ollama $ curl -fsSL https://ollama.com/install.sh | sh $ ollama run llama3.2