Это старая версия документа!


AI Models & Hardware Guide

Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.


Спецификация для компактной рабочей станции HP 805D SFF.

Компонент Спецификация Детали
Производитель/Модель БП HP 500W Platinum SFF P/N: L89233-001 / L77487-001
OEM-производитель Delta Electronics / Lite-On Модель: DPS-500AB-51 A / PA-5501-2HA
Форм-фактор SFF (Small Form Factor) Для установки в корпус HP 805D SFF
Разъемы питания Проприетарные HP (4+4+7 pin) В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты
Сертификация 80 Plus Platinum Высокий КПД, низкое тепловыделение

Возможности апгрейда для корпуса SFF.

Модель GPU (Low Profile) VRAM Длина Ключевые AI-модели (2026)
NVIDIA GeForce RTX 4060 LP 8 GB ~182 мм Llama 3.2 (8B), Mistral 7B, Qwen 2.5/3, Stable Diffusion XL
NVIDIA GeForce RTX 3050 LP (8GB) 8 GB ~182 мм Llama 3.1 (8B), Qwen 2.5 (7B), Stable Diffusion 1.5/XL
NVIDIA GeForce GTX 1660 Ti LP 6 GB ~182 мм Phi-3.5 Mini, Gemma 2 (2B/9B)
NVIDIA GeForce RTX 3050 LP (6GB) 6 GB ~170 мм Gemma 2 (2B), DeepSeek Coder 7B

Семейство AI Конкретные модели (для 8GB VRAM) Особенности работы
Qwen (Alibaba) Qwen 2.5 / Qwen 3 (7B, 14B 4-bit) Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2).
DeepSeek DeepSeek-V3 (Lite), DeepSeek-Coder-V2 (Lite) Идеально для программирования. Рекомендуются модели до 7B-16B параметров.
Meta & Open Source Llama 3.2 (3B/8B), Mistral NeMo (12B) Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество.
Мультимодальные Llama 3.2 Vision (11B), Qwen2-VL (7B) Позволяют анализировать изображения. Требуют оптимизации и квантования.
Локальные агенты OpenDevin, AutoGPT (на базе Qwen 7B) Запуск AI-агентов для автоматизации задач на ПК.
Объем VRAM Рекомендуемый битность (2026) Пример модели Тип квантования (GGUF) Комментарий
8 ГБ (RTX 4060) 3-6 бит Qwen 3 14B, Mistral NeMo 12B IQ3_M, Q4_K_M Баланс качества и размера. Для 7B-8B можно Q5_K_M.
12 ГБ (RTX 3080 Ti) 4-8 бит DeepSeek Coder 16B, Qwen 3 14B Q4_K_M, Q5_K_M, Q6_K Лучшее качество. 14B модели в Q4_K_M работают идеально.
16+ ГБ (RTX 5080/4090) 4-8 бит, FP16 Модели до 30B+ Q8_0, FP16 Запуск больших моделей с минимальной деградацией.

Для RTX 3080 Ti (12 ГБ VRAM)

Модель AI Параметры Оптимальное квантование Скорость/Качество Назначение
DeepSeek R1 (Distill) 14B Q5_K_M Высокая скорость, лидер по логике Рассуждения (CoT), анализ
Qwen 3 14B Q4_K_M / Q5_K_M Отличная скорость, лучший русский Универсальный чат, функции
Gemma 3 (2026) 12B Q6_K Высокое качество, креативность Творчество, письмо
DeepSeek Coder V2 16B IQ4_XS / Q4_K_M Эталон для кода, хорошая скорость Программирование, аудит кода
Mistral NeMo 12B Q6_K Стабильно, создана под 12 ГБ Универсальная, инструменты
GLM-5 9B Q8_0 Максимальное качество Мультимодальность (Vision)
OLMo-3-13B-Instr. 13B Q6_K Высокое качество, открытая Исследования, анализ
Ministral 8B 8B Q8_0 Очень высокая скорость Автоматизация (n8n, JSON)

Для RTX 4060 (8 ГБ VRAM)

Модель AI Параметры Оптимальное квантование Комментарий
DeepSeek R1 (Distill) 14B IQ3_M Работает на грани, но качество стоит того.
Qwen 3 14B IQ3_M Основной выбор для универсальных задач.
Gemma 3 (2026) 12B IQ3_M / Q4_K_M Отличный баланс для творческих задач.
DeepSeek Coder V2 16B IQ2_M Единственный способ запустить 16B на 8 ГБ.
Mistral NeMo (L3.1) 12B Q3_K_M Стабильная работа, хорошая скорость.
Reflection 1 (L3.1) 8B Q5_K_M Механизм самокоррекции, качественно.
Qwen 2.5 Coder 7B Q6_K / Q8_0 Летает, отличное качество кода для размера.
Llama 3.2 8B Q6_K Надежный и предсказуемый стандарт.

Название модели Параметры Квантование (12GB) Квантование (8GB) Особенности
DeepSeek-Coder-V2-Lite 16B Q5_K_M IQ2_M Лучшая модель для кода на 2026 год.
Qwen 2.5/3 Coder 7B/14B Q8_0 / Q4_K_M Q6_K / IQ3_M Быстрая, отличная поддержка языков.
CodeLlama 13B Q6_K Q3_K_S Проверенная классика, стабильна.
Phind-CodeLlama 34B IQ3_M (partial) Не рекомендуется Очень умная, но требует много RAM.
Granite-Code (IBM) 8B Q8_0 Q6_K Легкая и быстрая для интеграции в IDE.
Базовая модель Популярные чекпоинты Требования VRAM Комментарий для 12 ГБ
Stable Diffusion XL (SDXL) Pony Diffusion V6, RealVisXL ~10-12 ГБ Идеально. Генерация 1024x1024 без проблем.
Stable Diffusion 1.5 Realistic Vision, ChilloutMix ~4-6 ГБ Огромная база LoRA, очень быстрая.
Flux.1 (Schnell/Dev) RealismLoRA, Flux-Pony 12 ГБ+ Новое поколение. Лучшая анатомия, но впритык на 3080 Ti.
Pony Diffusion Pony Diffusion V6 XL ~10 ГБ Самая гибкая, понимает сложные теги.
Модель AI Роль Квантование (8-12GB) Критерий
Qwen 2.5/3 (7B) Универсальный диспетчер Q8_0 / Q5_K_M Идеален для JSON и вызова функций.
DeepSeek-V3-Distill (14B) Сложная логика, ветвление Q4_K_M / IQ3_M Высокая точность следования инструкциям if/else.
Nemotron 3 Nano (4B) Экстракция текста в JSON Q8_0 Сверхбыстрая, только структурирование.
Mistral NeMo (12B) Работа с документами (RAG) Q6_K Отлично держит длинный контекст.
SmolLM 2/3 (1.7B) Микро-агент, классификация Q8_0 Только JSON, скорость >150 токенов/сек.

Тип ~Биты Качество Рекомендация
Q8_0 8.5 Практически оригинал Для моделей ≤9B при избытке VRAM.
Q6_K 6.6 Отличное "Золотой стандарт". Разница с оригиналом незаметна.
Q5_K_M 5.5 Очень высокое Оптимальный баланс для 12-14B моделей на 12 ГБ.
Q4_K_M 4.8 Хорошее Самый популярный выбор. Лучший баланс "размер/качество".
Q3_K_M 3.9 Среднее Для запуска 14B моделей на 8 ГБ VRAM.
Q2_K 3.3 Низкое Только для ознакомления, возможны "галлюцинации".
Тип ~Биты Особенности Применение
IQ4_XS 4.25 Качественнее стандартного Q4_K_M Для 12B-16B моделей, где нужна точность.
IQ3_M 3.30 Топ для 8GB карт Запуск 14B моделей (Qwen 3, DeepSeek R1).
IQ3_XS 3.00 Глубокое сжатие Для 12B моделей с большим контекстом.
IQ2_M 2.50 Агрессивное сжатие Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ.
Суффикс Значение
\_S (Small) Максимальное сжатие в группе (экономия памяти).
\_M (Medium) Рекомендуемый вариант (баланс точности и размера).
\_L (Large) Минимальное сжатие (лучшее качество, большой файл).

Категория Инструмент Ссылка Описание
GUI-клиент LM Studio LM Studio Основной графический интерфейс для GGUF моделей.
CLI-движок и API Ollama Ollama Простой CLI для управления моделями, идеален для фоновой работы и API.
Продвинутый GUI Faraday.dev Faraday.dev Альтернатива с встроенным RAG и утилитами.
Веб-интерфейс Oobabooga Oobabooga Продвинутый веб-интерфейс с поддержкой множества бэкендов.
Категория Инструмент Ссылка Описание
Автоматизация рабочих процессов n8n n8n Платформа для создания AI-агентов и автоматизации.
AI-редактор кода Cursor Cursor Продвинутый редактор с глубокой интеграцией локальных LLM через API.
Плагин для VS Code Continue.dev Continue.dev Плагин для использования локальных LLM прямо в VS Code.
Терминальный агент OpenDevin OpenDevin Агент для выполнения задач через терминал.
Категория Инструмент Ссылка Описание
Веб-интерфейс для SD Forge UI (A1111 Fork) Forge UI Самый быстрый и современный интерфейс для Stable Diffusion.
Платформа для моделей Civitai Civitai Основная библиотека чекпоинтов, LoRA, Embeddings.
Альтернативный интерфейс ComfyUI ComfyUI Визуальное программирование пайплайнов генерации.
Ресурс Ссылка Описание
Hugging Face Hugging Face Главный хаб для всех открытых моделей ИИ.
TheBloke (автор GGUF) TheBloke Основной источник качественно квантованных GGUF моделей.
bartowski (автор GGUF) bartowski Качественные квантования, особенно для 12 ГБ карт.
mradermacher (автор IQ) mradermacher Специализируется на IQ-квантах для 8 ГБ карт.

Скачивайте файлы `.gguf` для использования в LM Studio или Ollama.

Модель AI Параметры Автор квантования (HF) Рекомендуемый файл Прямая ссылка
DeepSeek R1 (Distill) 14B mradermacher `IQ3_M.gguf` (8GB) Скачать
DeepSeek R1 (Distill) 14B bartowski `Q5_K_M.gguf` (12GB) Скачать
Qwen 3 14B mradermacher `IQ3_M.gguf` (8GB) Скачать
Qwen 3 14B bartowski `Q4_K_M.gguf` (12GB) Скачать
Gemma 3 (2026) 12B bartowski `Q6_K.gguf` (12GB) Скачать
DeepSeek Coder V2 16B mradermacher `IQ2_M.gguf` (8GB) Скачать
DeepSeek Coder V2 16B mradermacher `IQ4_XS.gguf` (12GB) Скачать
Mistral NeMo 12B TheBloke `Q3_K_M.gguf` (8GB) Скачать
Mistral NeMo 12B TheBloke `Q6_K.gguf` (12GB) Скачать
GLM-5 9B TheBloke `Q8_0.gguf` (12GB) Скачать

Рекомендация по загрузке: Для RTX 3080 Ti (12 ГБ) ищите модели от автора `bartowski` — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте `Q4_K_M` или `Q5_K_M`. Для RTX 4060 (8 ГБ) ищите модели от `mradermacher` (специализируется на IQ-квантах для 8 ГБ) или `bartowski`. Для моделей 12B-14B берите версию `IQ3_M`.


  • OpenRouter: openrouter.ai — сравнивает сотни моделей, есть бесплатные квоты.
  • Chat Arena (LMSYS): chat.lmsys.org — слепое тестирование разных моделей.
  • Распознавание речи: speech2text.ru
  • Перевод и транскрипция: DeepL

Для отслеживания новостей в мире открытых моделей:

# Установка Qwen Code Agent
$ npm install -g @qwen-code/qwen-code
$ qwen --version
# Установка Gemini CLI
$ npm install -g @google/gemini-cli
$ gemini
# Установка Ollama
$ curl -fsSL https://ollama.com/install.sh | sh
$ ollama run llama3.2