Показать страницуИстория страницыСсылки сюдаCopy this pageExport to MarkdownODT преобразованиеНаверх Вы загрузили старую версию документа! Сохранив её, вы создадите новую текущую версию с этим содержимым. Медиафайлы====== AI Models & Hardware Guide ====== {{tag>ai llm модели hardware gpu nvidia квантование}} ---- ==== Введение ==== Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти. ---- ==== Аппаратная платформа (SFF Workstation) ==== ===== Блок питания ===== Спецификация для компактной рабочей станции HP 805D SFF. ^ Компонент ^ Спецификация ^ Детали ^ | **Производитель/Модель БП** | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 | | **OEM-производитель** | [[https://www.deltaww.com|Delta Electronics]] / [[https://www.liteon.com|Lite-On]] | Модель: DPS-500AB-51 A / PA-5501-2HA | | **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF | | **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты | | **Сертификация** | [[https://www.80plus.org|80 Plus Platinum]] | Высокий КПД, низкое тепловыделение | ===== Совместимые низкопрофильные (Low Profile) видеокарты ===== Возможности апгрейда для корпуса SFF. ^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^ | **NVIDIA GeForce RTX 4060 LP** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.2 (8B)]], [[https://huggingface.co/mistralai|Mistral 7B]], [[https://huggingface.co/Qwen|Qwen 2.5/3]], [[https://huggingface.co/stabilityai|Stable Diffusion XL]] | | **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.1 (8B)]], [[https://huggingface.co/Qwen|Qwen 2.5 (7B)]], [[https://huggingface.co/runwayml|Stable Diffusion 1.5/XL]] | | **NVIDIA GeForce GTX 1660 Ti LP** | 6 GB | ~182 мм | [[https://huggingface.co/microsoft|Phi-3.5 Mini]], [[https://huggingface.co/google|Gemma 2 (2B/9B)]] | | **NVIDIA GeForce RTX 3050 LP (6GB)** | 6 GB | ~170 мм | [[https://huggingface.co/google|Gemma 2 (2B)]], [[https://huggingface.co/deepseek-ai|DeepSeek Coder 7B]] | ---- ==== Выбор моделей ИИ под объем VRAM (2026) ==== ===== Обзор по семействам моделей для 8 ГБ VRAM ===== ^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^ | **Qwen (Alibaba)** | [[https://huggingface.co/Qwen|Qwen 2.5]] / [[https://huggingface.co/Qwen|Qwen 3]] (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). | | **DeepSeek** | [[https://huggingface.co/deepseek-ai|DeepSeek-V3 (Lite)]], [[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2]] (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. | | **Meta & Open Source** | [[https://huggingface.co/meta-llama|Llama 3.2 (3B/8B)]], [[https://huggingface.co/mistralai|Mistral NeMo (12B)]] | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. | | **Мультимодальные** | [[https://huggingface.co/meta-llama|Llama 3.2 Vision (11B)]], [[https://huggingface.co/Qwen|Qwen2-VL (7B)]] | Позволяют анализировать изображения. Требуют оптимизации и квантования. | | **Локальные агенты** | [[https://github.com/OpenDevin|OpenDevin]], [[https://github.com/Significant-Gravitas|AutoGPT]] (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. | ===== Рекомендации по квантованию для разного железа ===== ^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^ | **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. | | **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. | | **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. | ===== Подробные таблицы для конкретных GPU ===== === Для RTX 3080 Ti (12 ГБ VRAM) === ^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/Качество ^ Назначение ^ | **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **Q5_K_M** | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ | | **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **Q4_K_M** / **Q5_K_M** | Отличная скорость, лучший русский | Универсальный чат, функции | | **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **Q6_K** | Высокое качество, креативность | Творчество, письмо | | **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ4_XS** / **Q4_K_M** | Эталон для кода, хорошая скорость | Программирование, аудит кода | | **[[https://huggingface.co/mistralai|Mistral NeMo]]** | 12B | **Q6_K** | Стабильно, создана под 12 ГБ | Универсальная, инструменты | | **[[https://huggingface.co/THUDM|GLM-5]]** | 9B | **Q8_0** | Максимальное качество | Мультимодальность (Vision) | | **[[https://huggingface.co/allenai|OLMo-3-13B-Instr.]]** | 13B | **Q6_K** | Высокое качество, открытая | Исследования, анализ | | **[[https://huggingface.co/mistralai|Ministral 8B]]** | 8B | **Q8_0** | Очень высокая скорость | Автоматизация (n8n, JSON) | === Для RTX 4060 (8 ГБ VRAM) === ^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий ^ | **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **IQ3_M** | Работает на грани, но качество стоит того. | | **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **IQ3_M** | Основной выбор для универсальных задач. | | **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **IQ3_M** / **Q4_K_M** | Отличный баланс для творческих задач. | | **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ2_M** | Единственный способ запустить 16B на 8 ГБ. | | **[[https://huggingface.co/mistralai|Mistral NeMo (L3.1)]]** | 12B | **Q3_K_M** | Стабильная работа, хорошая скорость. | | **[[https://huggingface.co/meta-llama|Reflection 1 (L3.1)]]** | 8B | **Q5_K_M** | Механизм самокоррекции, качественно. | | **[[https://huggingface.co/Qwen|Qwen 2.5 Coder]]** | 7B | **Q6_K** / **Q8_0** | Летает, отличное качество кода для размера. | | **[[https://huggingface.co/meta-llama|Llama 3.2]]** | 8B | **Q6_K** | Надежный и предсказуемый стандарт. | ---- ==== Специализация моделей ==== ===== Модели для программирования (Coding) ===== ^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^ | **[[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2-Lite]]** | 16B | **Q5_K_M** | **IQ2_M** | Лучшая модель для кода на 2026 год. | | **[[https://huggingface.co/Qwen|Qwen 2.5/3 Coder]]** | 7B/14B | **Q8_0** / **Q4_K_M** | **Q6_K** / **IQ3_M** | Быстрая, отличная поддержка языков. | | **[[https://huggingface.co/codellama|CodeLlama]]** | 13B | **Q6_K** | **Q3_K_S** | Проверенная классика, стабильна. | | **[[https://huggingface.co/Phind|Phind-CodeLlama]]** | 34B | **IQ3_M** (partial) | Не рекомендуется | Очень умная, но требует много RAM. | | **[[https://huggingface.co/ibm-granite|Granite-Code (IBM)]]** | 8B | **Q8_0** | **Q6_K** | Легкая и быстрая для интеграции в IDE. | ===== Генерация изображений (NSFW/Art) ===== ^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM ^ Комментарий для 12 ГБ ^ | **[[https://huggingface.co/stabilityai|Stable Diffusion XL (SDXL)]]** | [[https://civitai.com/models/241415|Pony Diffusion V6]], [[https://civitai.com/models/254269|RealVisXL]] | ~10-12 ГБ | Идеально. Генерация 1024x1024 без проблем. | | **[[https://huggingface.co/runwayml|Stable Diffusion 1.5]]** | [[https://civitai.com/models/4201|Realistic Vision]], [[https://civitai.com/models/6424|ChilloutMix]] | ~4-6 ГБ | Огромная база LoRA, очень быстрая. | | **[[https://huggingface.co/black-forest-labs|Flux.1]]** (Schnell/Dev) | [[https://civitai.com/models/396408|RealismLoRA]], [[https://civitai.com/models/397133|Flux-Pony]] | 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. | | **[[https://civitai.com/models/241415|Pony Diffusion]]** | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. | ===== Автоматизация (n8n, AI Agents) ===== ^ Модель AI ^ Роль ^ Квантование (8-12GB) ^ Критерий ^ | **[[https://huggingface.co/Qwen|Qwen 2.5/3 (7B)]]** | Универсальный диспетчер | **Q8_0** / **Q5_K_M** | Идеален для JSON и вызова функций. | | **[[https://huggingface.co/deepseek-ai|DeepSeek-V3-Distill (14B)]]** | Сложная логика, ветвление | **Q4_K_M** / **IQ3_M** | Высокая точность следования инструкциям if/else. | | **[[https://huggingface.co/nvidia|Nemotron 3 Nano (4B)]]** | Экстракция текста в JSON | **Q8_0** | Сверхбыстрая, только структурирование. | | **[[https://huggingface.co/mistralai|Mistral NeMo (12B)]]** | Работа с документами (RAG) | **Q6_K** | Отлично держит длинный контекст. | | **[[https://huggingface.co/huggingface|SmolLM 2/3 (1.7B)]]** | Микро-агент, классификация | **Q8_0** | Только JSON, скорость >150 токенов/сек. | ---- ==== Глоссарий и справочник по квантованию ==== ===== Типы квантования GGUF (llama.cpp) ===== ^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^ | **Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. | | **Q6_K** | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. | | **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. | | **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество". | | **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. | | **Q2_K** | 3.3 | Низкое | Только для ознакомления, возможны "галлюцинации". | ===== Квантование с Imatrix (IQ) – более эффективное ===== ^ Тип ^ ~Биты ^ Особенности ^ Применение ^ | **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. | | **IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). | | **IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. | | **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. | ===== Расшифровка суффиксов ===== ^ Суффикс ^ Значение ^ | **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). | | **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). | | **\_L** (Large) | Минимальное сжатие (лучшее качество, большой файл). | ---- ==== Инструменты и ПО ==== ===== Локальный запуск LLM ===== ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | **GUI-клиент** | **LM Studio** | [[https://lmstudio.ai/|LM Studio]] | Основной графический интерфейс для GGUF моделей. | | **CLI-движок и API** | **Ollama** | [[https://ollama.com/|Ollama]] | Простой CLI для управления моделями, идеален для фоновой работы и API. | | **Продвинутый GUI** | **Faraday.dev** | [[https://faraday.dev/|Faraday.dev]] | Альтернатива с встроенным RAG и утилитами. | | **Веб-интерфейс** | **Oobabooga** | [[https://github.com/oobabooga/text-generation-webui|Oobabooga]] | Продвинутый веб-интерфейс с поддержкой множества бэкендов. | ===== Разработка и автоматизация ===== ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | **Автоматизация рабочих процессов** | **n8n** | [[https://n8n.io/|n8n]] | Платформа для создания AI-агентов и автоматизации. | | **AI-редактор кода** | **Cursor** | [[https://cursor.com/|Cursor]] | Продвинутый редактор с глубокой интеграцией локальных LLM через API. | | **Плагин для VS Code** | **Continue.dev** | [[https://www.continue.dev/|Continue.dev]] | Плагин для использования локальных LLM прямо в VS Code. | | **Терминальный агент** | **OpenDevin** | [[https://github.com/OpenDevin/OpenDevin|OpenDevin]] | Агент для выполнения задач через терминал. | ===== Генерация изображений ===== ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https://github.com/lllyasviel/stable-diffusion-webui-forge|Forge UI]] | Самый быстрый и современный интерфейс для Stable Diffusion. | | **Платформа для моделей** | **Civitai** | [[https://civitai.com/|Civitai]] | Основная библиотека чекпоинтов, LoRA, Embeddings. | | **Альтернативный интерфейс** | **ComfyUI** | [[https://github.com/comfyanonymous/ComfyUI|ComfyUI]] | Визуальное программирование пайплайнов генерации. | ===== Ресурсы с моделями ===== ^ Ресурс ^ Ссылка ^ Описание ^ | **Hugging Face** | [[https://huggingface.co/|Hugging Face]] | Главный хаб для всех открытых моделей ИИ. | | **TheBloke** (автор GGUF) | [[https://huggingface.co/TheBloke|TheBloke]] | Основной источник качественно квантованных GGUF моделей. | | **bartowski** (автор GGUF) | [[https://huggingface.co/bartowski|bartowski]] | Качественные квантования, особенно для 12 ГБ карт. | | **mradermacher** (автор IQ) | [[https://huggingface.co/mradermacher|mradermacher]] | Специализируется на IQ-квантах для 8 ГБ карт. | ---- ==== Прямые ссылки на ключевые модели (GGUF) ==== Скачивайте файлы `.gguf` для использования в LM Studio или Ollama. ^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка ^ | **DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | | **DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | | **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/Qwen2.5-14B-Instruct-GGUF|Скачать]] | | **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-GGUF|Скачать]] | | **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/bartowski/gemma-3-12b-it-GGUF|Скачать]] | | **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | | **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | | **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | | **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | | **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https://huggingface.co/TheBloke/glm-5-9b-chat-GGUF|Скачать]] | **Рекомендация по загрузке:** Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте **`Q4_K_M`** или **`Q5_K_M`**. Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**. ---- ==== Онлайн-сервисы и агрегаторы ==== ===== Бесплатные онлайн-чаты ===== * **DeepSeek Chat:** [[https://chat.deepseek.com/|chat.deepseek.com]] * **Qwen Chat (Alibaba):** [[https://chat.qwen.ai/|chat.qwen.ai]] * **Yandex GPT (Alice):** [[https://alice.yandex.ru/|alice.yandex.ru]] * **Gemini Chat:** [[https://gemini.google.com/|gemini.google.com]] ===== Агрегаторы и сравнение моделей ===== * **OpenRouter:** [[https://openrouter.ai/chat|openrouter.ai]] — сравнивает сотни моделей, есть бесплатные квоты. * **Chat Arena (LMSYS):** [[https://chat.lmsys.org/|chat.lmsys.org]] — слепое тестирование разных моделей. ===== Специализированные сервисы ===== * **Распознавание речи:** [[https://speech2text.ru/|speech2text.ru]] * **Перевод и транскрипция:** [[https://www.deepl.com/|DeepL]] ---- ==== Новости и обновления ==== Для отслеживания новостей в мире открытых моделей: * **Хабр (по тегу):** [[https://habr.com/ru/search/?q=[модели%20ии]&target_type=posts&order=date|Хабр: модели ИИ]] * **r/LocalLLaMA (Reddit):** [[https://www.reddit.com/r/LocalLLaMA/|r/LocalLLaMA]] * **Hugging Face Blog:** [[https://huggingface.co/blog|Hugging Face Blog]] * **AI News Aggregator:** [[https://the-decoder.com/|The Decoder]] ===== Командные строки для установки агентов ===== <code bash> # Установка Qwen Code Agent $ npm install -g @qwen-code/qwen-code $ qwen --version </code> <code bash> # Установка Gemini CLI $ npm install -g @google/gemini-cli $ gemini </code> <code bash> # Установка Ollama $ curl -fsSL https://ollama.com/install.sh | sh $ ollama run llama3.2 </code> СохранитьПросмотрРазличияОтменить Сводка изменений Примечание: редактируя эту страницу, вы соглашаетесь на использование своего вклада на условиях следующей лицензии: CC0 1.0 Universal