Различия

Показаны различия между двумя версиями страницы.

--- develop:models [2026/01/02 21:17] – 192.168.1.159
+++ develop:models [2026/01/02 22:33] (текущий) – [Для RTX 4060 (8 ГБ VRAM)] 192.168.1.159
@@ Строка 1: / Строка 1: @@
-====== AI Models ======
+====== AI Models & Hardware Guide ======
-=== Блок питания (Спецификации) ======
+{{tag>ai llm модели hardware gpu nvidia квантование}}
-^ Компонент ^ Модель / Название ^ Параметры и Совместимость ^
+==== Введение ====
-| Блок питания | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 |
-| Производитель | Delta Electronics / Lite-On | Модель: DPS-500AB-51 A / PA-5501-2HA |
-| Разъемы | Фирменные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты |
-| Форм-фактор | SFF (Small Form Factor) | Устанавливается внутрь корпуса HP 805D SFF |
-| Эффективность | 80 Plus Platinum | Максимальный КПД и низкий нагрев |
-=== Совместимые видеокарты NVIDIA и AI-модели ===
+Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.
-^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Рекомендуемые AI-модели (2026) ^
-| GeForce RTX 4060 LP | 8 GB | ~182 мм | Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL |
-| GeForce RTX 3050 LP | 8 GB | ~182 мм | Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11 |
-| GeForce GTX 1660 Ti LP | 6 GB | ~182 мм | Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5 |
-| GeForce RTX 3050 LP | 6 GB | ~170 мм | Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B |
-^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы на вашем железе ^
+==== Аппаратная платформа (SFF Workstation) ====
-| Qwen (Alibaba) | Qwen 2.5 / 3 (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2). |
-| DeepSeek | DeepSeek-V3 (Lite), DeepSeek-Coder-V2 | Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров. |
-| Open Source (OSS) | Llama 3.2 (3B/8B), Mistral NeMo (12B) | Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы. |
-| Мультимодальные | Llama 3.2 Vision (11B), Qwen2-VL | Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации. |
-| Локальные агенты | OpenDevin, AutoGPT (на базе Qwen 7B) | Можно запускать полноценных AI-агентов для автоматизации задач на ПК. |
-=== RTX 3080 Ti (12GB VRAM) в LM Studio ===
+===== Блок питания =====
-^ Модель AI ^ Параметры ^ Рекомендуемое квантование ^ Настройки LM Studio (GPU Offload) ^
+Спецификация для компактной рабочей станции HP 805D SFF.
-| DeepSeek-V3 | 671B (MoE) | IQ2_XS / IQ2_M | Не влезет в VRAM. Использовать только через API или GGUF с системной RAM. |
-| DeepSeek-Coder-V2 | 16B | Q5_K_M или Q6_K | Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек. |
-| Qwen 2.5 / 3 | 14B / 32B | 14B: Q8_0; 32B: Q3_K_M | 14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM). |
-| Llama 3.1 / 3.2 | 8B / 70B | 8B: Q8_0 (FP16); 70B: IQ1_S | 8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM). |
-| Mistral NeMo | 12B | Q6_K или Q8_0 | Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты. |
-| Gemma 2 | 9B / 27B | 9B: Q8_0; 27B: Q3_K_L | 9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев). |
-| Command R | 35B | IQ3_M | Частичный оффлоуд. Хорошо подходит для RAG (работы с документами). |
-=== Модели для кодинга (Python, JS, C++, SQL и др.) ===
+^ Компонент ^ Спецификация ^ Детали ^
+| **Производитель/Модель БП** | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 |
+| **OEM-производитель** | [[https://www.deltaww.com|Delta Electronics]] / [[https://www.liteon.com|Lite-On]] | Модель: DPS-500AB-51 A / PA-5501-2HA |
+| **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF |
+| **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты |
+| **Сертификация** | [[https://www.80plus.org|80 Plus Platinum]] | Высокий КПД, низкое тепловыделение |
-^ Название модели ^ Параметры ^ Квантование (12GB VRAM) ^ Настройка в LM Studio ^
+===== Совместимые низкопрофильные (Low Profile) видеокарты =====
-| DeepSeek-Coder-V2-Lite | 16B | Q5_K_M (или Q6) | Full GPU Offload. Лучшая модель для кода на сегодня. |
-| Qwen 2.5 Coder | 7B | Q8_0 (FP16) | Full GPU Offload. Самая быстрая, идеальна для простых скриптов. |
-| CodeLlama | 13B | Q6_K | Full GPU Offload. Проверенная классика от Meta. |
-| Phind-CodeLlama | 34B | IQ3_M | Partial Offload (20-24 слоя). Очень умная, но требует системной RAM. |
-| Granite-Code (IBM) | 8B | Q8_0 | Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code. |
-=== Nvidia Models ===
+Возможности апгрейда для корпуса SFF.
-^ Модель Видеокарты ^ Объем VRAM ^ Возможности AI (2026 год) ^
+^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^
-| **RTX 4060** | 8 ГБ | Модели до 14B в сжатом виде (IQ3_M / Q4_K_S). |
+| **NVIDIA GeForce RTX 4060 LP** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.2 (8B)]], [[https://huggingface.co/mistralai|Mistral 7B]], [[https://huggingface.co/Qwen|Qwen 2.5/3]], [[https://huggingface.co/stabilityai|Stable Diffusion XL]] |
-| **RTX 3080 Ti** | 12 ГБ | Модели до 20B в сжатом виде (Q4_K_M / Q5_K_M). |
+| **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.1 (8B)]], [[https://huggingface.co/Qwen|Qwen 2.5 (7B)]], [[https://huggingface.co/runwayml|Stable Diffusion 1.5/XL]] |
-| **RTX 5080** | 16 ГБ | Модели до 30B (Full Precision/FP16) или 34B (Q4_K_M). |
+| **NVIDIA GeForce GTX 1660 Ti LP** | 6 GB | ~182 мм | [[https://huggingface.co/microsoft|Phi-3.5 Mini]], [[https://huggingface.co/google|Gemma 2 (2B/9B)]] |
-| **RTX 4090** | 24 ГБ | Модели до 70B (квантованные GGUF Q2_K / Q3_K_L). |
+| **NVIDIA GeForce RTX 3050 LP (6GB)** | 6 GB | ~170 мм | [[https://huggingface.co/google|Gemma 2 (2B)]], [[https://huggingface.co/deepseek-ai|DeepSeek Coder 7B]] |
-| ** RTX 5090** | 32 ГБ | Модели до 70B (Full Precision/FP16) или тяжелые 4-bit кванты. |
-| **RTX 4090 Ti** | 48 ГБ | Модели 100B+ (например, DeepSeek-V3 или Llama 3 405B IQ2). |
-==== Квантование ====
-=== Стандартные K-Quants ( llama.cpp / GGUF ) ===
+==== Выбор моделей ИИ под объем VRAM (2026) ====
-^ Тип ^ Биты ^ Качество ^ Рекомендация для 2026 года ^
+===== Обзор по семействам моделей для 8 ГБ VRAM =====
-| Q8_0 | 8.5 | Максимальное | Использовать для моделей до 9B (Llama 3.1, Qwen 3 7B). |
-| Q6_K | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом не видна. |
-| Q5_K_M | 5.5 | Высокое | Оптимальный выбор для RTX 3080 Ti (12GB) для моделей 12-14B. |
-| Q4_K_M | 4.8 | Хорошее | Самый популярный вариант. Баланс между "умом" и весом. |
-| Q3_K_M | 3.9 | Среднее | Использовать только если модель 14B не влезает в 8GB. |
-| Q2_K | 3.3 | Низкое | Модель начинает путаться в фактах и "галлюцинировать". |
-=== I-Matrix Quants (IQ) ===
+^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^
+| **Qwen (Alibaba)** | [[https://huggingface.co/Qwen|Qwen 2.5]] / [[https://huggingface.co/Qwen|Qwen 3]] (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). |
+| **DeepSeek** | [[https://huggingface.co/deepseek-ai|DeepSeek-V3 (Lite)]], [[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2]] (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. |
+| **Meta & Open Source** | [[https://huggingface.co/meta-llama|Llama 3.2 (3B/8B)]], [[https://huggingface.co/mistralai|Mistral NeMo (12B)]] | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. |
+| **Мультимодальные** | [[https://huggingface.co/meta-llama|Llama 3.2 Vision (11B)]], [[https://huggingface.co/Qwen|Qwen2-VL (7B)]] | Позволяют анализировать изображения. Требуют оптимизации и квантования. |
+| **Локальные агенты** | [[https://github.com/OpenDevin|OpenDevin]], [[https://github.com/Significant-Gravitas|AutoGPT]] (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. |
-^ Тип ^ Биты ^ Особенности ^ Применение для RTX 4060 ^
+===== Рекомендации по квантованию для разного железа =====
-| IQ4_XS | 4.25 | Точнее чем стандартный Q4_K_M | Для моделей 9B-12B (Mistral NeMo). |
-| IQ3_M | 3.30 | Топ для 8GB карт | Позволяет запустить DeepSeek R1 14B без тормозов. |
-| IQ3_XS | 3.00 | Глубокое сжатие | Для запуска Gemma 3 12B с запасом под контекст. |
-| IQ2_M | 2.50 | Работа на грани | Позволяет запустить DeepSeek Coder V2 (16B). |
-| IQ2_XXS | 2.10 | Минимальный вес | Только для очень простых задач на слабом железе. |
-=== Расшифровка индексов (Суффиксы) ===
+^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^
+| **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. |
+| **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. |
+| **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. |
-^ Индекс ^ Значение ^ Описание ^
+===== Подробные таблицы для конкретных GPU =====
-| _S | Small | Самое сильное сжатие в этой группе (экономия памяти). |
-| _M | Medium | Рекомендуемый вариант (баланс точности и веса). |
-| _L | Large | Минимальное сжатие (лучшее качество, но файл больше). |
-==== С привязкой к GPU ====
+=== Для RTX 3080 Ti (12 ГБ VRAM) ===
+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/Качество ^ Назначение ^
+| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **Q5_K_M** | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ |
+| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **Q4_K_M** / **Q5_K_M** | Отличная скорость, лучший русский | Универсальный чат, функции |
+| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **Q6_K** | Высокое качество, креативность | Творчество, письмо |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ4_XS** / **Q4_K_M** | Эталон для кода, хорошая скорость | Программирование, аудит кода |
+| **[[https://huggingface.co/mistralai|Mistral NeMo]]** | 12B | **Q6_K** | Стабильно, создана под 12 ГБ | Универсальная, инструменты |
+| **[[https://huggingface.co/THUDM|GLM-5]]** | 9B | **Q8_0** | Максимальное качество | Мультимодальность (Vision) |
+| **[[https://huggingface.co/allenai|OLMo-3-13B-Instr.]]** | 13B | **Q6_K** | Высокое качество, открытая | Исследования, анализ |
+| **[[https://huggingface.co/mistralai|Ministral 8B]]** | 8B | **Q8_0** | Очень высокая скорость | Автоматизация (n8n, JSON) |
-=== RTX 3080 TI 12 ГБ VRAM ===
+=== Для RTX 4060 (8 ГБ VRAM) ===
-^ Модель AI ^ Параметры ^ Квантование ^ Назначение ^ Признак инструментов ^
+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий ^
-| DeepSeek R1 (Distill) | 14B | Q5_K_M | Абсолютный лидер по логике, математике и качеству рассуждений. | {{:wiki:yes.png}} Reasoning (CoT) |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **IQ3_M** | Работает на грани, но качество стоит того. |
-| Gemma 3 (2026) | 12B | Q6_K | Лучшая модель от Google для творческого письма и сложных гуманитарных задач. | {{:wiki:yes.png}} Creative / Tools |
+| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **IQ3_M** | Основной выбор для универсальных задач. |
-| Qwen 3 | 14B | Q4_K_M | Самая сбалансированная модель: мощная логика + лучший русский язык. | {{:wiki:yes.png}} Full Function Call |
+| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **IQ3_M** / **Q4_K_M** | Отличный баланс для творческих задач. |
-| DeepSeek Coder V2 | 16B | IQ4_XS | Эталон качества в программировании и работе со сложными данными. | {{:wiki:yes.png}} Coding / Data |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ2_M** | Единственный способ запустить 16B на 8 ГБ. |
-| Reflection 1 (L3.1) | 8B | Q8_0 | Высокое качество за счет механизма исправления собственных ошибок. | {{:wiki:yes.png}} Self-Correction |
+| **[[https://huggingface.co/mistralai|Mistral NeMo (L3.1)]]** | 12B | **Q3_K_M** | Стабильная работа, хорошая скорость. |
-| GLM-5 | 9B | Q8_0 | Выдающееся качество в мультимодальных задачах (текст + зрение). | {{:wiki:yes.png}} Vision / OCR |
+| **[[https://huggingface.co/meta-llama|Reflection 1 (L3.1)]]** | 8B | **Q5_K_M** | Механизм самокоррекции, качественно. |
-| OLMo-3-13B-Instr. | 13B | Q6_K | Высокое качество ответов без корпоративной цензуры (Open Research). | {{:wiki:yes.png}} Research / Tools |
+| **[[https://huggingface.co/Qwen|Qwen 2.5 Coder]]** | 7B | **Q6_K** / **Q8_0** | Летает, отличное качество кода для размера. |
-| Mistral NeMo (Llama 3.1) | 12B | Q8_0 | Совместная работа NVIDIA и Mistral; эталон стабильности на 12ГБ. | {{:wiki:yes.png}} Python / Tools |
+| **[[https://huggingface.co/meta-llama|Llama 3.2]]** | 8B | **Q6_K** | Надежный и предсказуемый стандарт. |
-| Ministral 8B | 8B | Q8_0 | Высокая точность следования сложным инструкциям в n8n. | {{:wiki:yes.png}} JSON / API |
-| OLMo-3-Expert (MoE) | 4x7B | IQ3_M | Хорошая эрудиция за счет архитектуры "смеси экспертов". | {{:wiki:partial.png}} Reasoning |
-| Qwen 2.5 Coder | 7B | Q8_0 | Очень высокое качество кода для такого малого размера. | {{:wiki:yes.png}} Coding / Tools |
-| DeepSeek-Coder-V2-Lite | 16B | Q4_K_M | Качественный аудит кода и написание сложных функций. | {{:wiki:yes.png}} Coding / JSON |
-| Llama 3.2 | 8B | Q8_0 | Надежный стандарт; среднее качество, но высокая предсказуемость. | {{:wiki:yes.png}} Tools / Chat |
-| CodeLlama | 13B | Q6_K | Стабильное, но уже «классическое» качество написания кода. | {{:wiki:yes.png}} Stable Coding |
-| StarCoder 2 | 15B | Q5_K_M | Хорошее качество для узкоспециализированных задач разработки. | {{:wiki:yes.png}} GitHub Workflows |
-| OLMo-3-7B-Instr. | 7B | Q8_0 | Базовое качество для быстрых ответов и простых запросов. | {{:wiki:yes.png}} Open Data |
-| Nemotron 3 Nano | 4B | Q8_0 | Минимально достаточное качество для классификации данных. | {{:wiki:partial.png}} Data Clean |
-| SmolLM 2 / 3 | 1.7B | Q8_0 | Низкое качество текста, но идеальна для простых JSON-задач. | {{:wiki:no.png}} JSON Only |
-=== RTX 4060 8 ГБ VRAM ===
+=== Intel HD Graphics 530 / i7-6700, 32GB RAM ===
-^ Модель AI ^ Параметры ^ Квантование (8GB) ^ Назначение ^ Признак инструментов ^
+^ Модель ^ Параметры ^ Команда скачивания ^ Назначение ^
-| DeepSeek R1 (Distill) | 14B | IQ3_M | Абсолютный лидер по логике, математике и качеству рассуждений. | {{:wiki:yes.png}} Reasoning (CoT) |
+| Qwen 3 | 7B | docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n |
-| Gemma 3 (2026) | 12B | IQ3_M | Лучшая модель от Google для творческого письма и сложных гуманитарных задач. | {{:wiki:yes.png}} Creative / Tools |
+| DeepSeek R1 | 14B | docker exec -it ollama ollama pull deepseek-r1:14b | Сложная логика и кодинг (через рассуждения) |
-| Qwen 3 | 14B | IQ3_M | Самая сбалансированная модель: мощная логика + лучший русский язык. | {{:wiki:yes.png}} Full Function Call |
+| Mistral NeMo| 12B | docker exec -it ollama ollama pull mistral-nemo | Анализ длинных документов и суммаризация |
-| DeepSeek Coder V2 | 16B | IQ2_M | Эталон качества в программировании и работе со сложными данными. | {{:wiki:yes.png}} Coding / Data |
+| Llama 3.2 | 3B | docker exec -it ollama ollama pull llama3.2:3b | Мгновенная классификация (самая быстрая) |
-| Reflection 1 (L3.1) | 8B | Q5_K_M | Высокое качество за счет механизма исправления собственных ошибок. | {{:wiki:yes.png}} Self-Correction |
+==== Специализация моделей ====
-| GLM-5 | 9B | Q5_K_M | Выдающееся качество в мультимодальных задачах (текст + зрение). | {{:wiki:yes.png}} Vision / OCR |
-| OLMo-3-13B-Instr. | 13B | IQ3_M | Высокое качество ответов без корпоративной цензуры (Open Research). | {{:wiki:yes.png}} Research / Tools |
-| Mistral NeMo (L3.1) | 12B | Q3_K_M | Совместная работа NVIDIA и Mistral; стабильность на 8ГБ. | {{:wiki:yes.png}} Python / Tools |
-| Ministral 8B | 8B | Q5_K_M | Высокая точность следования сложным инструкциям в n8n. | {{:wiki:yes.png}} JSON / API |
-| OLMo-3-Expert (MoE) | 4x7B | IQ2_XXS | Хорошая эрудиция за счет архитектуры "смеси экспертов". | {{:wiki:partial.png}} Reasoning |
-| Qwen 2.5 Coder | 7B | Q6_K | Очень высокое качество кода для такого малого размера. | {{:wiki:yes.png}} Coding / Tools |
-| DeepSeek-Coder-V2-Lite | 16B | IQ2_M | Качественный аудит кода и написание сложных функций. | {{:wiki:yes.png}} Coding / JSON |
-| Llama 3.2 | 8B | Q6_K | Надежный стандарт; среднее качество, но высокая предсказуемость. | {{:wiki:yes.png}} Tools / Chat |
-| CodeLlama | 13B | Q3_K_S | Стабильное, но уже «классическое» качество написания кода. | {{:wiki:yes.png}} Stable Coding |
-| StarCoder 2 | 15B | IQ2_M | Хорошее качество для узкоспециализированных задач разработки. | {{:wiki:yes.png}} GitHub Workflows |
-| OLMo-3-7B-Instr. | 7B | Q8_0 | Базовое качество для быстрых ответов и простых запросов. | {{:wiki:yes.png}} Open Data |
-| Nemotron 3 Nano | 4B | Q8_0 | Минимально достаточное качество для классификации данных. | {{:wiki:partial.png}} Data Clean |
-| SmolLM 2 / 3 | 1.7B | Q8_0 | Низкое качество текста, но идеальна для простых JSON-задач. | {{:wiki:no.png}} JSON Only |
-==== Специализация ====
+===== Модели для программирования (Coding) =====
+^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^
+| **[[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2-Lite]]** | 16B | **Q5_K_M** | **IQ2_M** | Лучшая модель для кода на 2026 год. |
+| **[[https://huggingface.co/Qwen|Qwen 2.5/3 Coder]]** | 7B/14B | **Q8_0** / **Q4_K_M** | **Q6_K** / **IQ3_M** | Быстрая, отличная поддержка языков. |
+| **[[https://huggingface.co/codellama|CodeLlama]]** | 13B | **Q6_K** | **Q3_K_S** | Проверенная классика, стабильна. |
+| **[[https://huggingface.co/Phind|Phind-CodeLlama]]** | 34B | **IQ3_M** (partial) | Не рекомендуется | Очень умная, но требует много RAM. |
+| **[[https://huggingface.co/ibm-granite|Granite-Code (IBM)]]** | 8B | **Q8_0** | **Q6_K** | Легкая и быстрая для интеграции в IDE. |
-=== NSFW/Adult ===
+===== Генерация изображений (NSFW/Art) =====
-^ Базовая модель ^ Популярные кастомные модели (Checkpoints) ^ Особенности для RTX 3080 Ti ^
+^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM ^ Комментарий для 12 ГБ ^
-| Stable Diffusion XL (SDXL) | Pony Diffusion V6 (и выше), RealVisXL, Juggernaut XL | Самый высокий реализм и понимание сложных поз. 12ГБ VRAM хватает для генерации 1024x1024. |
+| **[[https://huggingface.co/stabilityai|Stable Diffusion XL (SDXL)]]** | [[https://civitai.com/models/241415|Pony Diffusion V6]], [[https://civitai.com/models/254269|RealVisXL]] | ~10-12 ГБ | Идеально. Генерация 1024x1024 без проблем. |
-| Stable Diffusion 1.5 | Realistic Vision, ChilloutMix, Deliberate | Очень быстрая генерация. Огромная база Lora-фильтров для лиц и фетишей. |
+| **[[https://huggingface.co/runwayml|Stable Diffusion 1.5]]** | [[https://civitai.com/models/4201|Realistic Vision]], [[https://civitai.com/models/6424|ChilloutMix]] | ~4-6 ГБ | Огромная база LoRA, очень быстрая. |
-| Flux.1 (Schnell/Dev) | RealismLora, Flux-Pony | Модель нового поколения (2025-2026). Лучшая анатомия и кожа, но требует 12ГБ+ (на 3080 Ti идет впритык). |
+| **[[https://huggingface.co/black-forest-labs|Flux.1]]** (Schnell/Dev) | [[https://civitai.com/models/396408|RealismLoRA]], [[https://civitai.com/models/397133|Flux-Pony]] | 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. |
-| Pony Diffusion | Pony Diffusion V6 XL | Самая гибкая модель. Понимает практически любые запросы через систему тегов (как на Danbooru). |
+| **[[https://civitai.com/models/241415|Pony Diffusion]]** | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. |
-=== N8N ===
+===== Автоматизация (n8n, AI Agents) =====
-^ Модель AI ^ Роль в n8n ^ Квантование ^ Признак инструментов (Tools/JSON) ^
+^ Модель AI ^ Роль ^ Квантование (8-12GB) ^ Критерий ^
-| Qwen 2.5 / 3 (7B) | Универсальный диспетчер | Q8_0 | {{:wiki:yes.png}} Full Function Calling. Идеален для JSON. |
+| **[[https://huggingface.co/Qwen|Qwen 2.5/3 (7B)]]** | Универсальный диспетчер | **Q8_0** / **Q5_K_M** | Идеален для JSON и вызова функций. |
-| DeepSeek-V3-Distill (14B) | Сложная логика и фильтрация | Q4_K_M | {{:wiki:yes.png}} Высокая точность ветвления условий (if/else). |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek-V3-Distill (14B)]]** | Сложная логика, ветвление | **Q4_K_M** / **IQ3_M** | Высокая точность следования инструкциям if/else. |
-| Nemotron 3 Nano (4B) | Текст-процессор (Extraction) | Q8_0 | {{:wiki:partial.png}} Сверхбыстрое извлечение данных в JSON. |
+| **[[https://huggingface.co/nvidia|Nemotron 3 Nano (4B)]]** | Экстракция текста в JSON | **Q8_0** | Сверхбыстрая, только структурирование. |
-| Mistral NeMo (12B) | Работа с документами (RAG) | Q6_K | {{:wiki:yes.png}} Отлично держит контекст длинных писем. |
+| **[[https://huggingface.co/mistralai|Mistral NeMo (12B)]]** | Работа с документами (RAG) | **Q6_K** | Отлично держит длинный контекст. |
-| SmolLM 2 / 3 (1.7B) | Микро-агент (Классификация) | Q8_0 | {{:wiki:no.png}} Только JSON. Скорость > 150 токенов/сек. |
+| **[[https://huggingface.co/huggingface|SmolLM 2/3 (1.7B)]]** | Микро-агент, классификация | **Q8_0** | Только JSON, скорость >150 токенов/сек. |
-| DeepSeek-Coder-V2 (16B) | Написание скриптов для n8n | IQ4_XS | {{:wiki:yes.png}} Создание узлов Function/Code (JS/Python). |
-^ Модель AI ^ Параметры ^ Прямая ссылка на GGUF ^ Назначение ^
-| DeepSeek R1 (Distill) | 14B | [[huggingface.co|Открыть на HF]] | Лидер логики и рассуждений (CoT) |
-| Qwen 3 | 14B | [[huggingface.co|Открыть на HF]] | Лучший русский язык и универсальность |
-| Gemma 3 (2026) | 12B | [[huggingface.co|Открыть на HF]] | Креативность и высокая эрудиция |
-| DeepSeek Coder V2 | 16B | [[huggingface.co|Открыть на HF]] | Эталон для написания и аудита кода |
-| Mistral NeMo | 12B | [[huggingface.co|Открыть на HF]] | Стандарт стабильности для 12ГБ VRAM |
-| Reflection 1 (L3.1) | 8B | [[huggingface.co|Открыть на HF]] | Модель с самопроверкой ошибок |
-| GLM-5 | 9B | [[huggingface.co|Открыть на HF]] | Мультимодальность (Vision / OCR) |
-| OLMo-3-13B | 13B | [[huggingface.co|Открыть на HF]] | Полностью открытые данные обучения |
-| Ministral 8B | 8B | [[huggingface.co|Открыть на HF]] | Оптимальна для n8n автоматизации |
-| Phi-4 | 14B | [[huggingface.co|Открыть на HF]] | Научная логика и математика |
-^ Категория ^ Инструмент ^ Ссылка на сайт ^ Описание ^
+==== Глоссарий и справочник по квантованию ====
-| Запуск LLM | LM Studio | [[lmstudio.ai|LM Studio]] | Главный GUI для GGUF моделей |
-| Запуск LLM | Ollama | [[ollama.com|Ollama]] | CLI-движок для фоновой работы и API |
-| Автоматизация | n8n | [[n8n.io|n8n.io]] | Платформа для создания AI-агентов |
-| Кодинг | Cursor | [[cursor.com|Cursor AI]] | AI-редактор кода с поддержкой Local API |
-| Кодинг | Continue | [[www.continue.dev|Continue.dev]] | Плагин для VS Code под локальные LLM |
-| Графика | Forge UI | [[github.com|SD Forge]] | Самая быстрая генерация картинок (NSFW/Art) |
-| Графика | Civitai | [[civitai.com|Civitai]] | Библиотека моделей (Checkpoints/LoRA) |
-| База моделей | Hugging Face| [[huggingface.co|Hugging Face]] | Главный архив всех AI моделей мира |
-^ Модель AI ^ Квантование ^ Инструменты ^ Признак инструментов ^
+===== Типы квантования GGUF (llama.cpp) =====
-| DeepSeek R1 | Q5_K_M | LM Studio / Ollama | {{:wiki:yes.png}} Full Reasoning |
-| Qwen 3 | Q4_K_M | n8n / Ollama | {{:wiki:yes.png}} Function Calling |
-| Gemma 3 | Q6_K | LM Studio | {{:wiki:yes.png}} Creative Tools |
-| DeepSeek Coder | IQ4_XS | Cursor / VS Code | {{:wiki:yes.png}} Coding / Data |
-| GLM-5 | Q8_0 | Local WebUI | {{:wiki:yes.png}} Vision / OCR |
-| Ministral 8B | Q8_0 | n8n | {{:wiki:yes.png}} JSON / API |
-**Рекомендация по скачиванию:**
+^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^
+| **Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. |
-Для **RTX 3080 Ti** в поиске LM Studio всегда ищите модели от автора **"bartowski"**. Его кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память / итоговая точность". Для моделей 12B-14B выбирайте версию файла **Q4_K_M** — она идеально поместится в 12 ГБ видеопамяти вместе с контекстом.
+| **Q6_K** | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. |
+| **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. |
+| **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество". |
+| **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. |
+| **Q2_K** | 3.3 | Низкое | Только для ознакомления, возможны "галлюцинации". |
-**Рекомендация по скачиванию для RTX 4060 (8GB):**
+===== Квантование с Imatrix (IQ) – более эффективное =====
-В поиске LM Studio всегда ищите модели от авторов **"mradermacher"** или **"bartowski"**. Их кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память / итоговая точность".
+^ Тип ^ ~Биты ^ Особенности ^ Применение ^
+| **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. |
+| **IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). |
+| **IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. |
+| **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. |
-  * Для моделей **7B-9B** выбирайте версию файла **Q5_K_M** — она идеально поместится в 8 ГБ видеопамяти вместе с контекстом.
+===== Расшифровка суффиксов =====
-  * Для моделей **12B-14B** выбирайте версию **IQ3_M** (от mradermacher) — это единственный способ запустить такие модели на 8 ГБ без потери скорости и вылетов.
-==== Специализация моделей ====
+^ Суффикс ^ Значение ^
+| **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). |
+| **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). |
+| **\_L** (Large) | Минимальное сжатие (лучшее качество, большой файл). |
-.  **Qwen 2.5 / 3 (7B/14B):**
+==== Инструменты и ПО ====
-    *   **Для чего:** Лучшая модель для связи n8n с внешними API (Google Sheets, Telegram, CRM).
-    *   **Признак инструментов:** Нативная поддержка **Tool Use**. Модель понимает, когда ей нужно вызвать конкретный узел в n8n для получения данных.
-.  **Nemotron 3 Nano (4B):**
+===== Локальный запуск LLM =====
-    *   **Для чего:** Если вам нужно обрабатывать тысячи входящих сообщений в минуту. Она мгновенно определяет "настроение" клиента или категорию вопроса.
-    *   **Признак инструментов:** Очень стабильный формат вывода. Редко "галлюцинирует" лишним текстом вне JSON.
-.  **DeepSeek-Coder-V2 (16B Distill):**
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
-    *   **Для чего:** Автоматическое написание кода внутри узла "Code" в n8n. Она может сама написать скрипт на JavaScript для преобразования сложных массивов данных.
+| **GUI-клиент** | **LM Studio** | [[https://lmstudio.ai/|LM Studio]] | Основной графический интерфейс для GGUF моделей. |
-    *   **Признак инструментов:** Специализированные токены для написания кода и работы с данными.
+| **CLI-движок и API** | **Ollama** | [[https://ollama.com/|Ollama]] | Простой CLI для управления моделями, идеален для фоновой работы и API. |
+| **Продвинутый GUI** | **Faraday.dev** | [[https://faraday.dev/|Faraday.dev]] | Альтернатива с встроенным RAG и утилитами. |
+| **Веб-интерфейс** | **Oobabooga** | [[https://github.com/oobabooga/text-generation-webui|Oobabooga]] | Продвинутый веб-интерфейс с поддержкой множества бэкендов. |
-.  **SmolLM (Small Language Model):**
+===== Разработка и автоматизация =====
-    *   **Для чего:** Самые простые задачи. Например, проверить, содержит ли текст нецензурную лексику или извлечь дату из письма.
-    *   **Признак инструментов:** Из-за малого размера не поддерживает сложные вызовы инструментов, но идеальна как "умный фильтр".
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
+| **Автоматизация рабочих процессов** | **n8n** | [[https://n8n.io/|n8n]] | Платформа для создания AI-агентов и автоматизации. |
+| **AI-редактор кода** | **Cursor** | [[https://cursor.com/|Cursor]] | Продвинутый редактор с глубокой интеграцией локальных LLM через API. |
+| **Плагин для VS Code** | **Continue.dev** | [[https://www.continue.dev/|Continue.dev]] | Плагин для использования локальных LLM прямо в VS Code. |
+| **Терминальный агент** | **OpenDevin** | [[https://github.com/OpenDevin/OpenDevin|OpenDevin]] | Агент для выполнения задач через терминал. |
-===== Agents =====
+===== Генерация изображений =====
-<code bash>
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
-$ npm install -g @qwen-code/qwen-code
+| **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https://github.com/lllyasviel/stable-diffusion-webui-forge|Forge UI]] | Самый быстрый и современный интерфейс для Stable Diffusion. |
-$ qwen --version
+| **Платформа для моделей** | **Civitai** | [[https://civitai.com/|Civitai]] | Основная библиотека чекпоинтов, LoRA, Embeddings. |
-</code>
+| **Альтернативный интерфейс** | **ComfyUI** | [[https://github.com/comfyanonymous/ComfyUI|ComfyUI]] | Визуальное программирование пайплайнов генерации. |
-<code bash>
+===== Ресурсы с моделями =====
-$ npm install -g @google/gemini-cli
-$ gemini
-</code>
+^ Ресурс ^ Ссылка ^ Описание ^
+| **Hugging Face** | [[https://huggingface.co/|Hugging Face]] | Главный хаб для всех открытых моделей ИИ. |
+| **TheBloke** (автор GGUF) | [[https://huggingface.co/TheBloke|TheBloke]] | Основной источник качественно квантованных GGUF моделей. |
+| **bartowski** (автор GGUF) | [[https://huggingface.co/bartowski|bartowski]] | Качественные квантования, особенно для 12 ГБ карт. |
+| **mradermacher** (автор IQ) | [[https://huggingface.co/mradermacher|mradermacher]] | Специализируется на IQ-квантах для 8 ГБ карт. |
-===== Новости по моделям =====
-  * https://habr.com/en/search/?q=[%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8+%D0%B8%D0%B8]&target_type=posts&order=date
+==== Прямые ссылки на ключевые модели (GGUF) ====
-===== Модели =====
+Скачивайте файлы `.gguf` для использования в LM Studio или Ollama.
-  * Alibaba Group объявила о выходе модели искусственного интеллекта **Qwen3-Coder** — она доступна с открытым исходным кодом и предназначается для написания программного кода.
+^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка ^
+| **DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/DeepSeek-R1-Distill-14B-GGUF|Скачать]] |
+| **DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/DeepSeek-R1-Distill-14B-GGUF|Скачать]] |
+| **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/Qwen2.5-14B-Instruct-GGUF|Скачать]] |
+| **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-GGUF|Скачать]] |
+| **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/bartowski/gemma-3-12b-it-GGUF|Скачать]] |
+| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] |
+| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] |
+| **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] |
+| **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] |
+| **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https://huggingface.co/TheBloke/glm-5-9b-chat-GGUF|Скачать]] |
-===== On-Line Модели =====
+**Рекомендация по загрузке:**
+Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте **`Q4_K_M`** или **`Q5_K_M`**.
+Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**.
-  * https://chat.deepseek.com/
-  * https://alice.yandex.ru/
-  * https://deepai.org/chat
-  * https://chat.qwen.ai/
-===== Агрегаторы =====
+==== Онлайн-сервисы и агрегаторы ====
-  * https://openrouter.ai/chat
+===== Бесплатные онлайн-чаты =====
+  * **DeepSeek Chat:** [[https://chat.deepseek.com/|chat.deepseek.com]]
+  * **Qwen Chat (Alibaba):** [[https://chat.qwen.ai/|chat.qwen.ai]]
+  * **Yandex GPT (Alice):** [[https://alice.yandex.ru/|alice.yandex.ru]]
+  * **Gemini Chat:** [[https://gemini.google.com/|gemini.google.com]]
-==== Специализированные ====
+===== Агрегаторы и сравнение моделей =====
+  * **OpenRouter:** [[https://openrouter.ai/chat|openrouter.ai]] — сравнивает сотни моделей, есть бесплатные квоты.
+  * **Chat Arena (LMSYS):** [[https://chat.lmsys.org/|chat.lmsys.org]] — слепое тестирование разных моделей.
+===== Специализированные сервисы =====
+  * **Распознавание речи:** [[https://speech2text.ru/|speech2text.ru]]
+  * **Перевод и транскрипция:** [[https://www.deepl.com/|DeepL]]
+==== Новости и обновления ====
+Для отслеживания новостей в мире открытых моделей:
+  * **Хабр (по тегу):** [[https://habr.com/ru/search/?q=[модели%20ии]&target_type=posts&order=date|Хабр: модели ИИ]]
+  * **r/LocalLLaMA (Reddit):** [[https://www.reddit.com/r/LocalLLaMA/|r/LocalLLaMA]]
+  * **Hugging Face Blog:** [[https://huggingface.co/blog|Hugging Face Blog]]
+  * **AI News Aggregator:** [[https://the-decoder.com/|The Decoder]]
+===== Командные строки для установки агентов =====
+<code bash>
+# Установка Qwen Code Agent
+$ npm install -g @qwen-code/qwen-code
+$ qwen --version
+</code>
+<code bash>
+# Установка Gemini CLI
+$ npm install -g @google/gemini-cli
+$ gemini
+</code>
+<code bash>
+# Установка Ollama
+$ curl -fsSL https://ollama.com/install.sh | sh
+$ ollama run llama3.2
+</code>
-  * https://speech2text.ru/