Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
develop:models [2026/01/02 21:17] 192.168.1.159develop:models [2026/01/02 22:33] (текущий) – [Для RTX 4060 (8 ГБ VRAM)] 192.168.1.159
Строка 1: Строка 1:
-====== AI Models ======+====== AI Models & Hardware Guide ======
  
-=== Блок питания (Спецификации) ======+{{tag>ai llm модели hardware gpu nvidia квантование}}
  
  
-^ Компонент ^ Модель / Название ^ Параметры и Совместимость ^ +==== Введение ====
-| Блок питания | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 | +
-| Производитель | Delta Electronics / Lite-On | Модель: DPS-500AB-51 A / PA-5501-2HA | +
-| Разъемы | Фирменные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты | +
-| Форм-фактор | SFF (Small Form Factor) | Устанавливается внутрь корпуса HP 805D SFF | +
-| Эффективность | 80 Plus Platinum | Максимальный КПД и низкий нагрев |+
  
-=== Совместимые видеокарты NVIDIA и AI-модели ===+Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.
  
-^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Рекомендуемые AI-модели (2026) ^ 
-| GeForce RTX 4060 LP | 8 GB | ~182 мм | Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL | 
-| GeForce RTX 3050 LP | 8 GB | ~182 мм | Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11 | 
-| GeForce GTX 1660 Ti LP | 6 GB | ~182 мм | Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5 | 
-| GeForce RTX 3050 LP | 6 GB | ~170 мм | Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B | 
  
-^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы на вашем железе ^ +==== Аппаратная платформа (SFF Workstation====
-| Qwen (Alibaba) | Qwen 2.5 / 3 (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2). | +
-| DeepSeek | DeepSeek-V3 (Lite), DeepSeek-Coder-V2 | Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров. | +
-| Open Source (OSS) | Llama 3.2 (3B/8B), Mistral NeMo (12B) | Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы. | +
-| Мультимодальные | Llama 3.2 Vision (11B), Qwen2-VL | Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации. | +
-| Локальные агенты | OpenDevin, AutoGPT (на базе Qwen 7B| Можно запускать полноценных AI-агентов для автоматизации задач на ПК. |+
  
-=== RTX 3080 Ti (12GB VRAM) в LM Studio ===+===== Блок питания =====
  
-^ Модель AI ^ Параметры ^ Рекомендуемое квантование ^ Настройки LM Studio (GPU Offload) ^ +Спецификация для компактной рабочей станции HP 805D SFF.
-| DeepSeek-V3 | 671B (MoE) | IQ2_XS / IQ2_M | Не влезет в VRAM. Использовать только через API или GGUF с системной RAM. | +
-| DeepSeek-Coder-V2 | 16B | Q5_K_M или Q6_K | Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек. | +
-| Qwen 2.5 / 3 | 14B / 32B | 14B: Q8_0; 32B: Q3_K_M | 14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM). | +
-| Llama 3.1 / 3.2 | 8B / 70B | 8B: Q8_0 (FP16); 70B: IQ1_S | 8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM). | +
-| Mistral NeMo | 12B | Q6_K или Q8_0 | Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты. | +
-| Gemma 2 | 9B / 27B | 9B: Q8_0; 27B: Q3_K_L | 9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев). | +
-| Command R | 35B | IQ3_M | Частичный оффлоуд. Хорошо подходит для RAG (работы с документами)|+
  
-=== Модели для кодинга (Python, JS, C++, SQL и др.) ===+^ Компонент ^ Спецификация ^ Детали ^ 
 +| **Производитель/Модель БП** | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 | 
 +| **OEM-производитель** | [[https://www.deltaww.com|Delta Electronics]] / [[https://www.liteon.com|Lite-On]] | Модель: DPS-500AB-51 A / PA-5501-2HA | 
 +| **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF | 
 +| **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты | 
 +| **Сертификация** | [[https://www.80plus.org|80 Plus Platinum]] | Высокий КПД, низкое тепловыделение |
  
-^ Название модели ^ Параметры ^ Квантование (12GB VRAM) ^ Настройка в LM Studio ^ +===== Совместимые низкопрофильные (Low Profileвидеокарты =====
-| DeepSeek-Coder-V2-Lite | 16B | Q5_K_M (или Q6) | Full GPU Offload. Лучшая модель для кода на сегодня. | +
-| Qwen 2.5 Coder | 7B | Q8_0 (FP16| Full GPU Offload. Самая быстрая, идеальна для простых скриптов. | +
-| CodeLlama | 13B | Q6_K | Full GPU Offload. Проверенная классика от Meta. | +
-| Phind-CodeLlama | 34B | IQ3_M | Partial Offload (20-24 слоя). Очень умная, но требует системной RAM. | +
-| Granite-Code (IBM) | 8B | Q8_0 | Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code. |+
  
-=== Nvidia Models ===+Возможности апгрейда для корпуса SFF.
  
-^ Модель Видеокарты Объем VRAM ^ Возможности AI (2026 год) ^ +^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^ 
-| **RTX 4060** | 8 ГБ Модели до 14B в сжатом виде (IQ3_M / Q4_K_S). | +| **NVIDIA GeForce RTX 4060 LP** | 8 GB ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.2 (8B)]], [[https://huggingface.co/mistralai|Mistral 7B]], [[https://huggingface.co/Qwen|Qwen 2.5/3]], [[https://huggingface.co/stabilityai|Stable Diffusion XL]] 
-| **RTX 3080 Ti** | 12 ГБ Модели до 20B в сжатом виде (Q4_K_M Q5_K_M). | +| **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.1 (8B)]], [[https://huggingface.co/Qwen|Qwen 2.5 (7B)]], [[https://huggingface.co/runwayml|Stable Diffusion 1.5/XL]] 
-| **RTX 5080** | 16 ГБ | Модели до 30B (Full Precision/FP16) или 34B (Q4_K_M). | +| **NVIDIA GeForce GTX 1660 Ti LP** | 6 GB ~182 мм | [[https://huggingface.co/microsoft|Phi-3.5 Mini]], [[https://huggingface.co/google|Gemma 2 (2B/9B)]] 
-| **RTX 4090** | 24 ГБ Модели до 70B (квантованные GGUF Q2_K Q3_K_L). | +| **NVIDIA GeForce RTX 3050 LP (6GB)** | 6 GB ~170 мм | [[https://huggingface.co/google|Gemma 2 (2B)]][[https://huggingface.co/deepseek-ai|DeepSeek Coder 7B]] |
-** RTX 5090** | 32 ГБ | Модели до 70B (Full Precision/FP16или тяжелые 4-bit кванты. +
-| **RTX 4090 Ti** | 48 ГБ Модели 100B+ (например, DeepSeek-V3 или Llama 3 405B IQ2). |+
  
-==== Квантование ==== 
  
-=== Стандартные K-Quants llama.cpp / GGUF ) ===+==== Выбор моделей ИИ под объем VRAM (2026====
  
-^ Тип ^ Биты ^ Качество ^ Рекомендация для 2026 года ^ +===== Обзор по семействам моделей для 8 ГБ VRAM =====
-| Q8_0 | 8.5 | Максимальное | Использовать для моделей до 9B (Llama 3.1, Qwen 3 7B). | +
-| Q6_K | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом не видна. | +
-| Q5_K_M | 5.5 | Высокое | Оптимальный выбор для RTX 3080 Ti (12GB) для моделей 12-14B. | +
-| Q4_K_M | 4.8 | Хорошее | Самый популярный вариант. Баланс между "умом" и весом. | +
-| Q3_K_M | 3.9 | Среднее | Использовать только если модель 14B не влезает в 8GB. | +
-| Q2_K | 3.3 | Низкое | Модель начинает путаться в фактах и "галлюцинировать". |+
  
-=== I-Matrix Quants (IQ===+^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^ 
 +| **Qwen (Alibaba)** | [[https://huggingface.co/Qwen|Qwen 2.5]] / [[https://huggingface.co/Qwen|Qwen 3]] (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). | 
 +| **DeepSeek** | [[https://huggingface.co/deepseek-ai|DeepSeek-V3 (Lite)]], [[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2]] (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. | 
 +| **Meta & Open Source** | [[https://huggingface.co/meta-llama|Llama 3.2 (3B/8B)]], [[https://huggingface.co/mistralai|Mistral NeMo (12B)]] | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. | 
 +| **Мультимодальные** | [[https://huggingface.co/meta-llama|Llama 3.2 Vision (11B)]], [[https://huggingface.co/Qwen|Qwen2-VL (7B)]] | Позволяют анализировать изображения. Требуют оптимизации и квантования. | 
 +| **Локальные агенты** | [[https://github.com/OpenDevin|OpenDevin]], [[https://github.com/Significant-Gravitas|AutoGPT]] (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. |
  
-^ Тип ^ Биты ^ Особенности ^ Применение для RTX 4060 ^ +===== Рекомендации по квантованию для разного железа =====
-| IQ4_XS | 4.25 | Точнее чем стандартный Q4_K_M | Для моделей 9B-12B (Mistral NeMo). | +
-| IQ3_M | 3.30 | Топ для 8GB карт | Позволяет запустить DeepSeek R1 14B без тормозов. | +
-| IQ3_XS | 3.00 | Глубокое сжатие | Для запуска Gemma 3 12B с запасом под контекст. | +
-| IQ2_M | 2.50 | Работа на грани | Позволяет запустить DeepSeek Coder V2 (16B). | +
-| IQ2_XXS | 2.10 | Минимальный вес | Только для очень простых задач на слабом железе. |+
  
-=== Расшифровка индексов (Суффиксы) ===+^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^ 
 +| **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. | 
 +| **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. | 
 +| **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. |
  
-^ Индекс ^ Значение ^ Описание ^ +===== Подробные таблицы для конкретных GPU =====
-| _S | Small | Самое сильное сжатие в этой группе (экономия памяти). | +
-| _M | Medium | Рекомендуемый вариант (баланс точности и веса). | +
-| _L | Large | Минимальное сжатие (лучшее качество, но файл больше). |+
  
-==== С привязкой к GPU ====+=== Для RTX 3080 Ti (12 ГБ VRAM) ===
  
 +^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/Качество ^ Назначение ^
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **Q5_K_M** | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ |
 +| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **Q4_K_M** / **Q5_K_M** | Отличная скорость, лучший русский | Универсальный чат, функции |
 +| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **Q6_K** | Высокое качество, креативность | Творчество, письмо |
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ4_XS** / **Q4_K_M** | Эталон для кода, хорошая скорость | Программирование, аудит кода |
 +| **[[https://huggingface.co/mistralai|Mistral NeMo]]** | 12B | **Q6_K** | Стабильно, создана под 12 ГБ | Универсальная, инструменты |
 +| **[[https://huggingface.co/THUDM|GLM-5]]** | 9B | **Q8_0** | Максимальное качество | Мультимодальность (Vision) |
 +| **[[https://huggingface.co/allenai|OLMo-3-13B-Instr.]]** | 13B | **Q6_K** | Высокое качество, открытая | Исследования, анализ |
 +| **[[https://huggingface.co/mistralai|Ministral 8B]]** | 8B | **Q8_0** | Очень высокая скорость | Автоматизация (n8n, JSON) |
  
-=== RTX 3080 TI 12 ГБ VRAM ===+=== Для RTX 4060 (8 ГБ VRAM===
  
-^ Модель AI ^ Параметры ^ Квантование ^ Назначение ^ Признак инструментов +^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий 
-| DeepSeek R1 (Distill) | 14B | Q5_K_M Абсолютный лидер по логикематематике и качеству рассуждений. | {{:wiki:yes.png}} Reasoning (CoT) | +| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **IQ3_M** Работает на грани, но качество стоит того. | 
-| Gemma (2026) 12B Q6_K Лучшая модель от Google для творческого письма и сложных гуманитарных задач. | {{:wiki:yes.png}} Creative Tools | +| **[[https://huggingface.co/Qwen|Qwen 3]]** 14B **IQ3_M** Основной выбор для универсальных задач. | 
-| Qwen 3 | 14B | Q4_K_M | Самая сбалансированная модель: мощная логика + лучший русский язык. | {{:wiki:yes.png}} Full Function Call | +| **[[https://huggingface.co/google|Gemma 3]] (2026)** 12B **IQ3_M** / **Q4_K_M** Отличный баланс для творческих задач. | 
-| DeepSeek Coder V2 | 16B | IQ4_XS Эталон качества в программировании и работе со сложными данными. | {{:wiki:yes.png}} Coding / Data | +| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ2_M** Единственный способ запустить 16B на 8 ГБ. | 
-| Reflection 1 (L3.1) | 8B | Q8_0 | Высокое качество за счет механизма исправления собственных ошибок. | {{:wiki:yes.png}} Self-Correction | +**[[https://huggingface.co/mistralai|Mistral NeMo (L3.1)]]** | 12B | **Q3_K_M** | Стабильная работа, хорошая скорость. | 
-| GLM-5 | 9B | Q8_0 | Выдающееся качество в мультимодальных задачах (текст + зрение)| {{:wiki:yes.png}} Vision / OCR +| **[[https://huggingface.co/meta-llama|Reflection 1 (L3.1)]]** 8B **Q5_K_M** Механизм самокоррекциикачественно. | 
-OLMo-3-13B-Instr. | 13B | Q6_K | Высокое качество ответов без корпоративной цензуры (Open Research). | {{:wiki:yes.png}} Research Tools | +| **[[https://huggingface.co/Qwen|Qwen 2.5 Coder]]** | 7B | **Q6_K** / **Q8_0** Летает, отличное качество кода для размера. | 
-| Mistral NeMo (Llama 3.1) | 12B | Q8_0 | Совместная работа NVIDIA и Mistral; эталон стабильности на 12ГБ. | {{:wiki:yes.png}} Python / Tools | +**[[https://huggingface.co/meta-llama|Llama 3.2]]** | 8B | **Q6_K** | Надежный и предсказуемый стандарт. |
-| Ministral 8B | 8B | Q8_0 | Высокая точность следования сложным инструкциям в n8n. | {{:wiki:yes.png}} JSON API | +
-| OLMo-3-Expert (MoE) | 4x7B IQ3_M Хорошая эрудиция за счет архитектуры "смеси экспертов". | {{:wiki:partial.png}} Reasoning | +
-| Qwen 2.5 Coder | 7B | Q8_0 | Очень высокое качество кода для такого малого размера. | {{:wiki:yes.png}} Coding / Tools +
-DeepSeek-Coder-V2-Lite | 16B | Q4_K_M | Качественный аудит кода и написание сложных функций. | {{:wiki:yes.png}} Coding JSON | +
-| Llama 3.2 | 8B | Q8_0 | Надежный стандарт; среднее качество, но высокая предсказуемость. | {{:wiki:yes.png}} Tools / Chat | +
-| CodeLlama | 13B | Q6_K | Стабильное, но уже «классическое» качество написания кода. | {{:wiki:yes.png}} Stable Coding | +
-| StarCoder 2 | 15B | Q5_K_M | Хорошее качество для узкоспециализированных задач разработки. | {{:wiki:yes.png}} GitHub Workflows | +
-| OLMo-3-7B-Instr. | 7B | Q8_0 | Базовое качество для быстрых ответов и простых запросов. | {{:wiki:yes.png}} Open Data | +
-| Nemotron 3 Nano | 4B | Q8_0 | Минимально достаточное качество для классификации данных. | {{:wiki:partial.png}} Data Clean | +
-| SmolLM 2 / 3 | 1.7B | Q8_0 | Низкое качество текста, но идеальна для простых JSON-задач. | {{:wiki:no.png}} JSON Only |+
  
-=== RTX 4060 8 ГБ VRAM ===+=== Intel HD Graphics 530 / i7-6700, 32GB RAM ===
  
-^ Модель AI ^ Параметры ^ Квантование (8GB) ^ Назначение ^ Признак инструментов +^ Модель ^ Параметры ^ Команда скачивания ^ Назначение ^ 
-DeepSeek R1 (Distill) 14B IQ3_M | Абсолютный лидер по логике, математике и качеству рассуждений. | {{:wiki:yes.png}} Reasoning (CoT) | +Qwen 3 7B docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n 
-| Gemma 3 (2026) | 12B | IQ3_M | Лучшая модель от Google для творческого письма и сложных гуманитарных задач. | {{:wiki:yes.png}} Creative / Tools | +| DeepSeek R1 14B docker exec -it ollama ollama pull deepseek-r1:14b Сложная логика и кодинг (через рассуждения) | 
-| Qwen 3 | 14B | IQ3_M | Самая сбалансированная модель: мощная логика + лучший русский язык. | {{:wiki:yes.png}} Full Function Call +| Mistral NeMo| 12B | docker exec -it ollama ollama pull mistral-nemo Анализ длинных документов и суммаризация | 
-| DeepSeek Coder V2 16B IQ2_M Эталон качества в программировании и работе со сложными данными. | {{:wiki:yes.png}} Coding / Data | +Llama 3.2 | 3B docker exec -it ollama ollama pull llama3.2:3b Мгновенная классификация (самая быстрая
-| Reflection 1 (L3.1) | 8B | Q5_K_M | Высокое качество за счет механизма исправления собственных ошибок. | {{:wiki:yes.png}} Self-Correction | +==== Специализация моделей ====
-| GLM-5 | 9B | Q5_K_M | Выдающееся качество в мультимодальных задачах (текст + зрение). | {{:wiki:yes.png}} Vision / OCR | +
-| OLMo-3-13B-Instr. | 13B | IQ3_M | Высокое качество ответов без корпоративной цензуры (Open Research). | {{:wiki:yes.png}} Research / Tools +
-| Mistral NeMo (L3.1) | 12B | Q3_K_M Совместная работа NVIDIA и Mistral; стабильность на 8ГБ. | {{:wiki:yes.png}} Python / Tools | +
-| Ministral 8B | 8B | Q5_K_M | Высокая точность следования сложным инструкциям в n8n. | {{:wiki:yes.png}} JSON / API | +
-| OLMo-3-Expert (MoE) | 4x7B | IQ2_XXS | Хорошая эрудиция за счет архитектуры "смеси экспертов". | {{:wiki:partial.png}} Reasoning +
-Qwen 2.5 Coder 7B Q6_K Очень высокое качество кода для такого малого размера. | {{:wiki:yes.png}} Coding / Tools | +
-| DeepSeek-Coder-V2-Lite | 16B | IQ2_M | Качественный аудит кода и написание сложных функций. | {{:wiki:yes.png}} Coding / JSON | +
-| Llama 3.2 | 8B | Q6_K | Надежный стандарт; среднее качество, но высокая предсказуемость. | {{:wiki:yes.png}} Tools / Chat | +
-| CodeLlama | 13B | Q3_K_S | Стабильное, но уже «классическое» качество написания кода. | {{:wiki:yes.png}} Stable Coding +
-| StarCoder 2 | 15B | IQ2_M | Хорошее качество для узкоспециализированных задач разработки. | {{:wiki:yes.png}} GitHub Workflows | +
-| OLMo-3-7B-Instr. | 7B | Q8_0 | Базовое качество для быстрых ответов и простых запросов. | {{:wiki:yes.png}} Open Data | +
-| Nemotron 3 Nano | 4B | Q8_0 | Минимально достаточное качество для классификации данных. | {{:wiki:partial.png}} Data Clean | +
-| SmolLM 2 / 3 | 1.7B | Q8_0 | Низкое качество текста, но идеальна для простых JSON-задач. | {{:wiki:no.png}} JSON Only |+
  
-==== Специализация ====+===== Модели для программирования (Coding) =====
  
 +^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2-Lite]]** | 16B | **Q5_K_M** | **IQ2_M** | Лучшая модель для кода на 2026 год. |
 +| **[[https://huggingface.co/Qwen|Qwen 2.5/3 Coder]]** | 7B/14B | **Q8_0** / **Q4_K_M** | **Q6_K** / **IQ3_M** | Быстрая, отличная поддержка языков. |
 +| **[[https://huggingface.co/codellama|CodeLlama]]** | 13B | **Q6_K** | **Q3_K_S** | Проверенная классика, стабильна. |
 +| **[[https://huggingface.co/Phind|Phind-CodeLlama]]** | 34B | **IQ3_M** (partial) | Не рекомендуется | Очень умная, но требует много RAM. |
 +| **[[https://huggingface.co/ibm-granite|Granite-Code (IBM)]]** | 8B | **Q8_0** | **Q6_K** | Легкая и быстрая для интеграции в IDE. |
  
-=== NSFW/Adult ===+===== Генерация изображений (NSFW/Art) =====
  
-^ Базовая модель ^ Популярные кастомные модели (Checkpoints) Особенности для RTX 3080 Ti +^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM Комментарий для 12 ГБ 
-| Stable Diffusion XL (SDXL) | Pony Diffusion V6 (и выше), RealVisXL, Juggernaut XL Самый высокий реализм и понимание сложных поз12ГБ VRAM хватает для генерации 1024x1024. | +| **[[https://huggingface.co/stabilityai|Stable Diffusion XL (SDXL)]]** | [[https://civitai.com/models/241415|Pony Diffusion V6]][[https://civitai.com/models/254269|RealVisXL]] | ~10-12 ГБ Идеально. Генерация 1024x1024 без проблем. | 
-| Stable Diffusion 1.5 | Realistic Vision, ChilloutMix, Deliberate Очень быстрая генерация. Огромная база Lora-фильтров для лиц и фетишей. | +| **[[https://huggingface.co/runwayml|Stable Diffusion 1.5]]** | [[https://civitai.com/models/4201|Realistic Vision]][[https://civitai.com/models/6424|ChilloutMix]] | ~4-6 ГБ | Огромная база LoRA, очень быстрая. | 
-| Flux.1 (Schnell/Dev) | RealismLora, Flux-Pony | Модель нового поколения (2025-2026). Лучшая анатомия и кожа, но требует 12ГБ+ (на 3080 Ti идет впритык). | +| **[[https://huggingface.co/black-forest-labs|Flux.1]]** (Schnell/Dev) | [[https://civitai.com/models/396408|RealismLoRA]][[https://civitai.com/models/397133|Flux-Pony]] 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. | 
-| Pony Diffusion | Pony Diffusion V6 XL | Самая гибкая модель. Понимает практически любые запросы через систему тегов (как на Danbooru). |+| **[[https://civitai.com/models/241415|Pony Diffusion]]** | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. |
  
-=== N8N ===+===== Автоматизация (n8n, AI Agents) =====
  
-^ Модель AI ^ Роль в n8n ^ Квантование ^ Признак инструментов (Tools/JSON) +^ Модель AI ^ Роль ^ Квантование (8-12GB) Критерий 
-| Qwen 2.5 / 3 (7B) | Универсальный диспетчер | Q8_0 | {{:wiki:yes.png}} Full Function Calling. Идеален для JSON. | +| **[[https://huggingface.co/Qwen|Qwen 2.5/3 (7B)]]** | Универсальный диспетчер | **Q8_0** / **Q5_K_M** | Идеален для JSON и вызова функций. | 
-| DeepSeek-V3-Distill (14B) | Сложная логика и фильтрация | Q4_K_M | {{:wiki:yes.png}} Высокая точность ветвления условий (if/else). | +| **[[https://huggingface.co/deepseek-ai|DeepSeek-V3-Distill (14B)]]** | Сложная логика, ветвление **Q4_K_M** / **IQ3_M** | Высокая точность следования инструкциям if/else. | 
-| Nemotron 3 Nano (4B) | Текст-процессор (Extraction) | Q8_0 | {{:wiki:partial.png}} Сверхбыстрое извлечение данных в JSON. | +| **[[https://huggingface.co/nvidia|Nemotron 3 Nano (4B)]]** Экстракция текста в JSON **Q8_0** | Сверхбыстрая, только структурирование. | 
-| Mistral NeMo (12B) | Работа с документами (RAG) | Q6_K | {{:wiki:yes.png}} Отлично держит контекст длинных писем. | +| **[[https://huggingface.co/mistralai|Mistral NeMo (12B)]]** | Работа с документами (RAG) | **Q6_K** | Отлично держит длинный контекст. | 
-| SmolLM 2 / 3 (1.7B) | Микро-агент лассификация| Q8_0 | {{:wiki:no.png}} Только JSON. Скорость > 150 токенов/сек. | +| **[[https://huggingface.co/huggingface|SmolLM 2/3 (1.7B)]]** | Микро-агент, классификация | **Q8_0** | Только JSON, скорость >150 токенов/сек. |
-| DeepSeek-Coder-V2 (16B) | Написание скриптов для n8n | IQ4_XS | {{:wiki:yes.png}} Создание узлов Function/Code (JS/Python). |+
  
-^ Модель AI ^ Параметры ^ Прямая ссылка на GGUF ^ Назначение ^ 
-| DeepSeek R1 (Distill) | 14B | [[huggingface.co|Открыть на HF]] | Лидер логики и рассуждений (CoT) | 
-| Qwen 3 | 14B | [[huggingface.co|Открыть на HF]] | Лучший русский язык и универсальность | 
-| Gemma 3 (2026) | 12B | [[huggingface.co|Открыть на HF]] | Креативность и высокая эрудиция | 
-| DeepSeek Coder V2 | 16B | [[huggingface.co|Открыть на HF]] | Эталон для написания и аудита кода | 
-| Mistral NeMo | 12B | [[huggingface.co|Открыть на HF]] | Стандарт стабильности для 12ГБ VRAM | 
-| Reflection 1 (L3.1) | 8B | [[huggingface.co|Открыть на HF]] | Модель с самопроверкой ошибок | 
-| GLM-5 | 9B | [[huggingface.co|Открыть на HF]] | Мультимодальность (Vision / OCR) | 
-| OLMo-3-13B | 13B | [[huggingface.co|Открыть на HF]] | Полностью открытые данные обучения | 
-| Ministral 8B | 8B | [[huggingface.co|Открыть на HF]] | Оптимальна для n8n автоматизации | 
-| Phi-4 | 14B | [[huggingface.co|Открыть на HF]] | Научная логика и математика | 
  
-^ Категория ^ Инструмент ^ Ссылка на сайт ^ Описание ^ +==== Глоссарий и справочник по квантованию ====
-| Запуск LLM | LM Studio | [[lmstudio.ai|LM Studio]] | Главный GUI для GGUF моделей | +
-| Запуск LLM | Ollama | [[ollama.com|Ollama]] | CLI-движок для фоновой работы и API | +
-| Автоматизация | n8n | [[n8n.io|n8n.io]] | Платформа для создания AI-агентов | +
-| Кодинг | Cursor | [[cursor.com|Cursor AI]] | AI-редактор кода с поддержкой Local API | +
-| Кодинг | Continue | [[www.continue.dev|Continue.dev]] | Плагин для VS Code под локальные LLM | +
-| Графика | Forge UI | [[github.com|SD Forge]] | Самая быстрая генерация картинок (NSFW/Art) | +
-| Графика | Civitai | [[civitai.com|Civitai]] | Библиотека моделей (Checkpoints/LoRA) | +
-| База моделей | Hugging Face| [[huggingface.co|Hugging Face]] | Главный архив всех AI моделей мира |+
  
-^ Модель AI ^ Квантование ^ Инструменты ^ Признак инструментов ^ +===== Типы квантования GGUF (llama.cpp) =====
-| DeepSeek R1 | Q5_K_M | LM Studio / Ollama | {{:wiki:yes.png}} Full Reasoning | +
-| Qwen 3 | Q4_K_M | n8n / Ollama | {{:wiki:yes.png}} Function Calling | +
-| Gemma 3 | Q6_K | LM Studio | {{:wiki:yes.png}} Creative Tools | +
-| DeepSeek Coder | IQ4_XS | Cursor / VS Code | {{:wiki:yes.png}} Coding / Data | +
-| GLM-5 | Q8_0 | Local WebUI | {{:wiki:yes.png}} Vision / OCR | +
-| Ministral 8B | Q8_0 | n8n | {{:wiki:yes.png}} JSON / API |+
  
-**Рекомендация по скачиванию:** +^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^ 
-  +**Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. | 
-Для **RTX 3080 Ti** в поиске LM Studio всегда ищите модели от автора **"bartowski"**. Его кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память итоговая точность". Для моделей 12B-14B выбирайте версию файла **Q4_K_M** — она идеально поместится в 12 ГБ видеопамяти вместе с контекстом.+**Q6_K** | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. | 
 +| **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. | 
 +| **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество"
 +| **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. | 
 +**Q2_K** | 3.3 | Низкое | Только для ознакомлениявозможны "галлюцинации"|
  
-**Рекомендация по скачиванию для RTX 4060 (8GB):** +===== Квантование с Imatrix (IQ– более эффективное =====
  
-В поиске LM Studio всегда ищите модели от авторов **"mradermacher"** или **"bartowski"**. Их кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память / итоговая точность"+^ Тип ^ ~Биты ^ Особенности ^ Применение ^ 
 +| **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. | 
 +**IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). | 
 +**IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. | 
 +| **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ|
  
-  * Для моделей **7B-9B** выбирайте версию файла **Q5_K_M** — она идеально поместится в 8 ГБ видеопамяти вместе с контекстом.  +===== Расшифровка суффиксов =====
-  * Для моделей **12B-14B** выбирайте версию **IQ3_M** (от mradermacher) — это единственный способ запустить такие модели на 8 ГБ без потери скорости и вылетов.+
  
-==== Специализация моделей ====+Суффикс ^ Значение ^ 
 +| **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). | 
 +| **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). | 
 +| **\_L** (Large) | Минимальное сжатие (лучшее качество, большой файл). |
  
  
-1.  **Qwen 2.5 / 3 (7B/14B):** +==== Инструменты и ПО ====
-    *   **Для чего:** Лучшая модель для связи n8n с внешними API (Google Sheets, Telegram, CRM). +
-    *   **Признак инструментов:** Нативная поддержка **Tool Use**. Модель понимает, когда ей нужно вызвать конкретный узел в n8n для получения данных.+
  
-2.  **Nemotron 3 Nano (4B):** +===== Локальный запуск LLM =====
-    *   **Для чего:** Если вам нужно обрабатывать тысячи входящих сообщений в минуту. Она мгновенно определяет "настроение" клиента или категорию вопроса. +
-    *   **Признак инструментов:** Очень стабильный формат вывода. Редко "галлюцинирует" лишним текстом вне JSON.+
  
-3.  **DeepSeek-Coder-V2 (16B Distill):** +^ Категория ^ Инструмент ^ Ссылка ^ Описание 
-    *   **Для чего:** Автоматическое написание кода внутри узла "Code" в n8n. Она может сама написать скрипт на JavaScript для преобразования сложных массивов данных+| **GUI-клиент** | **LM Studio** | [[https://lmstudio.ai/|LM Studio]] | Основной графический интерфейс для GGUF моделей. | 
-      **Признак инструментов:** Специализированные токены для написания кода и работы с данными.+| **CLI-движок и API** | **Ollama** | [[https://ollama.com/|Ollama]] | Простой CLI для управления моделями, идеален для фоновой работы и API| 
 +**Продвинутый GUI** | **Faraday.dev** | [[https://faraday.dev/|Faraday.dev]] | Альтернатива с встроенным RAG и утилитами. | 
 +| **Веб-интерфейс** | **Oobabooga** | [[https://github.com/oobabooga/text-generation-webui|Oobabooga]] | Продвинутый веб-интерфейс с поддержкой множества бэкендов|
  
-4.  **SmolLM (Small Language Model):** +===== Разработка и автоматизация =====
-    *   **Для чего:** Самые простые задачи. Например, проверить, содержит ли текст нецензурную лексику или извлечь дату из письма+
-    *   **Признак инструментов:** Из-за малого размера не поддерживает сложные вызовы инструментов, но идеальна как "умный фильтр".+
  
 +^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
 +| **Автоматизация рабочих процессов** | **n8n** | [[https://n8n.io/|n8n]] | Платформа для создания AI-агентов и автоматизации. |
 +| **AI-редактор кода** | **Cursor** | [[https://cursor.com/|Cursor]] | Продвинутый редактор с глубокой интеграцией локальных LLM через API. |
 +| **Плагин для VS Code** | **Continue.dev** | [[https://www.continue.dev/|Continue.dev]] | Плагин для использования локальных LLM прямо в VS Code. |
 +| **Терминальный агент** | **OpenDevin** | [[https://github.com/OpenDevin/OpenDevin|OpenDevin]] | Агент для выполнения задач через терминал. |
  
-===== Agents =====+===== Генерация изображений =====
  
-<code bash> +^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ 
-$ npm install -g @qwen-code/qwen-code +| **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https://github.com/lllyasviel/stable-diffusion-webui-forge|Forge UI]] | Самый быстрый и современный интерфейс для Stable Diffusion. | 
-$ qwen --version +| **Платформа для моделей** | **Civitai** | [[https://civitai.com/|Civitai]] | Основная библиотека чекпоинтов, LoRA, Embeddings. | 
-</code>+| **Альтернативный интерфейс** | **ComfyUI** | [[https://github.com/comfyanonymous/ComfyUI|ComfyUI]] | Визуальное программирование пайплайнов генерации. |
  
-<code bash> +===== Ресурсы с моделями =====
-$ npm install -g @google/gemini-cli +
-$ gemini +
-</code>+
  
 +^ Ресурс ^ Ссылка ^ Описание ^
 +| **Hugging Face** | [[https://huggingface.co/|Hugging Face]] | Главный хаб для всех открытых моделей ИИ. |
 +| **TheBloke** (автор GGUF) | [[https://huggingface.co/TheBloke|TheBloke]] | Основной источник качественно квантованных GGUF моделей. |
 +| **bartowski** (автор GGUF) | [[https://huggingface.co/bartowski|bartowski]] | Качественные квантования, особенно для 12 ГБ карт. |
 +| **mradermacher** (автор IQ) | [[https://huggingface.co/mradermacher|mradermacher]] | Специализируется на IQ-квантах для 8 ГБ карт. |
  
-===== Новости по моделям ===== 
  
-  * https://habr.com/en/search/?q=[%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8+%D0%B8%D0%B8]&target_type=posts&order=date+==== Прямые ссылки на ключевые модели (GGUF) ====
  
-===== Модели =====+Скачивайте файлы `.gguf` для использования в LM Studio или Ollama.
  
-  * Alibaba Group объявила о выходе модели искусственного интеллекта **Qwen3-Coder** — она доступна с открытым исходным кодом и предназначается для написания программного кода.+^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка 
 +**DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | 
 +**DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | 
 +| **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/Qwen2.5-14B-Instruct-GGUF|Скачать]] | 
 +| **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-GGUF|Скачать]] | 
 +| **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/bartowski/gemma-3-12b-it-GGUF|Скачать]] | 
 +| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | 
 +| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | 
 +| **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | 
 +| **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | 
 +| **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https://huggingface.co/TheBloke/glm-5-9b-chat-GGUF|Скачать]] |
  
-===== On-Line Модели =====+**Рекомендация по загрузке:**  
 +Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте **`Q4_K_M`** или **`Q5_K_M`**. 
 +Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**.
  
-  * https://chat.deepseek.com/ 
-  * https://alice.yandex.ru/ 
-  * https://deepai.org/chat 
-  * https://chat.qwen.ai/ 
  
-===== Агрегаторы =====+==== Онлайн-сервисы и агрегаторы ====
  
-  * https://openrouter.ai/chat+===== Бесплатные онлайн-чаты ===== 
 +  **DeepSeek Chat:** [[https://chat.deepseek.com/|chat.deepseek.com]] 
 +  * **Qwen Chat (Alibaba):** [[https://chat.qwen.ai/|chat.qwen.ai]] 
 +  * **Yandex GPT (Alice):** [[https://alice.yandex.ru/|alice.yandex.ru]] 
 +  * **Gemini Chat:** [[https://gemini.google.com/|gemini.google.com]]
  
-==== Специализированные ====+===== Агрегаторы и сравнение моделей ===== 
 +  * **OpenRouter:** [[https://openrouter.ai/chat|openrouter.ai]] — сравнивает сотни моделей, есть бесплатные квоты. 
 +  * **Chat Arena (LMSYS):** [[https://chat.lmsys.org/|chat.lmsys.org]] — слепое тестирование разных моделей. 
 + 
 +===== Специализированные сервисы ====
 +  * **Распознавание речи:** [[https://speech2text.ru/|speech2text.ru]] 
 +  * **Перевод и транскрипция:** [[https://www.deepl.com/|DeepL]] 
 + 
 + 
 +==== Новости и обновления ==== 
 + 
 +Для отслеживания новостей в мире открытых моделей: 
 +  * **Хабр (по тегу):** [[https://habr.com/ru/search/?q=[модели%20ии]&target_type=posts&order=date|Хабр: модели ИИ]] 
 +  * **r/LocalLLaMA (Reddit):** [[https://www.reddit.com/r/LocalLLaMA/|r/LocalLLaMA]] 
 +  * **Hugging Face Blog:** [[https://huggingface.co/blog|Hugging Face Blog]] 
 +  * **AI News Aggregator:** [[https://the-decoder.com/|The Decoder]] 
 + 
 +===== Командные строки для установки агентов ===== 
 + 
 +<code bash> 
 +# Установка Qwen Code Agent 
 +$ npm install -g @qwen-code/qwen-code 
 +$ qwen --version 
 +</code> 
 + 
 +<code bash> 
 +# Установка Gemini CLI 
 +$ npm install -g @google/gemini-cli 
 +$ gemini 
 +</code> 
 + 
 +<code bash> 
 +# Установка Ollama 
 +$ curl -fsSL https://ollama.com/install.sh | sh 
 +$ ollama run llama3.2 
 +</code>
  
  
-  * https://speech2text.ru/