Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
develop:models [2026/01/02 19:29] 192.168.1.159develop:models [2026/01/02 22:33] (текущий) – [Для RTX 4060 (8 ГБ VRAM)] 192.168.1.159
Строка 1: Строка 1:
-====== AI Models ======+====== AI Models & Hardware Guide ======
  
-=== Блок питания (Спецификации) ======+{{tag>ai llm модели hardware gpu nvidia квантование}}
  
  
-^ Компонент ^ Модель / Название ^ Параметры и Совместимость ^ +==== Введение ====
-| Блок питания | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 | +
-| Производитель | Delta Electronics / Lite-On | Модель: DPS-500AB-51 A / PA-5501-2HA | +
-| Разъемы | Фирменные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты | +
-| Форм-фактор | SFF (Small Form Factor) | Устанавливается внутрь корпуса HP 805D SFF | +
-| Эффективность | 80 Plus Platinum | Максимальный КПД и низкий нагрев |+
  
-=== Совместимые видеокарты NVIDIA и AI-модели ===+Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.
  
-^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Рекомендуемые AI-модели (2026) ^ 
-| GeForce RTX 4060 LP | 8 GB | ~182 мм | Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL | 
-| GeForce RTX 3050 LP | 8 GB | ~182 мм | Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11 | 
-| GeForce GTX 1660 Ti LP | 6 GB | ~182 мм | Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5 | 
-| GeForce RTX 3050 LP | 6 GB | ~170 мм | Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B | 
  
-^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы на вашем железе ^ +==== Аппаратная платформа (SFF Workstation====
-| Qwen (Alibaba) | Qwen 2.5 / 3 (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2). | +
-| DeepSeek | DeepSeek-V3 (Lite), DeepSeek-Coder-V2 | Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров. | +
-| Open Source (OSS) | Llama 3.2 (3B/8B), Mistral NeMo (12B) | Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы. | +
-| Мультимодальные | Llama 3.2 Vision (11B), Qwen2-VL | Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации. | +
-| Локальные агенты | OpenDevin, AutoGPT (на базе Qwen 7B| Можно запускать полноценных AI-агентов для автоматизации задач на ПК. |+
  
-=== RTX 3080 Ti (12GB VRAM) в LM Studio ===+===== Блок питания =====
  
-^ Модель AI ^ Параметры ^ Рекомендуемое квантование ^ Настройки LM Studio (GPU Offload) ^ +Спецификация для компактной рабочей станции HP 805D SFF.
-| DeepSeek-V3 | 671B (MoE) | IQ2_XS / IQ2_M | Не влезет в VRAM. Использовать только через API или GGUF с системной RAM. | +
-| DeepSeek-Coder-V2 | 16B | Q5_K_M или Q6_K | Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек. | +
-| Qwen 2.5 / 3 | 14B / 32B | 14B: Q8_0; 32B: Q3_K_M | 14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM). | +
-| Llama 3.1 / 3.2 | 8B / 70B | 8B: Q8_0 (FP16); 70B: IQ1_S | 8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM). | +
-| Mistral NeMo | 12B | Q6_K или Q8_0 | Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты. | +
-| Gemma 2 | 9B / 27B | 9B: Q8_0; 27B: Q3_K_L | 9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев). | +
-| Command R | 35B | IQ3_M | Частичный оффлоуд. Хорошо подходит для RAG (работы с документами)|+
  
-=== Модели для кодинга (Python, JS, C++, SQL и др.) ===+^ Компонент ^ Спецификация ^ Детали ^ 
 +| **Производитель/Модель БП** | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 | 
 +| **OEM-производитель** | [[https://www.deltaww.com|Delta Electronics]] / [[https://www.liteon.com|Lite-On]] | Модель: DPS-500AB-51 A / PA-5501-2HA | 
 +| **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF | 
 +| **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты | 
 +| **Сертификация** | [[https://www.80plus.org|80 Plus Platinum]] | Высокий КПД, низкое тепловыделение |
  
-^ Название модели ^ Параметры ^ Квантование (12GB VRAM) ^ Настройка в LM Studio ^ +===== Совместимые низкопрофильные (Low Profileвидеокарты =====
-| DeepSeek-Coder-V2-Lite | 16B | Q5_K_M (или Q6) | Full GPU Offload. Лучшая модель для кода на сегодня. | +
-| Qwen 2.5 Coder | 7B | Q8_0 (FP16| Full GPU Offload. Самая быстрая, идеальна для простых скриптов. | +
-| CodeLlama | 13B | Q6_K | Full GPU Offload. Проверенная классика от Meta. | +
-| Phind-CodeLlama | 34B | IQ3_M | Partial Offload (20-24 слоя). Очень умная, но требует системной RAM. | +
-| Granite-Code (IBM) | 8B | Q8_0 | Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code. |+
  
-=== 12 ГБ VRAM ===+Возможности апгрейда для корпуса SFF.
  
-^ Модель для кодинга ^ Параметры ^ Квантование (для 12GB^ Скорость / Настройка +^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^ 
-DeepSeek-Coder-V2-Lite 16B | Q4_K_M (или IQ4_XS) | Full GPU Offload. Самая мощная модель для кодавлезающая в 12ГБ+**NVIDIA GeForce RTX 4060 LP** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.2 (8B)]], [[https://huggingface.co/mistralai|Mistral 7B]][[https://huggingface.co/Qwen|Qwen 2.5/3]], [[https://huggingface.co/stabilityai|Stable Diffusion XL]] | 
-| Qwen 2.5 Coder 7B Q8_0 (Макскачество) | Full GPU OffloadНевероятная скоростьидеальна для автодополнения. | +| **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.1 (8B)]], [[https://huggingface.co/Qwen|Qwen 2.5 (7B)]][[https://huggingface.co/runwayml|Stable Diffusion 1.5/XL]] 
-StarCoder 2 15B Q5_K_M | Full GPU Offload. Оптимизирована для работы с большим контекстом. | +**NVIDIA GeForce GTX 1660 Ti LP** 6 GB ~182 мм | [[https://huggingface.co/microsoft|Phi-3.5 Mini]], [[https://huggingface.co/google|Gemma 2 (2B/9B)]] | 
-CodeLlama 13B Q6_K Full GPU Offload. Проверенная временем модель от Meta. |+**NVIDIA GeForce RTX 3050 LP (6GB)** 6 GB | ~170 мм | [[https://huggingface.co/google|Gemma 2 (2B)]], [[https://huggingface.co/deepseek-ai|DeepSeek Coder 7B]] |
  
-^ Модель AI ^ Параметры ^ Квантование (12GB) ^ Основное назначение ^ Инструменты (Tools) ^ 
-| DeepSeek R1 (Distill) | 14B | Q5_K_M | Сложные логические рассуждения, математика | Мышление (Chain of Thought), Logic | 
-| Qwen 3 | 7B / 14B | 7B: Q8_0 / 14B: Q4_K_M | Универсальный помощник, лучший русский язык | Web Search, Data Analysis | 
-| Ministral 8B | 8B | Q8_0 | Компактная модель для edge-устройств, быстрая | Навигация, простые чаты | 
-| Llama 3.1 / 3.2 | 8B | Q8_0 (FP16) | Отраслевой стандарт, база для всех задач | RAG, Function Calling, Python | 
-| Nemotron 3 Nano | 4B | Q8_0 | Быстрая классификация, извлечение данных | Summary, Tagging, Fast API | 
-| GLM-4 / 5 | 9B | Q8_0 | Сильная логика, мультимодальность | Image Vision, OCR | 
-| Gemma 3 (2026) | 12B | Q6_K | Творческое письмо, логика от Google | Creative Writing, Logic | 
-| DeepSeek Coder V2 | 16B | IQ4_XS | Написание и аудит сложного кода | Coding, Debugging, SQL | 
-| SmolLM 2 / 3 | 1.7B | Q8_0 | Сверхбыстрые задачи, локальная автоматизация | JSON Extraction, Tiny Agents | 
-| Reflection 1 (L3.1) | 8B | Q8_0 | Модель с самопроверкой ошибок | Self-Correction, Reasoning | 
  
-=== NSFW/Adult ===+==== Выбор моделей ИИ под объем VRAM (2026) ====
  
-^ Базовая модель ^ Популярные кастомные модели (Checkpoints) ^ Особенности для RTX 3080 Ti ^ +===== Обзор по семействам моделей для ГБ VRAM =====
-| Stable Diffusion XL (SDXL) | Pony Diffusion V6 (и выше), RealVisXL, Juggernaut XL | Самый высокий реализм и понимание сложных поз. 12ГБ VRAM хватает для генерации 1024x1024. | +
-| Stable Diffusion 1.5 | Realistic Vision, ChilloutMix, Deliberate | Очень быстрая генерация. Огромная база Lora-фильтров для лиц и фетишей. | +
-| Flux.1 (Schnell/Dev) | RealismLora, Flux-Pony | Модель нового поколения (2025-2026). Лучшая анатомия и кожа, но требует 12ГБ+ (на 3080 Ti идет впритык). | +
-| Pony Diffusion | Pony Diffusion V6 XL | Самая гибкая модель. Понимает практически любые запросы через систему тегов (как на Danbooru). |+
  
-===== Agents =====+^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^ 
 +| **Qwen (Alibaba)** | [[https://huggingface.co/Qwen|Qwen 2.5]] / [[https://huggingface.co/Qwen|Qwen 3]] (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). | 
 +| **DeepSeek** | [[https://huggingface.co/deepseek-ai|DeepSeek-V3 (Lite)]], [[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2]] (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. | 
 +| **Meta & Open Source** | [[https://huggingface.co/meta-llama|Llama 3.2 (3B/8B)]], [[https://huggingface.co/mistralai|Mistral NeMo (12B)]] | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. | 
 +| **Мультимодальные** | [[https://huggingface.co/meta-llama|Llama 3.2 Vision (11B)]], [[https://huggingface.co/Qwen|Qwen2-VL (7B)]] | Позволяют анализировать изображения. Требуют оптимизации и квантования. | 
 +| **Локальные агенты** | [[https://github.com/OpenDevin|OpenDevin]], [[https://github.com/Significant-Gravitas|AutoGPT]] (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. |
  
-<code bash> +===== Рекомендации по квантованию для разного железа =====
-$ npm install -g @qwen-code/qwen-code +
-$ qwen --version +
-</code>+
  
-<code bash> +^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^ 
-$ npm install -g @google/gemini-cli +| **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. | 
-$ gemini +| **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. | 
-</code>+| **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. |
  
 +===== Подробные таблицы для конкретных GPU =====
  
-===== Новости по моделям =====+=== Для RTX 3080 Ti (12 ГБ VRAM) ===
  
-  * https://habr.com/en/search/?q=[%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8+%D0%B8%D0%B8]&target_type=posts&order=date+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/Качество ^ Назначение ^ 
 +**[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **Q5_K_M** | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ | 
 +| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **Q4_K_M** / **Q5_K_M** | Отличная скорость, лучший русский | Универсальный чат, функции | 
 +| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **Q6_K** | Высокое качество, креативность | Творчество, письмо | 
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ4_XS** / **Q4_K_M** | Эталон для кода, хорошая скорость | Программирование, аудит кода | 
 +| **[[https://huggingface.co/mistralai|Mistral NeMo]]** | 12B | **Q6_K** | Стабильно, создана под 12 ГБ | Универсальная, инструменты | 
 +| **[[https://huggingface.co/THUDM|GLM-5]]** | 9B | **Q8_0** | Максимальное качество | Мультимодальность (Vision) | 
 +| **[[https://huggingface.co/allenai|OLMo-3-13B-Instr.]]** | 13B | **Q6_K** | Высокое качество, открытая | Исследования, анализ | 
 +| **[[https://huggingface.co/mistralai|Ministral 8B]]** | 8B | **Q8_0** | Очень высокая скорость | Автоматизация (n8n, JSON) |
  
-===== Модели =====+=== Для RTX 4060 (8 ГБ VRAM) ===
  
-  * Alibaba Group объявила о выходе модели искусственного интеллекта **Qwen3-Coder** — она доступна с открытым исходным кодом и предназначается для написания программного кода.+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий ^ 
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **IQ3_M** | Работает на грани, но качество стоит того. | 
 +| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **IQ3_M** | Основной выбор для универсальных задач. | 
 +| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **IQ3_M** / **Q4_K_M** | Отличный баланс для творческих задач. | 
 +**[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ2_M** | Единственный способ запустить 16B на 8 ГБ. | 
 +| **[[https://huggingface.co/mistralai|Mistral NeMo (L3.1)]]** | 12B | **Q3_K_M** | Стабильная работа, хорошая скорость. | 
 +| **[[https://huggingface.co/meta-llama|Reflection 1 (L3.1)]]** | 8B | **Q5_K_M** | Механизм самокоррекции, качественно. | 
 +| **[[https://huggingface.co/Qwen|Qwen 2.5 Coder]]** | 7B | **Q6_K** / **Q8_0** | Летает, отличное качество кода для размера. | 
 +| **[[https://huggingface.co/meta-llama|Llama 3.2]]** | 8B | **Q6_K** | Надежный и предсказуемый стандарт|
  
-===== On-Line Модели =====+=== Intel HD Graphics 530 / i7-6700, 32GB RAM ===
  
-  * https://chat.deepseek.com/ +^ Модель ^ Параметры ^ Команда скачивания ^ Назначение ^ 
-  * https://alice.yandex.ru/ +| Qwen 3 | 7B | docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n | 
-  * https://deepai.org/chat +| DeepSeek R1 | 14B | docker exec -it ollama ollama pull deepseek-r1:14b | Сложная логика и кодинг (через рассуждения) | 
-  * https://chat.qwen.ai/+| Mistral NeMo| 12B | docker exec -it ollama ollama pull mistral-nemo | Анализ длинных документов и суммаризация | 
 +| Llama 3.2 | 3B | docker exec -it ollama ollama pull llama3.2:3b | Мгновенная классификация (самая быстрая) | 
 +==== Специализация моделей ====
  
-===== Агрегаторы =====+===== Модели для программирования (Coding) =====
  
-  * https://openrouter.ai/chat+^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^ 
 +**[[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2-Lite]]** | 16B | **Q5_K_M** | **IQ2_M** | Лучшая модель для кода на 2026 год. | 
 +| **[[https://huggingface.co/Qwen|Qwen 2.5/3 Coder]]** | 7B/14B | **Q8_0** / **Q4_K_M** | **Q6_K** / **IQ3_M** | Быстрая, отличная поддержка языков. | 
 +| **[[https://huggingface.co/codellama|CodeLlama]]** | 13B | **Q6_K** | **Q3_K_S** | Проверенная классика, стабильна. | 
 +| **[[https://huggingface.co/Phind|Phind-CodeLlama]]** | 34B | **IQ3_M** (partial) | Не рекомендуется | Очень умная, но требует много RAM. | 
 +| **[[https://huggingface.co/ibm-granite|Granite-Code (IBM)]]** | 8B | **Q8_0** | **Q6_K** | Легкая и быстрая для интеграции в IDE. |
  
-==== Специализированные ====+===== Генерация изображений (NSFW/Art) ===== 
 + 
 +^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM ^ Комментарий для 12 ГБ ^ 
 +| **[[https://huggingface.co/stabilityai|Stable Diffusion XL (SDXL)]]** | [[https://civitai.com/models/241415|Pony Diffusion V6]], [[https://civitai.com/models/254269|RealVisXL]] | ~10-12 ГБ | Идеально. Генерация 1024x1024 без проблем. | 
 +| **[[https://huggingface.co/runwayml|Stable Diffusion 1.5]]** | [[https://civitai.com/models/4201|Realistic Vision]], [[https://civitai.com/models/6424|ChilloutMix]] | ~4-6 ГБ | Огромная база LoRA, очень быстрая. | 
 +| **[[https://huggingface.co/black-forest-labs|Flux.1]]** (Schnell/Dev) | [[https://civitai.com/models/396408|RealismLoRA]], [[https://civitai.com/models/397133|Flux-Pony]] | 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. | 
 +| **[[https://civitai.com/models/241415|Pony Diffusion]]** | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. | 
 + 
 +===== Автоматизация (n8n, AI Agents) ===== 
 + 
 +^ Модель AI ^ Роль ^ Квантование (8-12GB) ^ Критерий ^ 
 +| **[[https://huggingface.co/Qwen|Qwen 2.5/3 (7B)]]** | Универсальный диспетчер | **Q8_0** / **Q5_K_M** | Идеален для JSON и вызова функций. | 
 +| **[[https://huggingface.co/deepseek-ai|DeepSeek-V3-Distill (14B)]]** | Сложная логика, ветвление | **Q4_K_M** / **IQ3_M** | Высокая точность следования инструкциям if/else. | 
 +| **[[https://huggingface.co/nvidia|Nemotron 3 Nano (4B)]]** | Экстракция текста в JSON | **Q8_0** | Сверхбыстрая, только структурирование. | 
 +| **[[https://huggingface.co/mistralai|Mistral NeMo (12B)]]** | Работа с документами (RAG) | **Q6_K** | Отлично держит длинный контекст. | 
 +| **[[https://huggingface.co/huggingface|SmolLM 2/3 (1.7B)]]** | Микро-агент, классификация | **Q8_0** | Только JSON, скорость >150 токенов/сек. | 
 + 
 + 
 +==== Глоссарий и справочник по квантованию ==== 
 + 
 +===== Типы квантования GGUF (llama.cpp) ===== 
 + 
 +^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^ 
 +| **Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. | 
 +| **Q6_K** | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. | 
 +| **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. | 
 +| **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество". | 
 +| **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. | 
 +| **Q2_K** | 3.3 | Низкое | Только для ознакомления, возможны "галлюцинации". | 
 + 
 +===== Квантование с Imatrix (IQ) – более эффективное ===== 
 + 
 +^ Тип ^ ~Биты ^ Особенности ^ Применение ^ 
 +| **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. | 
 +| **IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). | 
 +| **IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. | 
 +| **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. | 
 + 
 +===== Расшифровка суффиксов ===== 
 + 
 +^ Суффикс ^ Значение ^ 
 +| **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). | 
 +| **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). | 
 +| **\_L** (Large) | Минимальное сжатие (лучшее качество, большой файл). | 
 + 
 + 
 +==== Инструменты и ПО ==== 
 + 
 +===== Локальный запуск LLM ===== 
 + 
 +^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ 
 +| **GUI-клиент** | **LM Studio** | [[https://lmstudio.ai/|LM Studio]] | Основной графический интерфейс для GGUF моделей. | 
 +| **CLI-движок и API** | **Ollama** | [[https://ollama.com/|Ollama]] | Простой CLI для управления моделями, идеален для фоновой работы и API. | 
 +| **Продвинутый GUI** | **Faraday.dev** | [[https://faraday.dev/|Faraday.dev]] | Альтернатива с встроенным RAG и утилитами. | 
 +| **Веб-интерфейс** | **Oobabooga** | [[https://github.com/oobabooga/text-generation-webui|Oobabooga]] | Продвинутый веб-интерфейс с поддержкой множества бэкендов. | 
 + 
 +===== Разработка и автоматизация ===== 
 + 
 +^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ 
 +| **Автоматизация рабочих процессов** | **n8n** | [[https://n8n.io/|n8n]] | Платформа для создания AI-агентов и автоматизации. | 
 +| **AI-редактор кода** | **Cursor** | [[https://cursor.com/|Cursor]] | Продвинутый редактор с глубокой интеграцией локальных LLM через API. | 
 +| **Плагин для VS Code** | **Continue.dev** | [[https://www.continue.dev/|Continue.dev]] | Плагин для использования локальных LLM прямо в VS Code. | 
 +| **Терминальный агент** | **OpenDevin** | [[https://github.com/OpenDevin/OpenDevin|OpenDevin]] | Агент для выполнения задач через терминал. | 
 + 
 +===== Генерация изображений ===== 
 + 
 +^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ 
 +| **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https://github.com/lllyasviel/stable-diffusion-webui-forge|Forge UI]] | Самый быстрый и современный интерфейс для Stable Diffusion. | 
 +| **Платформа для моделей** | **Civitai** | [[https://civitai.com/|Civitai]] | Основная библиотека чекпоинтов, LoRA, Embeddings. | 
 +| **Альтернативный интерфейс** | **ComfyUI** | [[https://github.com/comfyanonymous/ComfyUI|ComfyUI]] | Визуальное программирование пайплайнов генерации. | 
 + 
 +===== Ресурсы с моделями ===== 
 + 
 +^ Ресурс ^ Ссылка ^ Описание ^ 
 +| **Hugging Face** | [[https://huggingface.co/|Hugging Face]] | Главный хаб для всех открытых моделей ИИ. | 
 +| **TheBloke** (автор GGUF) | [[https://huggingface.co/TheBloke|TheBloke]] | Основной источник качественно квантованных GGUF моделей. | 
 +| **bartowski** (автор GGUF) | [[https://huggingface.co/bartowski|bartowski]] | Качественные квантования, особенно для 12 ГБ карт. | 
 +| **mradermacher** (автор IQ) | [[https://huggingface.co/mradermacher|mradermacher]] | Специализируется на IQ-квантах для 8 ГБ карт. | 
 + 
 + 
 +==== Прямые ссылки на ключевые модели (GGUF) ==== 
 + 
 +Скачивайте файлы `.gguf` для использования в LM Studio или Ollama. 
 + 
 +^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка ^ 
 +| **DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | 
 +| **DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/DeepSeek-R1-Distill-14B-GGUF|Скачать]] | 
 +| **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/Qwen2.5-14B-Instruct-GGUF|Скачать]] | 
 +| **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-GGUF|Скачать]] | 
 +| **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/bartowski/gemma-3-12b-it-GGUF|Скачать]] | 
 +| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | 
 +| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] | 
 +| **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | 
 +| **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] | 
 +| **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https://huggingface.co/TheBloke/glm-5-9b-chat-GGUF|Скачать]] | 
 + 
 +**Рекомендация по загрузке:**  
 +Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте **`Q4_K_M`** или **`Q5_K_M`**. 
 +Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**. 
 + 
 + 
 +==== Онлайн-сервисы и агрегаторы ==== 
 + 
 +===== Бесплатные онлайн-чаты ===== 
 +  * **DeepSeek Chat:** [[https://chat.deepseek.com/|chat.deepseek.com]] 
 +  * **Qwen Chat (Alibaba):** [[https://chat.qwen.ai/|chat.qwen.ai]] 
 +  * **Yandex GPT (Alice):** [[https://alice.yandex.ru/|alice.yandex.ru]] 
 +  * **Gemini Chat:** [[https://gemini.google.com/|gemini.google.com]] 
 + 
 +===== Агрегаторы и сравнение моделей ===== 
 +  * **OpenRouter:** [[https://openrouter.ai/chat|openrouter.ai]] — сравнивает сотни моделей, есть бесплатные квоты. 
 +  * **Chat Arena (LMSYS):** [[https://chat.lmsys.org/|chat.lmsys.org]] — слепое тестирование разных моделей. 
 + 
 +===== Специализированные сервисы ===== 
 +  * **Распознавание речи:** [[https://speech2text.ru/|speech2text.ru]] 
 +  * **Перевод и транскрипция:** [[https://www.deepl.com/|DeepL]] 
 + 
 + 
 +==== Новости и обновления ==== 
 + 
 +Для отслеживания новостей в мире открытых моделей: 
 +  * **Хабр (по тегу):** [[https://habr.com/ru/search/?q=[модели%20ии]&target_type=posts&order=date|Хабр: модели ИИ]] 
 +  * **r/LocalLLaMA (Reddit):** [[https://www.reddit.com/r/LocalLLaMA/|r/LocalLLaMA]] 
 +  * **Hugging Face Blog:** [[https://huggingface.co/blog|Hugging Face Blog]] 
 +  * **AI News Aggregator:** [[https://the-decoder.com/|The Decoder]] 
 + 
 +===== Командные строки для установки агентов ===== 
 + 
 +<code bash> 
 +# Установка Qwen Code Agent 
 +$ npm install -g @qwen-code/qwen-code 
 +$ qwen --version 
 +</code> 
 + 
 +<code bash> 
 +# Установка Gemini CLI 
 +$ npm install -g @google/gemini-cli 
 +$ gemini 
 +</code> 
 + 
 +<code bash> 
 +# Установка Ollama 
 +$ curl -fsSL https://ollama.com/install.sh | sh 
 +$ ollama run llama3.2 
 +</code>
  
  
-  * https://speech2text.ru/