Различия

Показаны различия между двумя версиями страницы.

--- develop:models [2025/12/03 21:49] – [AI Models] 192.168.1.159
+++ develop:models [2026/01/02 22:33] (текущий) – [Для RTX 4060 (8 ГБ VRAM)] 192.168.1.159
@@ Строка 1: / Строка 1: @@
-====== AI Models ======
+====== AI Models & Hardware Guide ======
-  * Sora 2
+{{tag>ai llm модели hardware gpu nvidia квантование}}
-  * Kling AI
-  * Veo 3
-  * Hailuo
-  * Seedance
-  * Wan
-===== Новости по моделям =====
-  * https://habr.com/en/search/?q=[%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8+%D0%B8%D0%B8]&target_type=posts&order=date
-===== Модели =====
+==== Введение ====
-  * Alibaba Group объявила о выходе модели искусственного интеллекта **Qwen3-Coder** — она доступна с открытым исходным кодом и предназначается для написания программного кода.
+Данная документация содержит актуальную на 2026 год информацию по подбору, настройке и запуску современных языковых (LLM) и мультимодальных моделей на локальном оборудовании. Основной фокус — на видеокартах NVIDIA с 8 ГБ (RTX 4060) и 12 ГБ (RTX 3080 Ti) видеопамяти.
-===== On-Line Модели =====
-  * https://chat.deepseek.com/
+==== Аппаратная платформа (SFF Workstation) ====
-  * https://alice.yandex.ru/
-  * https://deepai.org/chat
-  * https://chat.qwen.ai/
-===== Агрегаторы =====
+===== Блок питания =====
-  * https://openrouter.ai/chat
+Спецификация для компактной рабочей станции HP 805D SFF.
-==== Специализированные ====
+^ Компонент ^ Спецификация ^ Детали ^
+| **Производитель/Модель БП** | HP 500W Platinum SFF | P/N: L89233-001 / L77487-001 |
+| **OEM-производитель** | [[https://www.deltaww.com|Delta Electronics]] / [[https://www.liteon.com|Lite-On]] | Модель: DPS-500AB-51 A / PA-5501-2HA |
+| **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF |
+| **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты |
+| **Сертификация** | [[https://www.80plus.org|80 Plus Platinum]] | Высокий КПД, низкое тепловыделение |
+===== Совместимые низкопрофильные (Low Profile) видеокарты =====
+Возможности апгрейда для корпуса SFF.
+^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^
+| **NVIDIA GeForce RTX 4060 LP** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.2 (8B)]], [[https://huggingface.co/mistralai|Mistral 7B]], [[https://huggingface.co/Qwen|Qwen 2.5/3]], [[https://huggingface.co/stabilityai|Stable Diffusion XL]] |
+| **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB | ~182 мм | [[https://huggingface.co/meta-llama|Llama 3.1 (8B)]], [[https://huggingface.co/Qwen|Qwen 2.5 (7B)]], [[https://huggingface.co/runwayml|Stable Diffusion 1.5/XL]] |
+| **NVIDIA GeForce GTX 1660 Ti LP** | 6 GB | ~182 мм | [[https://huggingface.co/microsoft|Phi-3.5 Mini]], [[https://huggingface.co/google|Gemma 2 (2B/9B)]] |
+| **NVIDIA GeForce RTX 3050 LP (6GB)** | 6 GB | ~170 мм | [[https://huggingface.co/google|Gemma 2 (2B)]], [[https://huggingface.co/deepseek-ai|DeepSeek Coder 7B]] |
+==== Выбор моделей ИИ под объем VRAM (2026) ====
+===== Обзор по семействам моделей для 8 ГБ VRAM =====
+^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^
+| **Qwen (Alibaba)** | [[https://huggingface.co/Qwen|Qwen 2.5]] / [[https://huggingface.co/Qwen|Qwen 3]] (7B, 14B 4-bit) | Версия 7B работает очень быстро. 14B поместится только с агрессивным квантованием (GGUF/EXL2). |
+| **DeepSeek** | [[https://huggingface.co/deepseek-ai|DeepSeek-V3 (Lite)]], [[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2]] (Lite) | Идеально для программирования. Рекомендуются модели до 7B-16B параметров. |
+| **Meta & Open Source** | [[https://huggingface.co/meta-llama|Llama 3.2 (3B/8B)]], [[https://huggingface.co/mistralai|Mistral NeMo (12B)]] | Mistral NeMo — новый стандарт для 8 ГБ карт, стабильное качество. |
+| **Мультимодальные** | [[https://huggingface.co/meta-llama|Llama 3.2 Vision (11B)]], [[https://huggingface.co/Qwen|Qwen2-VL (7B)]] | Позволяют анализировать изображения. Требуют оптимизации и квантования. |
+| **Локальные агенты** | [[https://github.com/OpenDevin|OpenDevin]], [[https://github.com/Significant-Gravitas|AutoGPT]] (на базе Qwen 7B) | Запуск AI-агентов для автоматизации задач на ПК. |
+===== Рекомендации по квантованию для разного железа =====
+^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^
+| **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. |
+| **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. |
+| **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. |
+===== Подробные таблицы для конкретных GPU =====
+=== Для RTX 3080 Ti (12 ГБ VRAM) ===
+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/Качество ^ Назначение ^
+| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **Q5_K_M** | Высокая скорость, лидер по логике | Рассуждения (CoT), анализ |
+| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **Q4_K_M** / **Q5_K_M** | Отличная скорость, лучший русский | Универсальный чат, функции |
+| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **Q6_K** | Высокое качество, креативность | Творчество, письмо |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ4_XS** / **Q4_K_M** | Эталон для кода, хорошая скорость | Программирование, аудит кода |
+| **[[https://huggingface.co/mistralai|Mistral NeMo]]** | 12B | **Q6_K** | Стабильно, создана под 12 ГБ | Универсальная, инструменты |
+| **[[https://huggingface.co/THUDM|GLM-5]]** | 9B | **Q8_0** | Максимальное качество | Мультимодальность (Vision) |
+| **[[https://huggingface.co/allenai|OLMo-3-13B-Instr.]]** | 13B | **Q6_K** | Высокое качество, открытая | Исследования, анализ |
+| **[[https://huggingface.co/mistralai|Ministral 8B]]** | 8B | **Q8_0** | Очень высокая скорость | Автоматизация (n8n, JSON) |
+=== Для RTX 4060 (8 ГБ VRAM) ===
+^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий ^
+| **[[https://huggingface.co/deepseek-ai|DeepSeek R1 (Distill)]]** | 14B | **IQ3_M** | Работает на грани, но качество стоит того. |
+| **[[https://huggingface.co/Qwen|Qwen 3]]** | 14B | **IQ3_M** | Основной выбор для универсальных задач. |
+| **[[https://huggingface.co/google|Gemma 3]] (2026)** | 12B | **IQ3_M** / **Q4_K_M** | Отличный баланс для творческих задач. |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek Coder V2]]** | 16B | **IQ2_M** | Единственный способ запустить 16B на 8 ГБ. |
+| **[[https://huggingface.co/mistralai|Mistral NeMo (L3.1)]]** | 12B | **Q3_K_M** | Стабильная работа, хорошая скорость. |
+| **[[https://huggingface.co/meta-llama|Reflection 1 (L3.1)]]** | 8B | **Q5_K_M** | Механизм самокоррекции, качественно. |
+| **[[https://huggingface.co/Qwen|Qwen 2.5 Coder]]** | 7B | **Q6_K** / **Q8_0** | Летает, отличное качество кода для размера. |
+| **[[https://huggingface.co/meta-llama|Llama 3.2]]** | 8B | **Q6_K** | Надежный и предсказуемый стандарт. |
+=== Intel HD Graphics 530 / i7-6700, 32GB RAM ===
+^ Модель ^ Параметры ^ Команда скачивания ^ Назначение ^
+| Qwen 3 | 7B | docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n |
+| DeepSeek R1 | 14B | docker exec -it ollama ollama pull deepseek-r1:14b | Сложная логика и кодинг (через рассуждения) |
+| Mistral NeMo| 12B | docker exec -it ollama ollama pull mistral-nemo | Анализ длинных документов и суммаризация |
+| Llama 3.2 | 3B | docker exec -it ollama ollama pull llama3.2:3b | Мгновенная классификация (самая быстрая) |
+==== Специализация моделей ====
+===== Модели для программирования (Coding) =====
+^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^
+| **[[https://huggingface.co/deepseek-ai|DeepSeek-Coder-V2-Lite]]** | 16B | **Q5_K_M** | **IQ2_M** | Лучшая модель для кода на 2026 год. |
+| **[[https://huggingface.co/Qwen|Qwen 2.5/3 Coder]]** | 7B/14B | **Q8_0** / **Q4_K_M** | **Q6_K** / **IQ3_M** | Быстрая, отличная поддержка языков. |
+| **[[https://huggingface.co/codellama|CodeLlama]]** | 13B | **Q6_K** | **Q3_K_S** | Проверенная классика, стабильна. |
+| **[[https://huggingface.co/Phind|Phind-CodeLlama]]** | 34B | **IQ3_M** (partial) | Не рекомендуется | Очень умная, но требует много RAM. |
+| **[[https://huggingface.co/ibm-granite|Granite-Code (IBM)]]** | 8B | **Q8_0** | **Q6_K** | Легкая и быстрая для интеграции в IDE. |
+===== Генерация изображений (NSFW/Art) =====
+^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM ^ Комментарий для 12 ГБ ^
+| **[[https://huggingface.co/stabilityai|Stable Diffusion XL (SDXL)]]** | [[https://civitai.com/models/241415|Pony Diffusion V6]], [[https://civitai.com/models/254269|RealVisXL]] | ~10-12 ГБ | Идеально. Генерация 1024x1024 без проблем. |
+| **[[https://huggingface.co/runwayml|Stable Diffusion 1.5]]** | [[https://civitai.com/models/4201|Realistic Vision]], [[https://civitai.com/models/6424|ChilloutMix]] | ~4-6 ГБ | Огромная база LoRA, очень быстрая. |
+| **[[https://huggingface.co/black-forest-labs|Flux.1]]** (Schnell/Dev) | [[https://civitai.com/models/396408|RealismLoRA]], [[https://civitai.com/models/397133|Flux-Pony]] | 12 ГБ+ | Новое поколение. Лучшая анатомия, но впритык на 3080 Ti. |
+| **[[https://civitai.com/models/241415|Pony Diffusion]]** | Pony Diffusion V6 XL | ~10 ГБ | Самая гибкая, понимает сложные теги. |
+===== Автоматизация (n8n, AI Agents) =====
+^ Модель AI ^ Роль ^ Квантование (8-12GB) ^ Критерий ^
+| **[[https://huggingface.co/Qwen|Qwen 2.5/3 (7B)]]** | Универсальный диспетчер | **Q8_0** / **Q5_K_M** | Идеален для JSON и вызова функций. |
+| **[[https://huggingface.co/deepseek-ai|DeepSeek-V3-Distill (14B)]]** | Сложная логика, ветвление | **Q4_K_M** / **IQ3_M** | Высокая точность следования инструкциям if/else. |
+| **[[https://huggingface.co/nvidia|Nemotron 3 Nano (4B)]]** | Экстракция текста в JSON | **Q8_0** | Сверхбыстрая, только структурирование. |
+| **[[https://huggingface.co/mistralai|Mistral NeMo (12B)]]** | Работа с документами (RAG) | **Q6_K** | Отлично держит длинный контекст. |
+| **[[https://huggingface.co/huggingface|SmolLM 2/3 (1.7B)]]** | Микро-агент, классификация | **Q8_0** | Только JSON, скорость >150 токенов/сек. |
+==== Глоссарий и справочник по квантованию ====
+===== Типы квантования GGUF (llama.cpp) =====
+^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^
+| **Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. |
+| **Q6_K** | 6.6 | Отличное | "Золотой стандарт". Разница с оригиналом незаметна. |
+| **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. |
+| **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс "размер/качество". |
+| **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. |
+| **Q2_K** | 3.3 | Низкое | Только для ознакомления, возможны "галлюцинации". |
+===== Квантование с Imatrix (IQ) – более эффективное =====
+^ Тип ^ ~Биты ^ Особенности ^ Применение ^
+| **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, где нужна точность. |
+| **IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). |
+| **IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. |
+| **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. |
+===== Расшифровка суффиксов =====
+^ Суффикс ^ Значение ^
+| **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). |
+| **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). |
+| **\_L** (Large) | Минимальное сжатие (лучшее качество, большой файл). |
+==== Инструменты и ПО ====
+===== Локальный запуск LLM =====
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
+| **GUI-клиент** | **LM Studio** | [[https://lmstudio.ai/|LM Studio]] | Основной графический интерфейс для GGUF моделей. |
+| **CLI-движок и API** | **Ollama** | [[https://ollama.com/|Ollama]] | Простой CLI для управления моделями, идеален для фоновой работы и API. |
+| **Продвинутый GUI** | **Faraday.dev** | [[https://faraday.dev/|Faraday.dev]] | Альтернатива с встроенным RAG и утилитами. |
+| **Веб-интерфейс** | **Oobabooga** | [[https://github.com/oobabooga/text-generation-webui|Oobabooga]] | Продвинутый веб-интерфейс с поддержкой множества бэкендов. |
+===== Разработка и автоматизация =====
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
+| **Автоматизация рабочих процессов** | **n8n** | [[https://n8n.io/|n8n]] | Платформа для создания AI-агентов и автоматизации. |
+| **AI-редактор кода** | **Cursor** | [[https://cursor.com/|Cursor]] | Продвинутый редактор с глубокой интеграцией локальных LLM через API. |
+| **Плагин для VS Code** | **Continue.dev** | [[https://www.continue.dev/|Continue.dev]] | Плагин для использования локальных LLM прямо в VS Code. |
+| **Терминальный агент** | **OpenDevin** | [[https://github.com/OpenDevin/OpenDevin|OpenDevin]] | Агент для выполнения задач через терминал. |
+===== Генерация изображений =====
+^ Категория ^ Инструмент ^ Ссылка ^ Описание ^
+| **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https://github.com/lllyasviel/stable-diffusion-webui-forge|Forge UI]] | Самый быстрый и современный интерфейс для Stable Diffusion. |
+| **Платформа для моделей** | **Civitai** | [[https://civitai.com/|Civitai]] | Основная библиотека чекпоинтов, LoRA, Embeddings. |
+| **Альтернативный интерфейс** | **ComfyUI** | [[https://github.com/comfyanonymous/ComfyUI|ComfyUI]] | Визуальное программирование пайплайнов генерации. |
+===== Ресурсы с моделями =====
+^ Ресурс ^ Ссылка ^ Описание ^
+| **Hugging Face** | [[https://huggingface.co/|Hugging Face]] | Главный хаб для всех открытых моделей ИИ. |
+| **TheBloke** (автор GGUF) | [[https://huggingface.co/TheBloke|TheBloke]] | Основной источник качественно квантованных GGUF моделей. |
+| **bartowski** (автор GGUF) | [[https://huggingface.co/bartowski|bartowski]] | Качественные квантования, особенно для 12 ГБ карт. |
+| **mradermacher** (автор IQ) | [[https://huggingface.co/mradermacher|mradermacher]] | Специализируется на IQ-квантах для 8 ГБ карт. |
+==== Прямые ссылки на ключевые модели (GGUF) ====
+Скачивайте файлы `.gguf` для использования в LM Studio или Ollama.
+^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка ^
+| **DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/DeepSeek-R1-Distill-14B-GGUF|Скачать]] |
+| **DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/DeepSeek-R1-Distill-14B-GGUF|Скачать]] |
+| **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/Qwen2.5-14B-Instruct-GGUF|Скачать]] |
+| **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https://huggingface.co/bartowski/Qwen2.5-14B-Instruct-GGUF|Скачать]] |
+| **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/bartowski/gemma-3-12b-it-GGUF|Скачать]] |
+| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] |
+| **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https://huggingface.co/mradermacher/deepseek-coder-v2-lite-16b-GGUF|Скачать]] |
+| **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] |
+| **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https://huggingface.co/TheBloke/Mistral-NeMo-12B-GGUF|Скачать]] |
+| **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https://huggingface.co/TheBloke/glm-5-9b-chat-GGUF|Скачать]] |
+**Рекомендация по загрузке:**
+Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/качество. Для моделей 12B-14B выбирайте **`Q4_K_M`** или **`Q5_K_M`**.
+Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**.
+==== Онлайн-сервисы и агрегаторы ====
+===== Бесплатные онлайн-чаты =====
+  * **DeepSeek Chat:** [[https://chat.deepseek.com/|chat.deepseek.com]]
+  * **Qwen Chat (Alibaba):** [[https://chat.qwen.ai/|chat.qwen.ai]]
+  * **Yandex GPT (Alice):** [[https://alice.yandex.ru/|alice.yandex.ru]]
+  * **Gemini Chat:** [[https://gemini.google.com/|gemini.google.com]]
+===== Агрегаторы и сравнение моделей =====
+  * **OpenRouter:** [[https://openrouter.ai/chat|openrouter.ai]] — сравнивает сотни моделей, есть бесплатные квоты.
+  * **Chat Arena (LMSYS):** [[https://chat.lmsys.org/|chat.lmsys.org]] — слепое тестирование разных моделей.
+===== Специализированные сервисы =====
+  * **Распознавание речи:** [[https://speech2text.ru/|speech2text.ru]]
+  * **Перевод и транскрипция:** [[https://www.deepl.com/|DeepL]]
+==== Новости и обновления ====
+Для отслеживания новостей в мире открытых моделей:
+  * **Хабр (по тегу):** [[https://habr.com/ru/search/?q=[модели%20ии]&target_type=posts&order=date|Хабр: модели ИИ]]
+  * **r/LocalLLaMA (Reddit):** [[https://www.reddit.com/r/LocalLLaMA/|r/LocalLLaMA]]
+  * **Hugging Face Blog:** [[https://huggingface.co/blog|Hugging Face Blog]]
+  * **AI News Aggregator:** [[https://the-decoder.com/|The Decoder]]
+===== Командные строки для установки агентов =====
+<code bash>
+# Установка Qwen Code Agent
+$ npm install -g @qwen-code/qwen-code
+$ qwen --version
+</code>
+<code bash>
+# Установка Gemini CLI
+$ npm install -g @google/gemini-cli
+$ gemini
+</code>
+<code bash>
+# Установка Ollama
+$ curl -fsSL https://ollama.com/install.sh | sh
+$ ollama run llama3.2
+</code>
-  * https://speech2text.ru/