Различия
Показаны различия между двумя версиями страницы.
| Предыдущая версия справа и слева Предыдущая версия Следующая версия | Предыдущая версия | ||
| develop:models [2025/12/03 21:49] – [AI Models] 192.168.1.159 | develop:models [2026/01/02 22:33] (текущий) – [Для RTX 4060 (8 ГБ VRAM)] 192.168.1.159 | ||
|---|---|---|---|
| Строка 1: | Строка 1: | ||
| - | ====== AI Models ====== | + | ====== AI Models |
| - | * Sora 2 | + | {{tag>ai llm модели hardware gpu nvidia квантование}} |
| - | * Kling AI | + | |
| - | * Veo 3 | + | |
| - | * Hailuo | + | |
| - | * Seedance | + | |
| - | * Wan | + | |
| - | ===== Новости по моделям ===== | + | |
| - | * https:// | ||
| - | ===== Модели ===== | + | ==== Введение ==== |
| - | * Alibaba Group объявила о выходе модели искусственного интеллекта **Qwen3-Coder** — она доступна с открытым исходным | + | Данная |
| - | ===== On-Line Модели ===== | ||
| - | * https:// | + | ==== Аппаратная платформа (SFF Workstation) ==== |
| - | * https:// | + | |
| - | * https:// | + | |
| - | * https:// | + | |
| - | ===== Агрегаторы ===== | + | ===== Блок питания |
| - | * https:// | + | Спецификация для компактной рабочей станции HP 805D SFF. |
| - | ==== Специализированные ==== | + | ^ Компонент ^ Спецификация ^ Детали ^ |
| + | | **Производитель/ | ||
| + | | **OEM-производитель** | [[https:// | ||
| + | | **Форм-фактор** | SFF (Small Form Factor) | Для установки в корпус HP 805D SFF | | ||
| + | | **Разъемы питания** | Проприетарные HP (4+4+7 pin) | В комплекте: | ||
| + | | **Сертификация** | [[https:// | ||
| + | |||
| + | ===== Совместимые низкопрофильные (Low Profile) видеокарты ===== | ||
| + | |||
| + | Возможности апгрейда для корпуса SFF. | ||
| + | |||
| + | ^ Модель GPU (Low Profile) ^ VRAM ^ Длина ^ Ключевые AI-модели (2026) ^ | ||
| + | | **NVIDIA GeForce RTX 4060 LP** | 8 GB | ~182 мм | [[https:// | ||
| + | | **NVIDIA GeForce RTX 3050 LP (8GB)** | 8 GB | ~182 мм | [[https:// | ||
| + | | **NVIDIA GeForce GTX 1660 Ti LP** | 6 GB | ~182 мм | [[https:// | ||
| + | | **NVIDIA GeForce RTX 3050 LP (6GB)** | 6 GB | ~170 мм | [[https:// | ||
| + | |||
| + | |||
| + | ==== Выбор моделей ИИ под объем VRAM (2026) ==== | ||
| + | |||
| + | ===== Обзор по семействам моделей для 8 ГБ VRAM ===== | ||
| + | |||
| + | ^ Семейство AI ^ Конкретные модели (для 8GB VRAM) ^ Особенности работы ^ | ||
| + | | **Qwen (Alibaba)** | [[https:// | ||
| + | | **DeepSeek** | [[https:// | ||
| + | | **Meta & Open Source** | [[https:// | ||
| + | | **Мультимодальные** | [[https:// | ||
| + | | **Локальные агенты** | [[https:// | ||
| + | |||
| + | ===== Рекомендации по квантованию для | ||
| + | |||
| + | ^ Объем VRAM ^ Рекомендуемый битность (2026) ^ Пример модели ^ Тип квантования (GGUF) ^ Комментарий ^ | ||
| + | | **8 ГБ** (RTX 4060) | 3-6 бит | Qwen 3 14B, Mistral NeMo 12B | **IQ3_M**, **Q4_K_M** | Баланс качества и размера. Для 7B-8B можно **Q5_K_M**. | | ||
| + | | **12 ГБ** (RTX 3080 Ti) | 4-8 бит | DeepSeek Coder 16B, Qwen 3 14B | **Q4_K_M**, **Q5_K_M**, **Q6_K** | Лучшее качество. 14B модели в Q4_K_M работают идеально. | | ||
| + | | **16+ ГБ** (RTX 5080/4090) | 4-8 бит, FP16 | Модели до 30B+ | **Q8_0**, **FP16** | Запуск больших моделей с минимальной деградацией. | | ||
| + | |||
| + | ===== Подробные | ||
| + | |||
| + | === Для RTX 3080 Ti (12 ГБ VRAM) === | ||
| + | |||
| + | ^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Скорость/ | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | |||
| + | === Для RTX 4060 (8 ГБ VRAM) === | ||
| + | |||
| + | ^ Модель AI ^ Параметры ^ Оптимальное квантование ^ Комментарий ^ | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | |||
| + | === Intel HD Graphics 530 / i7-6700, 32GB RAM === | ||
| + | |||
| + | ^ Модель ^ Параметры ^ Команда скачивания ^ Назначение ^ | ||
| + | | Qwen 3 | 7B | docker exec -it ollama ollama pull qwen3:7b | Лучший универсал для RU языка и n8n | | ||
| + | | DeepSeek R1 | 14B | docker exec -it ollama ollama pull deepseek-r1: | ||
| + | | Mistral NeMo| 12B | docker exec -it ollama ollama pull mistral-nemo | Анализ длинных документов и суммаризация | | ||
| + | | Llama 3.2 | 3B | docker exec -it ollama ollama pull llama3.2:3b | Мгновенная классификация (самая быстрая) | | ||
| + | ==== Специализация моделей ==== | ||
| + | |||
| + | ===== Модели для программирования (Coding) ===== | ||
| + | |||
| + | ^ Название модели ^ Параметры ^ Квантование (12GB) ^ Квантование (8GB) ^ Особенности ^ | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | |||
| + | ===== Генерация изображений (NSFW/Art) ===== | ||
| + | |||
| + | ^ Базовая модель ^ Популярные чекпоинты ^ Требования VRAM ^ Комментарий для 12 ГБ ^ | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | |||
| + | ===== Автоматизация (n8n, AI Agents) ===== | ||
| + | |||
| + | ^ Модель AI ^ Роль ^ Квантование (8-12GB) ^ Критерий ^ | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | | **[[https:// | ||
| + | |||
| + | |||
| + | ==== Глоссарий и справочник по квантованию ==== | ||
| + | |||
| + | ===== Типы квантования GGUF (llama.cpp) ===== | ||
| + | |||
| + | ^ Тип ^ ~Биты ^ Качество ^ Рекомендация ^ | ||
| + | | **Q8_0** | 8.5 | Практически оригинал | Для моделей ≤9B при избытке VRAM. | | ||
| + | | **Q6_K** | 6.6 | Отличное | " | ||
| + | | **Q5_K_M** | 5.5 | Очень высокое | Оптимальный баланс для 12-14B моделей на 12 ГБ. | | ||
| + | | **Q4_K_M** | 4.8 | Хорошее | Самый популярный выбор. Лучший баланс " | ||
| + | | **Q3_K_M** | 3.9 | Среднее | Для запуска 14B моделей на 8 ГБ VRAM. | | ||
| + | | **Q2_K** | 3.3 | Низкое | Только для ознакомления, | ||
| + | |||
| + | ===== Квантование с Imatrix (IQ) – более эффективное ===== | ||
| + | |||
| + | ^ Тип ^ ~Биты ^ Особенности ^ Применение ^ | ||
| + | | **IQ4_XS** | 4.25 | Качественнее стандартного Q4_K_M | Для 12B-16B моделей, | ||
| + | | **IQ3_M** | 3.30 | Топ для 8GB карт | Запуск 14B моделей (Qwen 3, DeepSeek R1). | | ||
| + | | **IQ3_XS** | 3.00 | Глубокое сжатие | Для 12B моделей с большим контекстом. | | ||
| + | | **IQ2_M** | 2.50 | Агрессивное сжатие | Запуск 16B моделей (DeepSeek Coder V2) на 8 ГБ. | | ||
| + | |||
| + | ===== Расшифровка суффиксов ===== | ||
| + | |||
| + | ^ Суффикс ^ Значение ^ | ||
| + | | **\_S** (Small) | Максимальное сжатие в группе (экономия памяти). | | ||
| + | | **\_M** (Medium) | Рекомендуемый вариант (баланс точности и размера). | | ||
| + | | **\_L** (Large) | Минимальное сжатие (лучшее качество, | ||
| + | |||
| + | |||
| + | ==== Инструменты и ПО ==== | ||
| + | |||
| + | ===== Локальный запуск LLM ===== | ||
| + | |||
| + | ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | ||
| + | | **GUI-клиент** | **LM Studio** | [[https:// | ||
| + | | **CLI-движок и API** | **Ollama** | [[https:// | ||
| + | | **Продвинутый GUI** | **Faraday.dev** | [[https:// | ||
| + | | **Веб-интерфейс** | **Oobabooga** | [[https:// | ||
| + | |||
| + | ===== Разработка и автоматизация ===== | ||
| + | |||
| + | ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | ||
| + | | **Автоматизация рабочих процессов** | **n8n** | [[https:// | ||
| + | | **AI-редактор кода** | **Cursor** | [[https:// | ||
| + | | **Плагин для VS Code** | **Continue.dev** | [[https:// | ||
| + | | **Терминальный агент** | **OpenDevin** | [[https:// | ||
| + | |||
| + | ===== Генерация изображений ===== | ||
| + | |||
| + | ^ Категория ^ Инструмент ^ Ссылка ^ Описание ^ | ||
| + | | **Веб-интерфейс для SD** | **Forge UI** (A1111 Fork) | [[https:// | ||
| + | | **Платформа для моделей** | **Civitai** | [[https:// | ||
| + | | **Альтернативный интерфейс** | **ComfyUI** | [[https:// | ||
| + | |||
| + | ===== Ресурсы с моделями ===== | ||
| + | |||
| + | ^ Ресурс ^ Ссылка ^ Описание ^ | ||
| + | | **Hugging Face** | [[https:// | ||
| + | | **TheBloke** (автор GGUF) | [[https:// | ||
| + | | **bartowski** (автор GGUF) | [[https:// | ||
| + | | **mradermacher** (автор IQ) | [[https:// | ||
| + | |||
| + | |||
| + | ==== Прямые ссылки на ключевые модели (GGUF) ==== | ||
| + | |||
| + | Скачивайте файлы `.gguf` для использования в LM Studio или Ollama. | ||
| + | |||
| + | ^ Модель AI ^ Параметры ^ Автор квантования (HF) ^ Рекомендуемый файл ^ Прямая ссылка ^ | ||
| + | | **DeepSeek R1 (Distill)** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https:// | ||
| + | | **DeepSeek R1 (Distill)** | 14B | **bartowski** | `Q5_K_M.gguf` (12GB) | [[https:// | ||
| + | | **Qwen 3** | 14B | **mradermacher** | `IQ3_M.gguf` (8GB) | [[https:// | ||
| + | | **Qwen 3** | 14B | **bartowski** | `Q4_K_M.gguf` (12GB) | [[https:// | ||
| + | | **Gemma 3** (2026) | 12B | **bartowski** | `Q6_K.gguf` (12GB) | [[https:// | ||
| + | | **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ2_M.gguf` (8GB) | [[https:// | ||
| + | | **DeepSeek Coder V2** | 16B | **mradermacher** | `IQ4_XS.gguf` (12GB) | [[https:// | ||
| + | | **Mistral NeMo** | 12B | **TheBloke** | `Q3_K_M.gguf` (8GB) | [[https:// | ||
| + | | **Mistral NeMo** | 12B | **TheBloke** | `Q6_K.gguf` (12GB) | [[https:// | ||
| + | | **GLM-5** | 9B | **TheBloke** | `Q8_0.gguf` (12GB) | [[https:// | ||
| + | |||
| + | **Рекомендация по загрузке: | ||
| + | Для **RTX 3080 Ti (12 ГБ)** ищите модели от автора **`bartowski`** — его кванты считаются эталоном по балансу память/ | ||
| + | Для **RTX 4060 (8 ГБ)** ищите модели от **`mradermacher`** (специализируется на IQ-квантах для 8 ГБ) или **`bartowski`**. Для моделей 12B-14B берите версию **`IQ3_M`**. | ||
| + | |||
| + | |||
| + | ==== Онлайн-сервисы и агрегаторы ==== | ||
| + | |||
| + | ===== Бесплатные онлайн-чаты ===== | ||
| + | * **DeepSeek Chat:** [[https:// | ||
| + | * **Qwen Chat (Alibaba): | ||
| + | * **Yandex GPT (Alice):** [[https:// | ||
| + | * **Gemini Chat:** [[https:// | ||
| + | |||
| + | ===== Агрегаторы и сравнение моделей ===== | ||
| + | * **OpenRouter: | ||
| + | * **Chat Arena (LMSYS):** [[https:// | ||
| + | |||
| + | ===== Специализированные сервисы ===== | ||
| + | * **Распознавание речи:** [[https:// | ||
| + | * **Перевод и транскрипция: | ||
| + | |||
| + | |||
| + | ==== Новости и обновления ==== | ||
| + | |||
| + | Для отслеживания новостей в мире открытых моделей: | ||
| + | * **Хабр (по тегу): | ||
| + | * **r/ | ||
| + | * **Hugging Face Blog:** [[https:// | ||
| + | * **AI News Aggregator: | ||
| + | |||
| + | ===== Командные строки для установки агентов ===== | ||
| + | |||
| + | <code bash> | ||
| + | # Установка Qwen Code Agent | ||
| + | $ npm install -g @qwen-code/ | ||
| + | $ qwen --version | ||
| + | </ | ||
| + | |||
| + | <code bash> | ||
| + | # Установка Gemini CLI | ||
| + | $ npm install -g @google/ | ||
| + | $ gemini | ||
| + | </ | ||
| + | |||
| + | <code bash> | ||
| + | # Установка Ollama | ||
| + | $ curl -fsSL https:// | ||
| + | $ ollama run llama3.2 | ||
| + | </ | ||
| - | * https:// | ||