AI Models

Это старая версия документа!

Блок питания (Спецификации)

Компонент	Модель / Название	Параметры и Совместимость
Блок питания	HP 500W Platinum SFF	P/N: L89233-001 / L77487-001
Производитель	Delta Electronics / Lite-On	Модель: DPS-500AB-51 A / PA-5501-2HA
Разъемы	Фирменные HP (4+4+7 pin)	В комплекте: 1x или 2x 6+2-pin PCIe для видеокарты
Форм-фактор	SFF (Small Form Factor)	Устанавливается внутрь корпуса HP 805D SFF
Эффективность	80 Plus Platinum	Максимальный КПД и низкий нагрев

Совместимые видеокарты NVIDIA и AI-модели

Модель GPU (Low Profile)	VRAM	Длина	Рекомендуемые AI-модели (2026)
GeForce RTX 4060 LP	8 GB	~182 мм	Llama 3.1/3.2 (8B), Mistral 7B, Flux.1 (Schnell), SDXL
GeForce RTX 3050 LP	8 GB	~182 мм	Llama 3.1 (8B 4-bit), Qwen 2.5 (7B), SD 1.5, YOLOv11
GeForce GTX 1660 Ti LP	6 GB	~182 мм	Mistral 7B (квант.), Phi-3.5 Mini, Stable Diffusion 1.5
GeForce RTX 3050 LP	6 GB	~170 мм	Gemma 2 (2B/9B), Llama 3.2 (3B), DeepSeek Coder 7B

Семейство AI	Конкретные модели (для 8GB VRAM)	Особенности работы на вашем железе
Qwen (Alibaba)	Qwen 2.5 / 3 (7B, 14B 4-bit)	Версия 7B работает очень быстро. 14B влезет только с сильным квантованием (GGUF/EXL2).
DeepSeek	DeepSeek-V3 (Lite), DeepSeek-Coder-V2	Идеально для программирования. Рекомендуется использовать модели до 7B-16B параметров.
Open Source (OSS)	Llama 3.2 (3B/8B), Mistral NeMo (12B)	Mistral NeMo — это новый стандарт для 8 ГБ карт, дает очень качественные ответы.
Мультимодальные	Llama 3.2 Vision (11B), Qwen2-VL	Позволяют "видеть" изображения. Работают на грани VRAM, требуют оптимизации.
Локальные агенты	OpenDevin, AutoGPT (на базе Qwen 7B)	Можно запускать полноценных AI-агентов для автоматизации задач на ПК.

RTX 3080 Ti (12GB VRAM) в LM Studio

Модель AI	Параметры	Рекомендуемое квантование	Настройки LM Studio (GPU Offload)
DeepSeek-V3	671B (MoE)	IQ2_XS / IQ2_M	Не влезет в VRAM. Использовать только через API или GGUF с системной RAM.
DeepSeek-Coder-V2	16B	Q5_K_M или Q6_K	Full GPU Offload (все слои в VRAM). Скорость: ~25-40 токенов/сек.
Qwen 2.5 / 3	14B / 32B	14B: Q8_0; 32B: Q3_K_M	14B: Full Offload (идеально). 32B: Частичный (20-25 слоев в VRAM).
Llama 3.1 / 3.2	8B / 70B	8B: Q8_0 (FP16); 70B: IQ1_S	8B: Летает. 70B: Только для тестов (очень медленно, через системную RAM).
Mistral NeMo	12B	Q6_K или Q8_0	Full GPU Offload. Модель создана NVIDIA специально под 12ГБ карты.
Gemma 2	9B / 27B	9B: Q8_0; 27B: Q3_K_L	9B: Максимальное качество. 27B: Частичный оффлоуд (~15-18 слоев).
Command R	35B	IQ3_M	Частичный оффлоуд. Хорошо подходит для RAG (работы с документами).

Модели для кодинга (Python, JS, C++, SQL и др.)

Название модели	Параметры	Квантование (12GB VRAM)	Настройка в LM Studio
DeepSeek-Coder-V2-Lite	16B	Q5_K_M (или Q6)	Full GPU Offload. Лучшая модель для кода на сегодня.
Qwen 2.5 Coder	7B	Q8_0 (FP16)	Full GPU Offload. Самая быстрая, идеальна для простых скриптов.
CodeLlama	13B	Q6_K	Full GPU Offload. Проверенная классика от Meta.
Phind-CodeLlama	34B	IQ3_M	Partial Offload (20-24 слоя). Очень умная, но требует системной RAM.
Granite-Code (IBM)	8B	Q8_0	Full GPU Offload. Очень легкая и быстрая для интеграции в VS Code.

Nvidia Models

Модель Видеокарты	Объем VRAM	Возможности AI (2026 год)
RTX 4060	8 ГБ	Модели до 14B в сжатом виде (IQ3_M / Q4_K_S).
RTX 3080 Ti	12 ГБ	Модели до 20B в сжатом виде (Q4_K_M / Q5_K_M).
RTX 5080	16 ГБ	Модели до 30B (Full Precision/FP16) или 34B (Q4_K_M).
RTX 4090	24 ГБ	Модели до 70B (квантованные GGUF Q2_K / Q3_K_L).
RTX 5090	32 ГБ	Модели до 70B (Full Precision/FP16) или тяжелые 4-bit кванты.
RTX 4090 Ti	48 ГБ	Модели 100B+ (например, DeepSeek-V3 или Llama 3 405B IQ2).

Стандартные K-Quants ( llama.cpp / GGUF )

Тип	Биты	Качество	Рекомендация для 2026 года
Q8_0	8.5	Максимальное	Использовать для моделей до 9B (Llama 3.1, Qwen 3 7B).
Q6_K	6.6	Отличное	"Золотой стандарт". Разница с оригиналом не видна.
Q5_K_M	5.5	Высокое	Оптимальный выбор для RTX 3080 Ti (12GB) для моделей 12-14B.
Q4_K_M	4.8	Хорошее	Самый популярный вариант. Баланс между "умом" и весом.
Q3_K_M	3.9	Среднее	Использовать только если модель 14B не влезает в 8GB.
Q2_K	3.3	Низкое	Модель начинает путаться в фактах и "галлюцинировать".

I-Matrix Quants (IQ)

Тип	Биты	Особенности	Применение для RTX 4060
IQ4_XS	4.25	Точнее чем стандартный Q4_K_M	Для моделей 9B-12B (Mistral NeMo).
IQ3_M	3.30	Топ для 8GB карт	Позволяет запустить DeepSeek R1 14B без тормозов.
IQ3_XS	3.00	Глубокое сжатие	Для запуска Gemma 3 12B с запасом под контекст.
IQ2_M	2.50	Работа на грани	Позволяет запустить DeepSeek Coder V2 (16B).
IQ2_XXS	2.10	Минимальный вес	Только для очень простых задач на слабом железе.

Расшифровка индексов (Суффиксы)

Индекс	Значение	Описание
_S	Small	Самое сильное сжатие в этой группе (экономия памяти).
_M	Medium	Рекомендуемый вариант (баланс точности и веса).
_L	Large	Минимальное сжатие (лучшее качество, но файл больше).

RTX 3080 TI 12 ГБ VRAM

Модель AI	Параметры	Квантование	Назначение	Признак инструментов
DeepSeek R1 (Distill)	14B	Q5_K_M	Абсолютный лидер по логике, математике и качеству рассуждений.	Reasoning (CoT)
Gemma 3 (2026)	12B	Q6_K	Лучшая модель от Google для творческого письма и сложных гуманитарных задач.	Creative / Tools
Qwen 3	14B	Q4_K_M	Самая сбалансированная модель: мощная логика + лучший русский язык.	Full Function Call
DeepSeek Coder V2	16B	IQ4_XS	Эталон качества в программировании и работе со сложными данными.	Coding / Data
Reflection 1 (L3.1)	8B	Q8_0	Высокое качество за счет механизма исправления собственных ошибок.	Self-Correction
GLM-5	9B	Q8_0	Выдающееся качество в мультимодальных задачах (текст + зрение).	Vision / OCR
OLMo-3-13B-Instr.	13B	Q6_K	Высокое качество ответов без корпоративной цензуры (Open Research).	Research / Tools
Mistral NeMo (Llama 3.1)	12B	Q8_0	Совместная работа NVIDIA и Mistral; эталон стабильности на 12ГБ.	Python / Tools
Ministral 8B	8B	Q8_0	Высокая точность следования сложным инструкциям в n8n.	JSON / API
OLMo-3-Expert (MoE)	4x7B	IQ3_M	Хорошая эрудиция за счет архитектуры "смеси экспертов".	Reasoning
Qwen 2.5 Coder	7B	Q8_0	Очень высокое качество кода для такого малого размера.	Coding / Tools
DeepSeek-Coder-V2-Lite	16B	Q4_K_M	Качественный аудит кода и написание сложных функций.	Coding / JSON
Llama 3.2	8B	Q8_0	Надежный стандарт; среднее качество, но высокая предсказуемость.	Tools / Chat
CodeLlama	13B	Q6_K	Стабильное, но уже «классическое» качество написания кода.	Stable Coding
StarCoder 2	15B	Q5_K_M	Хорошее качество для узкоспециализированных задач разработки.	GitHub Workflows
OLMo-3-7B-Instr.	7B	Q8_0	Базовое качество для быстрых ответов и простых запросов.	Open Data
Nemotron 3 Nano	4B	Q8_0	Минимально достаточное качество для классификации данных.	Data Clean
SmolLM 2 / 3	1.7B	Q8_0	Низкое качество текста, но идеальна для простых JSON-задач.	JSON Only

RTX 4060 8 ГБ VRAM

Модель AI	Параметры	Квантование (8GB)	Назначение	Признак инструментов
DeepSeek R1 (Distill)	14B	IQ3_M	Абсолютный лидер по логике, математике и качеству рассуждений.	Reasoning (CoT)
Gemma 3 (2026)	12B	IQ3_M	Лучшая модель от Google для творческого письма и сложных гуманитарных задач.	Creative / Tools
Qwen 3	14B	IQ3_M	Самая сбалансированная модель: мощная логика + лучший русский язык.	Full Function Call
DeepSeek Coder V2	16B	IQ2_M	Эталон качества в программировании и работе со сложными данными.	Coding / Data
Reflection 1 (L3.1)	8B	Q5_K_M	Высокое качество за счет механизма исправления собственных ошибок.	Self-Correction
GLM-5	9B	Q5_K_M	Выдающееся качество в мультимодальных задачах (текст + зрение).	Vision / OCR
OLMo-3-13B-Instr.	13B	IQ3_M	Высокое качество ответов без корпоративной цензуры (Open Research).	Research / Tools
Mistral NeMo (L3.1)	12B	Q3_K_M	Совместная работа NVIDIA и Mistral; стабильность на 8ГБ.	Python / Tools
Ministral 8B	8B	Q5_K_M	Высокая точность следования сложным инструкциям в n8n.	JSON / API
OLMo-3-Expert (MoE)	4x7B	IQ2_XXS	Хорошая эрудиция за счет архитектуры "смеси экспертов".	Reasoning
Qwen 2.5 Coder	7B	Q6_K	Очень высокое качество кода для такого малого размера.	Coding / Tools
DeepSeek-Coder-V2-Lite	16B	IQ2_M	Качественный аудит кода и написание сложных функций.	Coding / JSON
Llama 3.2	8B	Q6_K	Надежный стандарт; среднее качество, но высокая предсказуемость.	Tools / Chat
CodeLlama	13B	Q3_K_S	Стабильное, но уже «классическое» качество написания кода.	Stable Coding
StarCoder 2	15B	IQ2_M	Хорошее качество для узкоспециализированных задач разработки.	GitHub Workflows
OLMo-3-7B-Instr.	7B	Q8_0	Базовое качество для быстрых ответов и простых запросов.	Open Data
Nemotron 3 Nano	4B	Q8_0	Минимально достаточное качество для классификации данных.	Data Clean
SmolLM 2 / 3	1.7B	Q8_0	Низкое качество текста, но идеальна для простых JSON-задач.	JSON Only

NSFW/Adult

Базовая модель	Популярные кастомные модели (Checkpoints)	Особенности для RTX 3080 Ti
Stable Diffusion XL (SDXL)	Pony Diffusion V6 (и выше), RealVisXL, Juggernaut XL	Самый высокий реализм и понимание сложных поз. 12ГБ VRAM хватает для генерации 1024x1024.
Stable Diffusion 1.5	Realistic Vision, ChilloutMix, Deliberate	Очень быстрая генерация. Огромная база Lora-фильтров для лиц и фетишей.
Flux.1 (Schnell/Dev)	RealismLora, Flux-Pony	Модель нового поколения (2025-2026). Лучшая анатомия и кожа, но требует 12ГБ+ (на 3080 Ti идет впритык).
Pony Diffusion	Pony Diffusion V6 XL	Самая гибкая модель. Понимает практически любые запросы через систему тегов (как на Danbooru).

N8N

Модель AI	Роль в n8n	Квантование	Признак инструментов (Tools/JSON)
Qwen 2.5 / 3 (7B)	Универсальный диспетчер	Q8_0	Full Function Calling. Идеален для JSON.
DeepSeek-V3-Distill (14B)	Сложная логика и фильтрация	Q4_K_M	Высокая точность ветвления условий (if/else).
Nemotron 3 Nano (4B)	Текст-процессор (Extraction)	Q8_0	Сверхбыстрое извлечение данных в JSON.
Mistral NeMo (12B)	Работа с документами (RAG)	Q6_K	Отлично держит контекст длинных писем.
SmolLM 2 / 3 (1.7B)	Микро-агент (Классификация)	Q8_0	Только JSON. Скорость > 150 токенов/сек.
DeepSeek-Coder-V2 (16B)	Написание скриптов для n8n	IQ4_XS	Создание узлов Function/Code (JS/Python).

Модель AI	Параметры	Прямая ссылка на GGUF	Назначение
DeepSeek R1 (Distill)	14B	Открыть на HF	Лидер логики и рассуждений (CoT)
Qwen 3	14B	Открыть на HF	Лучший русский язык и универсальность
Gemma 3 (2026)	12B	Открыть на HF	Креативность и высокая эрудиция
DeepSeek Coder V2	16B	Открыть на HF	Эталон для написания и аудита кода
Mistral NeMo	12B	Открыть на HF	Стандарт стабильности для 12ГБ VRAM
Reflection 1 (L3.1)	8B	Открыть на HF	Модель с самопроверкой ошибок
GLM-5	9B	Открыть на HF	Мультимодальность (Vision / OCR)
OLMo-3-13B	13B	Открыть на HF	Полностью открытые данные обучения
Ministral 8B	8B	Открыть на HF	Оптимальна для n8n автоматизации
Phi-4	14B	Открыть на HF	Научная логика и математика

Категория	Инструмент	Ссылка на сайт	Описание
Запуск LLM	LM Studio	LM Studio	Главный GUI для GGUF моделей
Запуск LLM	Ollama	Ollama	CLI-движок для фоновой работы и API
Автоматизация	n8n	n8n.io	Платформа для создания AI-агентов
Кодинг	Cursor	Cursor AI	AI-редактор кода с поддержкой Local API
Кодинг	Continue	Continue.dev	Плагин для VS Code под локальные LLM
Графика	Forge UI	SD Forge	Самая быстрая генерация картинок (NSFW/Art)
Графика	Civitai	Civitai	Библиотека моделей (Checkpoints/LoRA)
База моделей	Hugging Face	Hugging Face	Главный архив всех AI моделей мира

Модель AI	Квантование	Инструменты	Признак инструментов
DeepSeek R1	Q5_K_M	LM Studio / Ollama	Full Reasoning
Qwen 3	Q4_K_M	n8n / Ollama	Function Calling
Gemma 3	Q6_K	LM Studio	Creative Tools
DeepSeek Coder	IQ4_XS	Cursor / VS Code	Coding / Data
GLM-5	Q8_0	Local WebUI	Vision / OCR
Ministral 8B	Q8_0	n8n	JSON / API

Рекомендация по скачиванию:

Для RTX 3080 Ti в поиске LM Studio всегда ищите модели от автора "bartowski". Его кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память / итоговая точность". Для моделей 12B-14B выбирайте версию файла Q4_K_M — она идеально поместится в 12 ГБ видеопамяти вместе с контекстом.

Рекомендация по скачиванию для RTX 4060 (8GB):

В поиске LM Studio всегда ищите модели от авторов "mradermacher" или "bartowski". Их кванты GGUF в 2026 году считаются наиболее оптимизированными по соотношению "занимаемая память / итоговая точность".

Для моделей 7B-9B выбирайте версию файла Q5_K_M — она идеально поместится в 8 ГБ видеопамяти вместе с контекстом.
Для моделей 12B-14B выбирайте версию IQ3_M (от mradermacher) — это единственный способ запустить такие модели на 8 ГБ без потери скорости и вылетов.

$ npm install -g @qwen-code/qwen-code
$ qwen --version

$ npm install -g @google/gemini-cli
$ gemini

https://habr.com/en/search/?q=[%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8+%D0%B8%D0%B8]&target_type=posts&order=date

Alibaba Group объявила о выходе модели искусственного интеллекта Qwen3-Coder — она доступна с открытым исходным кодом и предназначается для написания программного кода.

https://openrouter.ai/chat

https://speech2text.ru/

AI Models

Блок питания (Спецификации)

Совместимые видеокарты NVIDIA и AI-модели

RTX 3080 Ti (12GB VRAM) в LM Studio

Модели для кодинга (Python, JS, C++, SQL и др.)

Nvidia Models

Квантование

Стандартные K-Quants ( llama.cpp / GGUF )

I-Matrix Quants (IQ)

Расшифровка индексов (Суффиксы)

С привязкой к GPU

RTX 3080 TI 12 ГБ VRAM

RTX 4060 8 ГБ VRAM

Специализация

NSFW/Adult

N8N

Agents

Новости по моделям

Модели

On-Line Модели

Агрегаторы

Специализированные