Выбор AI-модели — Матрёна Local

Основы: Локальные модели vs API

В Матрёне можно использовать два типа моделей:

→Локальные (Ollama): Модель работает прямо на вашем процессоре/видеокарте. Это даёт 100% приватность, но требует много оперативной памяти (от 16 ГБ) и желательно хорошую видеокарту.
→Через API (Облачные): Запросы отправляются на серверы провайдера (OpenAI, Anthropic, GigaChat, или локальный сервер в вашей сети, на котором запущен, например, vLLM). Требует минимум ресурсов ПК, но нужен интернет и платная подписка у провайдера API. Вы жертвуете частью приватности.

Рекомендуемые локальные модели

Если вы выбрали локальный запуск (Ollama), вот актуальный список лучших моделей на 2026 год, протестированных командой Матрёны:

Название модели	Размер / RAM	Наше мнение
Llama 3.1 8B Instruct	4.7 GB / 8 GB RAM	Золотой стандарт. Отличный баланс скорости и ума. Идеальна для большинства задач (генерация, саммаризация, планирование).
Qwen 2.5 7B Instruct	4.1 GB / 8 GB RAM	Потрясающе хороша в кодинге и логике. Часто превосходит Llama 3.1 в программировании и работе с JSON.
Mistral Nemo (12B)	7.1 GB / 16 GB RAM	Большое контекстное окно (128k токенов). Лучший выбор, если нужно анализировать длинные документы и историю переписки. Требует 16+ ГБ RAM.
Gemma 2 9B	5.5 GB / 16 GB RAM	Модель от Google. Отличная креативность, но может быть капризна в строгих форматах ответа.
Phi-3 Mini 3.8B	2.3 GB / 4 GB RAM	Для слабых ПК. Самая маленькая модель из списка. На удивление умна для своих размеров, работает даже без видеокарты, но может ошибаться в сложных задачах.

Как установить модель в Ollama

Убедитесь, что само приложение Ollama установлено и запущено.
Откройте терминал (или командную строку) и выполните команду загрузки. Например, для Llama 3.1 8B:

< пре>ollama run llama3.1

Дождитесь загрузки весов (около 4.7 ГБ). После загрузки Ollama запустит модель. Вы можете протестировать её в терминале или закрыть — Матрёна сама обратится к модели по локальной сети.

В настройках Матрёны перейдите в AI-Движок → Локальная модель (Ollama) и введите название модели (например, llama3.1).

Квантование (Quantization): В таблице выше указаны размеры моделей с квантованием 4-bit (тип `Q4_K_M`), которое используется в Ollama по умолчанию. Это сжатие моделей. Оригинальная Llama 3 8B весит ~16 ГБ, но в сжатом виде — около 4.7 ГБ, при этом потеря качества минимальна.

Настройка через API

Матрёна поддерживает любой API, совместимый с форматом OpenAI. Для настройки:

В настройках Матрёны перейдите в AI-Движок → Внешний API.
Укажите Base URL (например, https://api.openai.com/v1 для OpenAI, или адрес вашего локального Inference сервера: http://192.168.1.100:11434/v1).
Укажите API Key (если требуется провайдером).
Напишите Имя модели, к которой вы обращаетесь (например, gpt-4o-mini, claude-3-5-sonnet-20240620). Точное название ищите в документации провайдера.