Выбор AI-модели

ИИ-модель — это «мозг» Матрёны. От неё зависит качество ответов, скорость работы и системные требования.

Основы: Локальные модели vs API

В Матрёне можно использовать два типа моделей:

  • Локальные (Ollama): Модель работает прямо на вашем процессоре/видеокарте. Это даёт 100% приватность, но требует много оперативной памяти (от 16 ГБ) и желательно хорошую видеокарту.
  • Через API (Облачные): Запросы отправляются на серверы провайдера (OpenAI, Anthropic, GigaChat, или локальный сервер в вашей сети, на котором запущен, например, vLLM). Требует минимум ресурсов ПК, но нужен интернет и платная подписка у провайдера API. Вы жертвуете частью приватности.

Рекомендуемые локальные модели

Если вы выбрали локальный запуск (Ollama), вот актуальный список лучших моделей на 2026 год, протестированных командой Матрёны:

Название модели Размер / RAM Наше мнение
Llama 3.1 8B Instruct 4.7 GB / 8 GB RAM Золотой стандарт. Отличный баланс скорости и ума. Идеальна для большинства задач (генерация, саммаризация, планирование).
Qwen 2.5 7B Instruct 4.1 GB / 8 GB RAM Потрясающе хороша в кодинге и логике. Часто превосходит Llama 3.1 в программировании и работе с JSON.
Mistral Nemo (12B) 7.1 GB / 16 GB RAM Большое контекстное окно (128k токенов). Лучший выбор, если нужно анализировать длинные документы и историю переписки. Требует 16+ ГБ RAM.
Gemma 2 9B 5.5 GB / 16 GB RAM Модель от Google. Отличная креативность, но может быть капризна в строгих форматах ответа.
Phi-3 Mini 3.8B 2.3 GB / 4 GB RAM Для слабых ПК. Самая маленькая модель из списка. На удивление умна для своих размеров, работает даже без видеокарты, но может ошибаться в сложных задачах.

Как установить модель в Ollama

  1. Убедитесь, что само приложение Ollama установлено и запущено.
  2. Откройте терминал (или командную строку) и выполните команду загрузки. Например, для Llama 3.1 8B:
< пре>ollama run llama3.1

Дождитесь загрузки весов (около 4.7 ГБ). После загрузки Ollama запустит модель. Вы можете протестировать её в терминале или закрыть — Матрёна сама обратится к модели по локальной сети.

  1. В настройках Матрёны перейдите в AI-ДвижокЛокальная модель (Ollama) и введите название модели (например, llama3.1).
Квантование (Quantization): В таблице выше указаны размеры моделей с квантованием 4-bit (тип `Q4_K_M`), которое используется в Ollama по умолчанию. Это сжатие моделей. Оригинальная Llama 3 8B весит ~16 ГБ, но в сжатом виде — около 4.7 ГБ, при этом потеря качества минимальна.

Настройка через API

Матрёна поддерживает любой API, совместимый с форматом OpenAI. Для настройки:

  1. В настройках Матрёны перейдите в AI-ДвижокВнешний API.
  2. Укажите Base URL (например, https://api.openai.com/v1 для OpenAI, или адрес вашего локального Inference сервера: http://192.168.1.100:11434/v1).
  3. Укажите API Key (если требуется провайдером).
  4. Напишите Имя модели, к которой вы обращаетесь (например, gpt-4o-mini, claude-3-5-sonnet-20240620). Точное название ищите в документации провайдера.