Локальный LLM-ассистент в Visual Studio Code

В заметке рассмотрим пример, как можно быстро настроить локального ассистента на базе большой языковой модели (LLM) для написания код в Visual Studio Code.

Установка локальных моделей LLM

Для работы плагина потребуется две модели: одна для чата, вторая для автодополнения. Для локального запуска LLM можно воспользоваться Ollama, которая предоставляет простую возможность локального запуска большого ассортимента моделей.

Скачать программу можно по ссылке: https://ollama.com/download, после чего запустить инсталлятор для установки.

Как было сказано ранее, для работы нам потребуются две модели, которые после установки Ollama можно установить следующими командами в термнале:

ollama pull qwen2.5-coder:1.5b-base
ollama pull llama3.1:8b

Первая команда загрузит и развернет модель для автодополнения кода, вторая — для чата.

Обе модели демонстрируют комфортную производительность на RTX4060 Laptop, требуя до 4Gb VRAM. При желании можно выбрать альтенативные модели из широкого спектра, представленного на https://ollama.com/search.

Установка плагина VSC

Для интеграции LLM потребуется соответствующий плагин для VSC, например, Continue: https://www.continue.dev/.

Тут всё просто: переходим по ссылке на Marketplace или находим плагин непосредственно в VSC по уникальному идентификатору Continue.continue и устанавливаем плагин, как обычно.

Настройка плагина

Для настройки установленного плагина нужно нажать сочетание клавиш Ctrl+L, после чего в открывшейся вкладке нажать на шестеренку и, далее, из меню настроек открыть конфигурационный файл («Open configuration file»).

В файле config.json необходимо исправить секции «models» и «tabAutocompleteModel» следующим образом:

{
  "models": [
    {
      "title": "Llama 3.1 8b",
      "provider": "ollama",
      "model": "llama3.1-8b"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen2.5-Coder 1.5B",
    "provider": "ollama",
    "model": "qwen2.5-coder:1.5b-base"
  }
...
}

после чего автодополнение (автоматически при вводе текста) и чат (по команде Ctrl+L) будут доступны при работе с кодом.

После того, как плагин успешно подключится к моделям впервые, откроется файл с примерами использования.

Рекомендации

  1. Включите в настройках плагина кеширование автодополнения (улучшит отзывчивость)

Использованиен Ollama с proxy

Для маршрутизации через прокси-сервер Ollama использует системные переменные HTTP_PROXY и HTTPS_PROXY как на Linux так и на Windows.

Временно установить переменные на Windows можно командами

$Env:HTTPS_PROXY = "https://10.128.10.10:8080"
$Env:HTTP_PROXY = "http://10.128.10.10:8080"

на Linux:

export HTTPS_PROXY = "https://10.128.10.10:8080"
export HTTP_PROXY = "http://10.128.10.10:8080"