Справочник

RAG для чайников: как научить AI отвечать по вашим документам

Введение в Retrieval-Augmented Generation. Что это, зачем нужно, и как построить за 1 день без кода.

26 мая 2026 г. RAG ai-агенты архитектура

RAG = AI ищет ответ в ваших документах, а не в интернете. Как работает под капотом, какие инструменты выбрать, ограничения и чеклист для старта.

Что это

RAG (Retrieval-Augmented Generation) — архитектура, где AI-модель отвечает на вопросы не из своих обучающих данных, а из ваших документов. Система ищет релевантные фрагменты в вашей базе знаний и даёт их модели вместе с вопросом.

📌 RAG = Google Search по вашим документам + GPT. Находим релевантные фрагменты, даём их AI, получаем точный ответ с указанием источников.

Когда я впервые спросил ChatGPT о нашем внутреннем регламенте — он выдумал ответ. RAG решает это: AI ищет в наших документах, а не в общих знаниях.

Зачем нужно

Внутренние документы не в интернете — регламенты, договоры, база знаний компании
AI выдумает ответ если не знает — RAG даёт только проверенные факты из документов
Актуальность — данные в документах свежие, в модели — устаревшие (cutoff)
Источники — ответ с указанием, из какого документа взята информация
Приватность — self-hosted RAG = данные никогда не уходят в облако

Как устроено

Компоненты RAG

Элемент	Назначение	Пример инструментов
Документы	Источник знаний	PDF, Word, TXT, Markdown
Chunking	Разбиение на фрагменты	LangChain, LlamaIndex, ручной
Embeddings	Преобразование текста в векторы	OpenAI, HuggingFace (all-MiniLM-L6-v2)
Векторная база	Хранение и поиск векторов	Chroma, Pinecone, Weaviate
LLM	Генерация ответа	GPT-4o, Claude, Ollama (Llama 3.2)
Retriever	Поиск релевантных фрагментов	Встроен в LangChain / LlamaIndex

Процесс шаг за шагом

Шаг	Действие	Результат
1. Загрузка	PDF/Word → текст	Сырой текст документов
2. Chunking	Разбить на куски по 500–1000 слов	~200 chunks для 100 страниц
3. Embeddings	Каждый chunk → вектор из 384–1536 чисел	Векторное представление смысла
4. Хранение	Сохранить в векторной базе	Быстрый семантический поиск
5. Запрос	Вопрос пользователя → embedding	Вектор запроса
6. Поиск	Найти 5 ближайших векторов	Топ-5 релевантных chunks
7. Генерация	Отправить chunks + вопрос в LLM	Точный ответ с источниками

Когда использовать

Ситуация	Решение	Причина
Внутренняя база знаний (FAQ, регламенты)	Self-hosted: Chroma + Ollama	Privacy, контроль, €5/мес
Production-команда, масштаб	Managed: Pinecone + OpenAI	Надёжность, масштабирование
Быстрый старт, тестирование	No-code: Notion AI, ChatGPT Upload	Не нужен код, но ограниченный объём
Enterprise, compliance	Weaviate + Anthropic	SLA, безопасность, аудит
Мобильный доступ	Managed с API	Self-hosted требует сервер

Пример

Минимальный RAG за 1 день (Python)

# Установка зависимостей
# pip install langchain chromadb sentence-transformers

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import Ollama
from langchain.documentloaders import PyPDFLoader
from langchain.textsplitter import RecursiveCharacterTextSplitter

# 1. Загрузить документы
loader = PyPDFLoader("./documents/contract.pdf")
docs = loader.load()

# 2. Разбить на chunks
textsplitter = RecursiveCharacterTextSplitter(
    chunksize=1000,
    chunkoverlap=200
)
chunks = textsplitter.splitdocuments(docs)

# 3. Создать embeddings (бесплатно, локально)
embeddings = HuggingFaceEmbeddings(
    modelname="all-MiniLM-L6-v2"  # 384 dimensions, быстрый
)

# 4. Сохранить в Chroma
vectorstore = Chroma.fromdocuments(
    documents=chunks,
    embedding=embeddings,
    persistdirectory="./chromadb"
)

# 5. Настроить поиск
retriever = vectorstore.asretriever(
    searchkwargs={"k": 5}  # Топ-5 релевантных chunks
)

# 6. Подключить LLM (локальная)
llm = Ollama(model="llama3.2:7b")

# 7. Запрос
question = "Какой срок действия договора?"
context = retriever.getrelevant_documents(question)

prompt = f"""Ответь на вопрос на основе контекста.
Если ответа нет в контексте — скажи "Не знаю".

Контекст:
{context}

Вопрос: {question}"""

answer = llm.predict(prompt)
print(answer)

Требования:

RAM: 4 GB (для Ollama + Chroma)
Диск: 500 MB (модель Llama 3.2-7B)
Время: установка 30 минут, индексация 100 страниц — 5 минут

Альтернатива: Managed (Pinecone + OpenAI)

# pip install pinecone-client openai

import pinecone
from openai import OpenAI

# Инициализация
client = OpenAI(apikey="your-key")
pinecone.init(apikey="your-key", environment="us-west1")
index = pinecone.Index("docs")

# Создать embeddings через OpenAI
def getembedding(text):
    response = client.embeddings.create(
        input=text,
        model="text-embedding-3-small"
    )
    return response.data[0].embedding

# Сохранить
for chunk in chunks:
    vector = getembedding(chunk.pagecontent)
    index.upsert([(chunk.metadata["id"], vector, {"text": chunk.pagecontent})])

# Поиск
queryvector = getembedding(question)
results = index.query(vector=queryvector, topk=5, include_metadata=True)

Цена:

Pinecone: $0.10/млн vectors
OpenAI embeddings: $0.02/млн tokens
Для 10K документов: ~$10–20/мес

Ограничения

Что не получится

RAG решает поиск по фрагментам, не магию. Здесь — честные ограничения, с которыми я сталкивался в продакшене.

RAG не заменяет полный поиск: если вопрос требует анализа всего документа, RAG найдёт только релевантные куски.

Для сложного анализа нужен агент с доступом к полному тексту.

Качество зависит от chunking: слишком маленькие chunks теряют контекст.

Слишком большие дают шум. Для юридических документов подбирайте размер отдельно.

Не работает offline на телефоне: self-hosted RAG требует сервер.

Для мобильного доступа нужен managed-стек или отдельный API-слой.

Embeddings требуют ресурсов: CPU-индексация больших пакетов документов занимает время.

На продакшене это нужно учитывать заранее.

Hallucinations всё ещё возможны: LLM может «додумать» связь между fragments.

Всегда проверяйте источники и ссылки на chunk.

Мультиязычность сложна: одна embedding-модель плохо работает со смешанными языками.

Для мультиязычных баз нужен отдельный выбор модели.

Антипаттерны

Типичные ошибки

Эти ошибки я видел у себя и у других. Каждая — из реального продакшена.

Большие chunks без overlap: на границах теряется контекст.

Overlap нужен почти всегда, особенно на длинных документах.

Игнорировать метаданные: источник, дата и автор важны для фильтрации и доверия к ответу.

Не выбрасывайте их из индекса.

Один embedding для всего:

юридические, технические и мультиязычные документы часто требуют разных моделей и настроек индекса.

Пропуск quality check: RAG может вернуть нерелевантный chunk.

Перед production нужна ручная выборка вопросов и ответов.

Production без fallback:

если векторная база недоступна, сервис должен честно деградировать, а не выдумывать ответ.

Чеклист

Документы готовы: PDF

→ текст, убрать артефакты форматирования

Chunk size выбран:

500–1000 слов для текстов, 200–300 для FAQ

Overlap настроен:

10–20% от chunk size

Embedding подходит:

all-MiniLM-L6-v2 (англ), multilingual-e5 (мультиязычность)

Векторная база выбрана:

Chroma (self-hosted) или Pinecone (managed)

LLM подходит:

GPT-4o (сложные), Llama 3.2 (простые, локальные)

Fallback есть:

Если RAG не нашёл — честное “Не знаю”

Источники видны: Метаданные chunk

→ ссылка на документ

Безопасность:

API-ключи в .env, не в коде

Мониторинг:

Логи запросов, метрики точности поиска

Ссылки

Источник: pinecone.io
Источник: weaviate.io
Источник: chroma.dev
Источник: huggingface.co
Источник: langchain.com
Источник: Ollama
Источник: LlamaIndex

Разобрать статью с ИИ

Получите короткий разбор: суть материала, ключевые идеи, что можно применить в своей задаче, что стоит уточнить и с каких шагов начать.

ChatGPT Claude Gemini

Разбери статью VOROBEOFF AI.

Название: «RAG для чайников: как научить AI отвечать по вашим документам»
Ссылка: https://vorobeoffai.ru/knowledge/rag-dlya-chainikov/

Сначала дай короткое резюме: 5–7 пунктов без воды.

Затем выдели:

1. Главные принципы и критерии качества.
2. Что можно перенести в мою задачу, бизнес, сайт или рабочий процесс.
3. Что нужно уточнить перед исполнением.

В конце предложи 2–3 практических первых шага.

Не копируй текст дословно — адаптируй идеи под реальную задачу.

Продолжить тему

Материалы, которые связаны с этим разбором

Подборка строится по общим тегам, чтобы следующий шаг был связан с текущим контекстом.

Все по теме

База знаний 16 июля 2026 г.

ADR: почему код без контекста ломает проект, а один Markdown-файл спасает

Architecture Decision Record — короткий Markdown-файл, который фиксирует, какое архитектурное решение приняли, почему и какую цену за него заплатили. Статья для тех, кто работает с AI-агентами и хочет, чтобы ИИ не ломал архитектуру.

#ai-агенты #архитектура #кодинг #Методология

База знаний 13 июля 2026 г.

Agent Harness: как инфраструктура вокруг модели превращает её в автономного агента

Полный разбор agent harness — программной обвязки вокруг LLM: 12 компонентов, оркестрационный цикл, память, управление контекстом, верификация и семь архитектурных решений на примере Anthropic, OpenAI, LangChain, CrewAI, AutoGen.

#ai-агенты #архитектура #ИИ #Инструменты

База знаний 11 июля 2026 г.

OpenAI Responses API: архитектура агентского API

OpenAI Responses API — единый эндпойнт для запуска моделей с встроенными инструментами, многоходовыми вызовами и серверным состоянием. Разбор архитектуры, отличий от Chat Completions, миграции и тарифов.

#ИИ #API и данные #openai #ai-агенты #архитектура

Виталий Воробьев

Есть процесс, который пора автоматизировать?

Напишите, что каждый день забирает время: заявки, документы, CRM, поддержка, контент или внутренняя рутина. Я покажу, где ИИ можно встроить без лишней сложности и какой первый рабочий шаг сделать.

Написать в Telegram Открыть канал