هیبرید RAG عملکرد بهتری از جستجوی برداری خالص دارد — داده‌ها چه می‌گویند | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

جستجوی برداری خالص انتخاب پیش‌فرض اکثر پیاده‌سازی‌های RAG است — و همین یک مشکل بزرگ است. Retrieval مبتنی بر Embedding یک شکاف دقت‌سنجی کاملاً مستند دارد: در تشخیص شباهت معنایی عالی عمل می‌کند، اما در پیدا کردن تطابق دقیق، اصطلاحات نادر و اسامی خاص مدام خطا می‌دهد. طبق بنچمارک‌های استاندارد، ترکیب دو روش retrieval یعنی BM25 و Embeddingهای متراکم، در مقایسه با جستجوی برداری خالص، بین ۱۵ تا ۴۰ درصد عملکرد بهتری دارد — البته این رقم بستگی به دیتاست و نوع query دارد. بیشتر تیم‌ها اصلاً این فاصله را اندازه نمی‌گیرند چون هیچوقت گزینه‌های جایگزین را بنچمارک نمی‌کنند. این پست قرار است مکانیزم‌ها، اعداد و نحوه پیاده‌سازی را توضیح بدهد.

تله جستجوی برداری

Embeddingهای متراکم با نگاشت متن به یک فضای برداری با ابعاد بالا کار می‌کنند؛ جایی که محتوای مشابه از نظر معنایی در کنار هم خوشه‌بندی می‌شوند. این ویژگی برای retrieval در سطح مفهوم عالی است — مثلاً جستجوی "استقرار مدل Machine Learning" می‌تواند اسناد مربوط به MLOps را به درستی برگرداند، حتی اگر آن اسناد دقیقاً از عبارت "استقرار مدل Machine Learning" استفاده نکرده باشند. اما همین ویژگی برای queryهای حساس به دقت تبدیل به یک نقطه ضعف می‌شود.

تصور کنید در یک پایگاه دانش فنی به دنبال "GPT-4o" می‌گردید. یک مدل Embedding این token را بر اساس توزیع آموزش خودش بازنمایی می‌کند — و ممکن است اسنادی درباره "GPT-4"، "GPT-4 Turbo" یا مقایسه کلی مدل‌های OpenAI را بالاتر از سندی رتبه‌بندی کند که دقیقاً رشته "GPT-4o" را دارد اما موضوع متفاوتی را بحث می‌کند. امتیاز شباهت Embedding هیچ درکی از مرز رشته‌ای بین "GPT-4" و "GPT-4o" ندارد. همین الگوی شکست برای SKUهای محصول (مثلاً جستجوی "WD-40" به جای محصول دقیق، محتوای مرتبط با روان‌کننده را بالا می‌آورد)، شماره نسخه‌ها ("Python 3.12" در مقابل "Python 3.1")، استنادهای حقوقی و کدهای دارویی هم تکرار می‌شود.

ریشه مشکل: Embeddingهای متراکم بر اساس الگوهای هم‌ظهوری آموزش می‌بینند، نه هویت در سطح کاراکتر. یک اصطلاح که در مجموعه آموزشی به ندرت دیده شده — مثلاً اسم یک مدل جدید، یک متد API ناآشنا یا اسم یک شخص — یک Embedding نویزی یا عمومی می‌گیرد که دقت retrieval را از بین می‌برد. این یک باگ در مدل Embedding نیست؛ یک محدودیت معماری در این روش است.

چطور BM25 این شکاف را پر می‌کند

BM25 (Best Match 25) یک تابع امتیازدهی احتمالاتی بر اساس فراوانی کلمه است که بیش از ۳۰ سال ستون فقرات موتورهای جستجو بوده. این تابع بر اساس دو عامل به اسناد امتیاز می‌دهد: Term Frequency (TF) — تعداد دفعاتی که کلمه query در سند تکرار شده — و Inverse Document Frequency (IDF) — اینکه آن کلمه در کل مجموعه چقدر نادر است. اسنادی که شامل کلمات نادر query هستند، امتیاز بالایی می‌گیرند؛ کلمات رایج مثل "the" یا "is" تقریباً هیچ تأثیری ندارند.

برای "GPT-4o"، BM25 به سندی که دقیقاً شامل "GPT-4o" است تقریباً امتیاز کامل می‌دهد — به شرطی که آن کلمه در مجموعه نادر باشد (که در اکثر پایگاه‌های دانش سازمانی همینطور است). BM25 به شباهت معنایی اهمیت نمی‌دهد؛ به هویت کلمه اهمیت می‌دهد. این باعث می‌شود BM25 برای سناریوهای تطابق دقیق تقریباً بی‌رقیب باشد: شناسه‌های محصول، تکه‌کدهای برنامه‌نویسی، پیام‌های خطا، بندهای حقوقی، فرمول‌های شیمیایی و هر حوزه‌ای که دقت مهم‌تر از پوشش (recall) است.

BM25 همچنین queryهای چندکلمه‌ای را با وزن‌دهی IDF خوب مدیریت می‌کند. در یک query مثل "Python asyncio event loop timeout"، BM25 به "asyncio" و "timeout" (کلمات نادر) وزن بالا و به "Python" (کلمه رایج) وزن پایین می‌دهد. در مقابل، جستجوی برداری همه کلمات را در یک Embedding ترکیب می‌کند و ممکن است سیگنال کلمات نادر اما حیاتی را از دست بدهد.

امتیازدهی ترکیبی در عمل

روش استاندارد برای ترکیب نتایج BM25 و برداری، Reciprocal Rank Fusion (RRF) است. RRF لیست‌های رتبه‌بندی شده از هر دو retriever را می‌گیرد و با فرمول RRF_score = Σ 1 / (k + rank_i) یک امتیاز تلفیقی برای هر سند محاسبه می‌کند؛ k معمولاً ۶۰ است و rank_i جایگاه سند در هر لیست است. اسنادی که در هر دو لیست رتبه بالایی دارند، بالاترین امتیاز تلفیقی را می‌گیرند؛ اسنادی که فقط در یکی از retrieverها قوی هستند باز هم امتیاز می‌گیرند اما جریمه می‌شوند.

RRF به درون‌یابی خطی امتیاز ترجیح داده می‌شود چون مشکلات نرمال‌سازی امتیاز را ندارد — BM25 و cosine similarity در مقیاس‌های متفاوتی کار می‌کنند و نرمال‌سازی آن‌ها به پیچیدگی تنظیم hyperparameter منجر می‌شود. RRF پارامتر کم می‌خواهد و در انواع queryها پایدار است.

در اینجا یک راه‌اندازی minimal برای hybrid retriever با استفاده از EnsembleRetriever کتابخانه LangChain می‌بینید:


from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings

# ساخت BM25 retriever از لیست اسناد
bm25_retriever = BM25Retriever.from_documents(docs)
bm25_retriever.k = 10

# ساخت vector retriever
vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

# ترکیب با وزن‌های مساوی (RRF در پشت صحنه)
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.5, 0.5]
)

results = ensemble_retriever.invoke("GPT-4o multimodal capabilities")

LlamaIndex هم قابلیت مشابهی از طریق QueryFusionRetriever با حالت mode="reciprocal_rerank" ارائه می‌دهد. هر دو ابزار، عملیات RRF را در داخل انجام می‌دهند، بنابراین هزینه پیاده‌سازی بعد از داشتن یک pipeline وکتور RAG کاری، بسیار پایین است.

اعداد عملکرد در دنیای واقعی

در بنچمارک MS-MARCO passage ranking — که معروف‌ترین دیتاست retrieval با ۸٫۸ میلیون passage است — retrieval ترکیبی BM25 + dense مدام NDCG@10 را ۱۰ تا ۲۰ درصد بالاتر از pure dense retrieval می‌برد. در بنچمارک BEIR 2023 که ۱۸ دیتاست ناهمگن را پوشش می‌دهد، مشخص شد هیچ روش retrieval به تنهایی برتر نیست: مدل‌های dense در دیتاست‌های غنی از نظر معنایی مثل FEVER و HotpotQA برنده می‌شوند، در حالی که BM25 در دیتاست‌های سنگین روی تطابق دقیق مثل DBPedia و Robust04 برنده یا مساوی است. اما روش‌های hybrid در تمام ۱۸ دیتاست به طور مداوم در رتبه بالایی قرار می‌گیرند — تنها رویکردی است که در هیچکدام از انواع دیتاست شکست فاجعه‌باری ندارد.

مطالعه بنچمارک RAG شرکت Elastic در سال ۲۰۲۵ که کیفیت retrieval را روی دیتاست‌های تیکت‌های پشتیبانی سازمانی ارزیابی کرد، نشان داد که جستجوی hybrid تعداد خطاهای retrieval (queryهایی که هیچ سند مرتبطی در top-5 برنمی‌گردانند) را ۳۴ درصد نسبت به جستجوی صرفاً semantic کاهش می‌دهد. این بهبود به ویژه برای queryهای کوتاه و کلیدواژه‌ای که در موارد استفاده پشتیبانی و عملیات رایج هستند، چشمگیر بود.

ارزیابی جستجوی hybrid توسط Pinecone (با استفاده از ایندکس sparse-dense که بردارهای SPLADE sparse را با Embeddingهای متراکم ترکیب می‌کند) بهبود MRR@10 را بین ۱۸ تا ۲۷ درصد روی دیتاست‌های کاتالوگ محصول و اسناد حقوقی نسبت به dense-only گزارش داد. نتیجه‌گیری آن‌ها: بیشترین سود از hybrid search وقتی حاصل می‌شود که مجموعه شامل ترکیبی از شناسه‌های ساختاریافته و متن آزاد باشد — توصیفی که برای اکثر پایگاه‌های دانش سازمانی صدق می‌کند.

کی از هر کدام استفاده کنیم

استراتژی مناسب retrieval به نوع query و ویژگی‌های مجموعه بستگی دارد. در اینجا یک چارچوب تصمیم‌گیری عملی داریم:

جستجوی برداری خالص: بهترین حالت برای queryهای معنایی در سطح مفهوم، retrieval بین زبانی و مجموعه‌هایی که paraphrase زیاد دارند. موارد استفاده: جستجوی مقالات تحقیقاتی، تحلیل بازخورد مشتریان، Q&A عمومی روی اسناد روایی.
BM25 خالص: بهترین برای queryهای تطابق دقیق روی محتوای ساختاریافته یا فنی. موارد استفاده: جستجوی کاتالوگ محصول با SKU، جستجوی کد بر اساس نام تابع، retrieval متون حقوقی با شماره قانون، retrieval سوابق پزشکی با کد تشخیص.
Hybrid (BM25 + vector): پیش‌فرض درست برای اکثر استقرارهای RAG سازمانی. موارد استفاده: پشتیبانی مشتری (ترکیب queryهای کلیدواژه‌ای مثل کد خطا با queryهای معنایی مثل "چطور اشتراکم را لغو کنم؟")، پایگاه‌های دانش داخلی، مستندات فنی، جستجوی محصولات فروشگاهی، retrieval سیاست‌های منابع انسانی.

یک قاعده سرانگشتی عملی: اگر بیش از ۲۰ درصد queryهای کاربران شما شامل شناسه‌ها، نام مدل‌ها، شماره نسخه‌ها یا دیگر عبارات تطابق دقیق است، hybrid search از pure vector بهتر عمل می‌کند. ۵۰ query واقعی را از هر دو روش عبور دهید و precision@5 را اندازه بگیرید — تفاوت تقریباً همیشه ظرف یک ساعت تست قابل مشاهده است.

چک‌لیست پیاده‌سازی

اول سیستم فعلی را خط پایه (baseline) کنید. ۵۰–۱۰۰ query نمادین را از RAG برداری موجود عبور دهید و دقت top-5 را به صورت دستی امتیازدهی کنید. این baseline باعث می‌شود بهبود حاصل از hybrid retrieval قابل اندازه‌گیری باشد، نه صرفاً فرضی.
از یک sparse index متناسب با پشته فنی خود استفاده کنید. Elasticsearch و OpenSearch به صورت بومی BM25 دارند؛ Pinecone از sparse-dense پشتیبانی می‌کند؛ Weaviate از BM25F؛ Qdrant از sparse vector. گزینه‌ای را انتخاب کنید که نیاز به اضافه کردن یک سرویس جستجوی جداگانه نداشته باشد.
پارامتر k را در RRF روی یک مجموعه query کنارگذاشته تنظیم کنید. مقدار پیش‌فرض k=60 خوب است اما همیشه بهینه نیست. یک جستجوی شبکه‌ای روی k=20, 40, 60, 80 با ۵۰ query برچسب‌خورده معمولاً کمتر از یک ساعت طول می‌کشد.
ایندکس‌های BM25 و برداری را همزمان نگه دارید. هر دو ایندکس باید با افزودن/حذف/به‌روزرسانی اسناد به‌روز شوند. عدم به‌روزرسانی یکی از ایندکس‌ها به صورت خاموش کیفیت fusion را کاهش می‌دهد. از یک pipeline یکپارچه واردسازی استفاده کنید که به هر دو ایندکس بنویسد.
برای BM25 از query expansion استفاده کنید. با استفاده از LLM دو تا سه واریانت از query تولید کنید (الگوی HyDE) قبل از اجرای BM25. این کار recall را برای queryهای مکالمه‌ای که کاربران به صورت سؤال مطرح می‌کنند به جای کلیدواژه، بهبود می‌دهد.
کیفیت retrieval را در تولید (production) در سطح هر query رصد کنید. ثبت کنید که کدام retriever (BM25 یا vector) به اسناد نهایی top-ranked کمک کرده. اگر یک ranker برای الگوهای خاصی از query به طور مداوم غالب است، وزن‌ها را تنظیم کنید یا queryها را به retrieverهای تخصصی مسیریابی کنید.

نتیجه‌گیری

اکثر تیم‌هایی که سیستم RAG می‌سازند، به طور پیش‌فرض به سراغ pure vector retrieval می‌روند بدون اینکه حتی یک بنچمارک کنترل‌شده اجرا کنند. اضافه کردن BM25 به یک pipeline RAG برداری موجود — با استفاده از EnsembleRetriever لنگ‌چین یا QueryFusionRetriever لاماایندکس — یک کار یک‌روزه است. بهبود عملکرد روی اکثر دیتاست‌های سازمانی حاشیه‌ای نیست: ۱۵ تا ۴۰ درصد بهبود در دقت retrieval مستقیماً به کاهش خطاهای توهم (hallucination)، کاهش fallbackهای LLM به "نمی‌دانم" و افزایش نمرات رضایت کاربر نهایی منجر می‌شود. داده‌ها در MS-MARCO، BEIR و بنچمارک‌های صنعتی یکسان است: hybrid retrieval یک بهینه‌سازی نیست — بلکه خط پایه‌ای است که pure vector RAG باید در برابر آن سنجیده شود.