llms.txt چیست و آیا باید به آن اهمیت داد؟
به توسعهدهندگان و بازاریابان گفته میشود که فایلهای llms.txt را به سایتهای خود اضافه کنند تا به مدلهای زبانی بزرگ (LLM) در درک محتوای آنها کمک کنند. در این مطلب بررسی میکنیم که llms.txt چیست، چه کسی از آن استفاده میکند و آیا باید به آن اهمیت داد؟
llms.txt چیست؟
llms.txt یک استاندارد پیشنهادی برای کمک به LLMها در دسترسی و تفسیر محتوای ساختاریافته از وبسایتها است. به طور خلاصه، این یک فایل متنی است که برای گفتن به LLMها طراحی شده است تا بدانند مطالب مفید مانند مستندات API، سیاستهای بازگشت کالا، طبقهبندی محصولات و سایر منابع غنی از متن را از کجا پیدا کنند. هدف این است که با ارائه نقشهای منظم از محتوای با ارزش بالا به مدلهای زبانی، ابهام را از بین ببریم، تا آنها مجبور نباشند حدس بزنند چه چیزی مهم است.
در تئوری، این ایده خوبی به نظر میرسد. ما در حال حاضر از فایلهایی مانند robots.txt و sitemap.xml برای کمک به موتورهای جستجو در درک محتوای یک سایت و محل جستجو استفاده میکنیم. چرا همین منطق را برای LLMها اعمال نمیکنیم؟
اما نکته مهم این است که هیچ ارائهدهنده اصلی LLM در حال حاضر از llms.txt پشتیبانی نمیکند. نه OpenAI. نه Anthropic. نه Google.
همانطور که در مقدمه گفتم، llms.txt یک استاندارد پیشنهادی است. من همچنین میتوانم یک استاندارد پیشنهاد کنم (بیایید آن را please-send-me-traffic-robot-overlords.txt بنامیم)، اما تا زمانی که ارائهدهندگان اصلی LLM با استفاده از آن موافقت نکنند، کاملا بیمعنی است.
این همان جایی است که ما با llms.txt مواجه هستیم که این یک ایده حدسی است که هنوز به طور رسمی پذیرفته نشده است.
مثال llms.txt
در اینجا نحوه عملکرد یک فایل llms.txt را مشاهده میکنید. این تصویری از فایل llms.txt واقعی Anthropic است:
در هسته خود، llms.txt یک سند Markdown (نوعی فایل متنی با فرمت خاص) است. از هدرهای H2 برای سازماندهی لینکها به منابع کلیدی استفاده میکند. در اینجا یک ساختار نمونه وجود دارد که میتوانید از آن استفاده کنید:
# llms.txt
## Docs
– /api.md
A summary of API methods, authentication, rate limits, and example requests.
– /quickstart.md
A setup guide to help developers start using the platform quickly.
## Policies
– /terms.md
Legal terms outlining service usage.
– /returns.md
Information about return eligibility and processing.
## Products
– /catalog.md
A structured index of product categories, SKUs, and metadata.
– /sizing-guide.md
A reference guide for product sizing across categories.
شما میتوانید llms.txt خود را در عرض چند دقیقه ایجاد کنید:
- با یک فایل Markdown ساده شروع کنید.
- از H2ها برای گروهبندی منابع بر اساس نوع استفاده کنید.
- به محتوای ساختاریافته و سازگار با markdown لینک دهید.
- آن را بهروز نگه دارید.
- آن را در دامنه اصلی خود میزبانی کنید: https://yourdomain.com/llms.txt
میتوانید خودتان آن را ایجاد کنید یا از یک ژنراتور رایگان llms.txt برای ایجاد آن برای خود استفاده کنید.
چه کسی از آن استفاده میکند؟
میتوانید فهرستی از شرکتهایی که از llms.txt استفاده میکنند را در directory.llmstxt.cloud مشاهده کنید، یک فهرست نگهداریشده توسط جامعه از فایلهای عمومی llms.txt.
در اینجا چند مثال آورده شده است:
- Mintlify: پلتفرم مستندسازی توسعهدهندگان.
- Tinybird: APIهای دادههای بلادرنگ.
- Cloudflare: اسناد عملکرد و امنیت را فهرست میکند.
- Anthropic: یک نقشه Markdown کامل از اسناد API خود منتشر میکند.
اما در مورد بازیگران بزرگ چطور؟
تاکنون، هیچ ارائهدهنده اصلی LLM رسمی llms.txt را به عنوان بخشی از پروتکل خزنده خود نپذیرفته است:
- OpenAI (GPTBot): robots.txt را محترم میشمارد اما رسماً از llms.txt استفاده نمیکند.
- Anthropic (Claude): llms.txt خود را منتشر میکند، اما اعلام نمیکند که خزندههایش از این استاندارد استفاده میکنند.
- گوگل (Gemini/Bard): از robots.txt (از طریق User-agent: Google-Extended) برای مدیریت رفتار خزش هوش مصنوعی استفاده میکند، بدون اشاره به پشتیبانی از llms.txt.
- متا (LLaMA): هیچ خزنده یا راهنمایی عمومی و هیچ نشانهای از استفاده از llms.txt وجود ندارد.
این نکته مهمی را برجسته میکند: ایجاد llms.txt با اعمال آن در رفتار خزنده یکسان نیست. در حال حاضر، اکثر فروشندگان LLM با llms.txt به عنوان یک ایده جالب رفتار میکنند، و نه چیزی که توافق کردهاند آن را در اولویت قرار دهند و دنبال کنند.
vps یک ماشین مجازی کامل است که امکان دسترسی SSH طبق آموزش را به آن خواهید داشت.
خرید vps در پنج موقعیت جغرافیایی ایران، ترکیه، هلند، آلمان و آمریکا با قابلیت تحویل آنی در پارسدو فراهم است.
بنابراین آیا llms.txt واقعا مفید است؟
به نظر من، هنوز نه. هیچ مدرکی وجود ندارد که llms.txt بازیابی هوش مصنوعی را بهبود بخشد، ترافیک را افزایش دهد یا دقت مدل را افزایش دهد. و هیچ ارائهدهندهای متعهد به تجزیه آن نشده است.
اما راهاندازی آن نیز بسیار آسان است. اگر از قبل محتوای ساختاریافتهای مانند صفحات محصول یا اسناد توسعهدهنده دارید، کامپایل llms.txt امری بیاهمیت است. این یک فایل Markdown است که در وبسایت خودتان میزبانی میشود. ممکن است هیچ مزیت مشاهدهشدهای وجود نداشته باشد، اما هیچ خطری هم ندارد. اگر LLMها در نهایت آن را به عنوان یک استاندارد دنبال کنند، ممکن است مزیت کوچکی برای پیشگام بودن وجود داشته باشد.
من فکر میکنم llms.txt در حال افزایش محبوبیت است زیرا همه ما میخواهیم بر دیده شدن LLM تاثیر بگذاریم، اما ابزارهای لازم برای انجام این کار را نداریم. بنابراین به ایدههایی میچسبیم که مانند کنترل به نظر میرسند.
اما از نظر شخصی من، llms.txt یک راهحل برای جستجوی یک مشکل است. موتورهای جستجو در حال حاضر با استفاده از استانداردهای موجود مانند robots.txt و sitemap.xml محتوای شما را میخزند و درک میکنند. LLMها از بسیاری از زیرساختهای مشابه استفاده میکنند.
جمعبندی
llms.txt ابزاری برای مدیریت دسترسی مدلهای زبانی به محتوای سایتهاست. برای صاحبان وبسایتها مهم است، به ویژه اگر نمیخواهند محتوای آنها توسط مدلهای زبانی استفاده شود. کاربران عادی نیازی به نگرانی یا توجه خاصی به آن ندارند.