llms.txt چیست و آیا باید به آن اهمیت داد؟

  • دسته بندی ها: عمومی

به توسعه‌دهندگان و بازاریابان گفته می‌شود که فایل‌های llms.txt را به سایت‌های خود اضافه کنند تا به مدل‌های زبانی بزرگ (LLM) در درک محتوای آنها کمک کنند. در این مطلب بررسی می‌کنیم که llms.txt چیست، چه کسی از آن استفاده می‌کند و آیا باید به آن اهمیت داد؟

llms.txt چیست؟

llms.txt یک استاندارد پیشنهادی برای کمک به LLMها در دسترسی و تفسیر محتوای ساختاریافته از وب‌سایت‌ها است. به طور خلاصه، این یک فایل متنی است که برای گفتن به LLMها طراحی شده است تا بدانند مطالب مفید مانند مستندات API، سیاست‌های بازگشت کالا، طبقه‌بندی محصولات و سایر منابع غنی از متن را از کجا پیدا کنند. هدف این است که با ارائه نقشه‌ای منظم از محتوای با ارزش بالا به مدل‌های زبانی، ابهام را از بین ببریم، تا آنها مجبور نباشند حدس بزنند چه چیزی مهم است.

در تئوری، این ایده خوبی به نظر می‌رسد. ما در حال حاضر از فایل‌هایی مانند robots.txt و sitemap.xml برای کمک به موتورهای جستجو در درک محتوای یک سایت و محل جستجو استفاده می‌کنیم. چرا همین منطق را برای LLMها اعمال نمی‌کنیم؟

اما نکته مهم این است که هیچ ارائه‌دهنده اصلی LLM در حال حاضر از llms.txt پشتیبانی نمی‌کند. نه OpenAI. نه Anthropic. نه Google.

همانطور که در مقدمه گفتم، llms.txt یک استاندارد پیشنهادی است. من همچنین می‌توانم یک استاندارد پیشنهاد کنم (بیایید آن را please-send-me-traffic-robot-overlords.txt بنامیم)، اما تا زمانی که ارائه‌دهندگان اصلی LLM با استفاده از آن موافقت نکنند، کاملا بی‌معنی است.

این همان جایی است که ما با llms.txt مواجه هستیم که این یک ایده حدسی است که هنوز به طور رسمی پذیرفته نشده است.

مثال llms.txt

در اینجا نحوه عملکرد یک فایل llms.txt را مشاهده می‌کنید. این تصویری از فایل llms.txt واقعی Anthropic است:

 

در هسته خود، llms.txt یک سند Markdown (نوعی فایل متنی با فرمت خاص) است. از هدرهای H2 برای سازماندهی لینک‌ها به منابع کلیدی استفاده می‌کند. در اینجا یک ساختار نمونه وجود دارد که می‌توانید از آن استفاده کنید:

# llms.txt
## Docs
– /api.md
A summary of API methods, authentication, rate limits, and example requests.
– /quickstart.md
A setup guide to help developers start using the platform quickly.
## Policies
– /terms.md
Legal terms outlining service usage.
– /returns.md
Information about return eligibility and processing.
## Products
– /catalog.md
A structured index of product categories, SKUs, and metadata.
– /sizing-guide.md
A reference guide for product sizing across categories.

 

شما می‌توانید llms.txt خود را در عرض چند دقیقه ایجاد کنید:

  1. با یک فایل Markdown ساده شروع کنید.
  2. از H2ها برای گروه‌بندی منابع بر اساس نوع استفاده کنید.
  3. به محتوای ساختاریافته و سازگار با markdown لینک دهید.
  4. آن را به‌روز نگه دارید.
  5. آن را در دامنه اصلی خود میزبانی کنید: https://yourdomain.com/llms.txt

می‌توانید خودتان آن را ایجاد کنید یا از یک ژنراتور رایگان llms.txt  برای ایجاد آن برای خود استفاده کنید.

چه کسی  از آن استفاده می‌کند؟

می‌توانید فهرستی از شرکت‌هایی که از llms.txt استفاده می‌کنند را در directory.llmstxt.cloud مشاهده کنید، یک فهرست نگهداری‌شده توسط جامعه از فایل‌های عمومی llms.txt.

در اینجا چند مثال آورده شده است:

  • Mintlify: پلتفرم مستندسازی توسعه‌دهندگان.
  • Tinybird: APIهای داده‌های بلادرنگ.
  • Cloudflare: اسناد عملکرد و امنیت را فهرست می‌کند.
  • Anthropic: یک نقشه Markdown کامل از اسناد API خود منتشر می‌کند.

اما در مورد بازیگران بزرگ چطور؟

تاکنون، هیچ ارائه‌دهنده اصلی LLM رسمی llms.txt را به عنوان بخشی از پروتکل خزنده خود نپذیرفته است:

  • OpenAI (GPTBot): robots.txt را محترم می‌شمارد اما رسماً از llms.txt استفاده نمی‌کند.
  • Anthropic (Claude): llms.txt خود را منتشر می‌کند، اما اعلام نمی‌کند که خزنده‌هایش از این استاندارد استفاده می‌کنند.
  • گوگل (Gemini/Bard): از robots.txt (از طریق User-agent: Google-Extended) برای مدیریت رفتار خزش هوش مصنوعی استفاده می‌کند، بدون اشاره به پشتیبانی از llms.txt.
  • متا (LLaMA): هیچ خزنده یا راهنمایی عمومی و هیچ نشانه‌ای از استفاده از llms.txt وجود ندارد.

این نکته مهمی را برجسته می‌کند: ایجاد llms.txt با اعمال آن در رفتار خزنده یکسان نیست. در حال حاضر، اکثر فروشندگان LLM با llms.txt به عنوان یک ایده جالب رفتار می‌کنند، و نه چیزی که توافق کرده‌اند آن را در اولویت قرار دهند و دنبال کنند.

vps یک ماشین مجازی کامل است که امکان دسترسی SSH طبق آموزش را به آن خواهید داشت.
خرید vps در پنج موقعیت جغرافیایی ایران، ترکیه، هلند، آلمان و آمریکا با قابلیت تحویل آنی در پارسدو فراهم است.

بنابراین آیا llms.txt واقعا مفید است؟

به نظر من، هنوز نه. هیچ مدرکی وجود ندارد که llms.txt بازیابی هوش مصنوعی را بهبود بخشد، ترافیک را افزایش دهد یا دقت مدل را افزایش دهد. و هیچ ارائه‌دهنده‌ای متعهد به تجزیه آن نشده است.

اما راه‌اندازی آن نیز بسیار آسان است. اگر از قبل محتوای ساختاریافته‌ای مانند صفحات محصول یا اسناد توسعه‌دهنده دارید، کامپایل llms.txt امری بی‌اهمیت است. این یک فایل Markdown است که در وب‌سایت خودتان میزبانی می‌شود. ممکن است هیچ مزیت مشاهده‌شده‌ای وجود نداشته باشد، اما هیچ خطری هم ندارد. اگر LLMها در نهایت آن را به عنوان یک استاندارد دنبال کنند، ممکن است مزیت کوچکی برای پیشگام بودن وجود داشته باشد.

من فکر می‌کنم llms.txt در حال افزایش محبوبیت است زیرا همه ما می‌خواهیم بر دیده شدن LLM تاثیر بگذاریم، اما ابزارهای لازم برای انجام این کار را نداریم. بنابراین به ایده‌هایی می‌چسبیم که مانند کنترل به نظر می‌رسند.

اما از نظر شخصی من، llms.txt یک راه‌حل برای جستجوی یک مشکل است. موتورهای جستجو در حال حاضر با استفاده از استانداردهای موجود مانند robots.txt و sitemap.xml محتوای شما را می‌خزند و درک می‌کنند. LLMها از بسیاری از زیرساخت‌های مشابه استفاده می‌کنند.

جمع‌بندی

llms.txt ابزاری برای مدیریت دسترسی مدل‌های زبانی به محتوای سایت‌هاست. برای صاحبان وب‌سایت‌ها مهم است، به ویژه اگر نمی‌خواهند محتوای آن‌ها توسط مدل‌های زبانی استفاده شود. کاربران عادی نیازی به نگرانی یا توجه خاصی به آن ندارند.