Name: Build a Large Language Model
Rating: 4.75 (42 reviews)
ISBN: 9781633437166

Summary Reviews Similar Author

Try Full Access for 7 Days

Unlock listening & more!

Continue

نکات کلیدی

۱. مدل‌های زبان بزرگ پردازشگرهای قدرتمند متنی مبتنی بر یادگیری عمیق هستند.

مدل‌های زبان بزرگ توانایی‌های چشمگیری در درک، تولید و تفسیر زبان انسانی دارند.

پایه‌ی یادگیری عمیق. مدل‌های زبان بزرگ (LLMها) شبکه‌های عصبی عمیق پیشرفته‌ای هستند که بر روی مجموعه‌های عظیم متنی آموزش دیده‌اند و قادرند متنی شبیه به زبان انسان را پردازش و تولید کنند. این مدل‌ها جهشی قابل توجه نسبت به روش‌های سنتی پردازش زبان طبیعی محسوب می‌شوند و در انجام وظایف پیچیده‌ای مانند تحلیل متنی در زمینه و تولید متن منسجم بسیار موفق عمل می‌کنند. LLMها کاربرد خاصی از یادگیری عمیق هستند که شاخه‌ای از یادگیری ماشین است و بر شبکه‌های عصبی چندلایه تمرکز دارد.

هوش مصنوعی مولد. مدل‌های زبان بزرگ اغلب به عنوان هوش مصنوعی مولد شناخته می‌شوند، زیرا توانایی خلق محتوای جدید، به‌ویژه متن، را دارند. قابلیت درک و تولید زبان، آن‌ها را به ابزارهای چندمنظوره‌ای تبدیل کرده است که از بررسی ساده‌ی دستور زبان تا نگارش مقاله، کدنویسی و پشتیبانی از چت‌بات‌های پیشرفته را شامل می‌شود. این توانایی مولد ناشی از هدف آموزشی آن‌هاست که معمولاً پیش‌بینی کلمه‌ی بعدی در یک دنباله است.

معماری ترنسفورمر. موفقیت مدل‌های زبان بزرگ مدرن عمدتاً به معماری ترنسفورمر و حجم عظیم داده‌های آموزشی آن‌ها نسبت داده می‌شود. این معماری، به‌ویژه نسخه‌های فقط دیکودر مانند GPT، برای تولید متنی به صورت ترتیبی طراحی شده است. اگرچه LLMها از نظر پارامترها و داده‌ها بزرگ هستند، اما با شناخت اجزای اصلی آن‌ها درمی‌یابیم که کاملاً «جعبه سیاه» نیستند.

۲. داده‌های متنی باید به توکن‌ها تقسیم و به بردارهای عددی تبدیل شوند تا برای LLMها قابل استفاده باشند.

مدل‌های شبکه عصبی عمیق، از جمله LLMها، نمی‌توانند متن خام را مستقیماً پردازش کنند.

نمایش عددی کلید کار است. LLMها که شبکه‌های عصبی هستند، نیازمند داده‌های ورودی به شکل عددی هستند. متن خام که ماهیتی دسته‌ای دارد، باید به بردارهای پیوسته تبدیل شود که به آن تعبیه (embedding) گفته می‌شود. این تبدیل امکان انجام عملیات ریاضی درون شبکه عصبی را فراهم می‌کند.

توکنیزه کردن متن. نخستین گام در آماده‌سازی متن، توکنیزه کردن است؛ یعنی تقسیم متن به واحدهای کوچکتر به نام توکن که می‌توانند کلمات، زیرکلمات یا کاراکترهای خاص باشند. سپس این توکن‌ها بر اساس واژگان از پیش تعریف‌شده به شناسه‌های عددی منحصر به فرد نگاشت می‌شوند. روش‌های پیشرفته‌ای مانند Byte Pair Encoding (BPE) کلمات ناشناخته را به زیرکلمات یا کاراکترهای شناخته‌شده تقسیم می‌کنند تا مدل بتواند هر متنی را پردازش کند.

ایجاد بردارهای تعبیه. شناسه‌های توکن سپس به بردارهای تعبیه تبدیل می‌شوند که معمولاً توسط لایه تعبیه درون خود LLM انجام می‌شود. این لایه مانند یک جدول جستجو عمل می‌کند و هر شناسه توکن را به برداری متراکم تبدیل می‌کند. این بردارها روابط معنایی را در خود جای می‌دهند، به‌طوری که کلماتی با معانی مشابه بردارهای نزدیکی دارند و در طول آموزش مدل بهینه می‌شوند.

۳. مکانیزم‌های توجه به LLMها امکان می‌دهند اهمیت بخش‌های مختلف ورودی را وزن‌دهی کنند.

توجه خودی (self-attention) مکانیزمی است که به هر موقعیت در دنباله ورودی اجازه می‌دهد هنگام محاسبه‌ی نمایش دنباله، به تمام موقعیت‌های دیگر در همان دنباله توجه کند.

رفع محدودیت‌های دنباله‌ای. مدل‌های پیشین مانند شبکه‌های عصبی بازگشتی (RNN) در پردازش دنباله‌های طولانی مشکل داشتند، زیرا باید تمام اطلاعات ورودی را در یک حالت پنهان فشرده می‌کردند. مکانیزم‌های توجه برای این طراحی شدند که مدل بتواند هنگام پردازش یک عنصر خاص یا تولید خروجی، به بخش‌های مختلف دنباله ورودی به صورت انتخابی تمرکز کند.

توجه خودی درون دنباله. توجه خودی که جزو اصلی معماری ترنسفورمرها و LLMهاست، به هر توکن در دنباله ورودی اجازه می‌دهد با تمام توکن‌های دیگر در همان دنباله تعامل داشته باشد و اهمیت آن‌ها را بسنجد. این قابلیت به مدل امکان می‌دهد وابستگی‌های بلندمدت و روابط متنی را درک کند که برای فهم ظرایف زبان ضروری است.

پرسش‌ها، کلیدها و مقدارها. توجه خودی با نگاشت تعبیه‌های ورودی به سه بردار یادگرفته‌شده به نام‌های پرسش (query)، کلید (key) و مقدار (value) کار می‌کند. امتیازهای توجه با مقایسه پرسش‌ها و کلیدها (معمولاً با ضرب داخلی) محاسبه می‌شوند که نشان می‌دهد هر توکن چقدر باید به توکن‌های دیگر توجه کند. این امتیازها به وزن‌های توجه تبدیل شده و سپس برای محاسبه مجموع وزنی بردارهای مقدار استفاده می‌شوند که بردارهای متنی غنی‌شده‌ای برای هر توکن فراهم می‌آورند.

۴. معماری GPT با انباشتن بلوک‌های ترنسفورمر برای تولید متن ساخته شده است.

مدل‌های GPT... معماری‌های بزرگ شبکه عصبی عمیقی هستند که برای تولید متن جدید به صورت کلمه (یا توکن) به کلمه طراحی شده‌اند.

طراحی فقط دیکودر. برخلاف ترنسفورمر اصلی که شامل کدگذار و دیکودر است، مدل‌های GPT تنها از بخش دیکودر استفاده می‌کنند. این معماری برای پردازش یک‌طرفه و از چپ به راست طراحی شده و در وظایف تولید متن که مدل باید توکن بعدی را بر اساس توکن‌های قبلی پیش‌بینی کند، بسیار مؤثر است.

بلوک‌های ترنسفورمر هسته اصلی. معماری GPT با انباشتن چندین بلوک ترنسفورمر یکسان ساخته شده است. هر بلوک دنباله ورودی را پردازش کرده و نمایش توکن‌ها را از طریق توجه خودی و شبکه‌های پیش‌خور بهبود می‌بخشد. تعداد این بلوک‌ها عامل مهمی در اندازه و ظرفیت مدل است که از ۱۲ بلوک در کوچک‌ترین نسخه GPT-2 تا ۴۸ بلوک در بزرگ‌ترین آن متغیر است.

تولید ترتیبی. تولید متن در GPT فرایندی تکراری است. با دریافت یک متن اولیه، مدل دنباله را از طریق لایه‌ها پردازش می‌کند و لایه خروجی توزیع احتمالات روی واژگان برای توکن بعدی را پیش‌بینی می‌کند. محتمل‌ترین توکن (یا یکی به صورت نمونه‌گیری احتمالاتی) انتخاب شده، به دنباله ورودی افزوده می‌شود و این روند تکرار می‌شود تا متن خروجی به صورت توکن به توکن ساخته شود.

۵. نرمال‌سازی لایه و اتصالات میان‌بر آموزش عمیق LLMها را پایدار می‌کنند.

آموزش شبکه‌های عصبی عمیق با لایه‌های زیاد گاهی به دلیل مشکلاتی مانند ناپدید شدن یا انفجار گرادیان‌ها چالش‌برانگیز است.

پایدارسازی فعال‌سازی‌ها. نرمال‌سازی لایه تکنیکی است که در بلوک‌های ترنسفورمر برای پایدارسازی فرایند آموزش شبکه‌های عمیق به کار می‌رود. این روش خروجی‌های یک لایه را برای هر نمونه ورودی به گونه‌ای نرمال می‌کند که میانگین صفر و واریانس یک در طول بعد ویژگی داشته باشند. این کار از تغییرات داخلی توزیع داده جلوگیری کرده و همگرایی سریع‌تر و پایدارتر آموزش را ممکن می‌سازد.

کاهش مشکلات گرادیان. اتصالات میان‌بر که به آن‌ها اتصالات باقیمانده یا پرش نیز گفته می‌شود، برای آموزش شبکه‌های بسیار عمیق مانند LLMها حیاتی هستند. این اتصالات ورودی یک لایه یا بلوک را مستقیماً به خروجی آن اضافه می‌کنند و مسیر جایگزینی برای جریان گرادیان‌ها در هنگام پس‌انتشار فراهم می‌آورند. این کار به مقابله با مشکل ناپدید شدن گرادیان کمک می‌کند و اطمینان می‌دهد که گرادیان‌ها به اندازه کافی بزرگ باقی می‌مانند تا وزن‌های لایه‌های ابتدایی به‌خوبی به‌روزرسانی شوند.

ساخت بلوک‌های مقاوم. در یک بلوک ترنسفورمر، نرمال‌سازی لایه معمولاً پیش از توجه چندسر و شبکه پیش‌خور اعمال می‌شود و اتصالات میان‌بر پس از این اجزا افزوده می‌شوند. این ترکیب تضمین می‌کند که شبکه عمیق می‌تواند الگوهای پیچیده را یاد بگیرد و در عین حال جریان گرادیان را پایدار نگه دارد و از توقف آموزش جلوگیری کند، که معماری را برای تعداد زیادی لایه مقیاس‌پذیر می‌سازد.

۶. پیش‌آموزش روی حجم عظیمی از متن‌های بدون برچسب، مدل پایه‌ای چندمنظوره ایجاد می‌کند.

وظیفه پیش‌بینی کلمه بعدی نوعی یادگیری خودنظارتی است که به معنای برچسب‌گذاری خودکار است.

مرحله اولیه آموزش. پیش‌آموزش نخستین و پرهزینه‌ترین مرحله در ساخت یک LLM است. در این مرحله مدل روی مجموعه‌ای عظیم از داده‌های متنی بدون برچسب، معمولاً شامل میلیاردها یا تریلیون‌ها کلمه از منابع متنوع مانند وب‌سایت‌ها، کتاب‌ها و مقالات، آموزش داده می‌شود. این مواجهه گسترده به مدل امکان می‌دهد دستور زبان، نحو، حقایق و الگوهای کلی زبان را بیاموزد.

یادگیری خودنظارتی. وظیفه اصلی پیش‌آموزش برای مدل‌های مشابه GPT پیش‌بینی کلمه بعدی است: مدل با دریافت دنباله‌ای از توکن‌ها، یاد می‌گیرد توکن بعدی را پیش‌بینی کند. این یک وظیفه خودنظارتی است زیرا برچسب‌ها (توکن‌های بعدی) مستقیماً از داده ورودی استخراج می‌شوند و نیازی به برچسب‌گذاری دستی نیست، که امکان استفاده از حجم عظیمی از متن خام را فراهم می‌کند.

قابلیت‌های مدل پایه. نتیجه پیش‌آموزش، مدلی پایه (foundation model) است که قادر به تکمیل متن بوده و ویژگی‌های نوظهوری مانند یادگیری چندنمونه‌ای محدود را نشان می‌دهد. این مدل هنوز برای وظایف خاص تخصصی نشده است، اما پایه‌ای قدرتمند است که درک گسترده‌ای از زبان کسب کرده و آماده تطبیق برای کاربردهای مختلف از طریق تنظیم دقیق است.

۷. بارگذاری وزن‌های پیش‌آموزش‌شده، آموزش اولیه پرهزینه را حذف می‌کند.

خوشبختانه OpenAI وزن‌های مدل‌های GPT-2 خود را به‌صورت عمومی منتشر کرده است، بنابراین نیازی به صرف ده‌ها تا صدها هزار دلار برای آموزش مجدد مدل روی مجموعه داده بزرگ نیست.

صرفه‌جویی در هزینه و منابع. پیش‌آموزش مدل‌های بزرگ LLM از ابتدا بسیار پرهزینه است و نیازمند منابع محاسباتی و زمان زیادی است. بارگذاری وزن‌های پیش‌آموزش‌شده در دسترس عموم، مانند مدل‌های GPT-2 OpenAI، به توسعه‌دهندگان امکان می‌دهد از آموزش گسترده قبلی بهره‌مند شوند و هزینه‌ها و منابع را به‌طور قابل توجهی کاهش دهند.

نقطه شروع برای تطبیق. مدل‌های پیش‌آموزش‌شده نقطه شروع بسیار خوبی برای وظایف مختلف هستند. درک زبان یادگرفته‌شده آن‌ها می‌تواند به حوزه‌های جدید یا کاربردهای خاص با داده و محاسبات بسیار کمتر نسبت به آموزش از صفر منتقل شود. این امر LLMها را حتی برای تنظیم دقیق روی سخت‌افزارهای مصرفی قابل دسترس می‌کند.

سازگاری و معماری. برای بارگذاری وزن‌های پیش‌آموزش‌شده، معماری مدل محلی باید با معماری مدل پیش‌آموزش‌شده مطابقت داشته باشد، از جمله نوع لایه‌ها، ابعاد و جزئیات مقداردهی اولیه مانند استفاده از بایاس. اگرچه ممکن است تفاوت‌های جزئی معماری وجود داشته باشد (مانند اشتراک وزن‌ها در لایه خروجی GPT-2 اصلی)، نگاشت دقیق وزن‌ها تضمین می‌کند که مدل بارگذاری‌شده به درستی کار کند و قابلیت‌های یادگرفته‌شده در پیش‌آموزش را حفظ کند.

۸. تنظیم دقیق مدل‌های زبان بزرگ برای وظایف طبقه‌بندی خاص انجام می‌شود.

در تنظیم دقیق طبقه‌بندی... مدل آموزش می‌بیند تا مجموعه‌ای خاص از برچسب‌های کلاس را تشخیص دهد...

تطبیق برای وظایف تخصصی. تنظیم دقیق مرحله دوم چرخه توسعه LLM است که در آن مدل پایه پیش‌آموزش‌شده برای وظایف پایین‌دستی خاص با استفاده از مجموعه داده‌های کوچک‌تر و برچسب‌دار تطبیق داده می‌شود. تنظیم دقیق طبقه‌بندی شامل آموزش مدل برای دسته‌بندی متن ورودی به کلاس‌های از پیش تعریف‌شده مانند «هرزنامه» یا «غیر هرزنامه»، برچسب‌های احساسات یا دسته‌های موضوعی است.

تغییر لایه خروجی. برای طبقه‌بندی، لایه خروجی اصلی مدل که برای پیش‌بینی توکن بعدی در واژگان بزرگ طراحی شده بود، با لایه خطی کوچکتری جایگزین می‌شود. این لایه جدید نمایش نهایی پنهان مدل را به تعداد کلاس‌های مورد نیاز برای وظیفه (مثلاً ۲ برای طبقه‌بندی دودویی) نگاشت می‌کند.

آموزش روی داده‌های برچسب‌دار. سپس مدل روی مجموعه داده برچسب‌دار آموزش می‌بیند که در آن هر نمونه متنی با برچسب کلاس صحیح خود جفت شده است. معمولاً فقط لایه طبقه‌بندی تازه افزوده شده و احتمالاً چند لایه آخر مدل پیش‌آموزش‌شده قابل آموزش هستند و بقیه وزن‌ها ثابت نگه داشته می‌شوند. این فرایند مدل را تنظیم می‌کند تا احتمال‌های کلاس صحیح را برای ورودی‌ها به درستی پیش‌بینی کند و با معیارهایی مانند تابع خطای آنتروپی متقاطع و دقت طبقه‌بندی ارزیابی می‌شود.

۹. تنظیم دقیق مبتنی بر دستورالعمل به مدل‌های زبان بزرگ می‌آموزد دستورات انسانی را دنبال کنند.

تنظیم دقیق مبتنی بر دستورالعمل شامل آموزش مدل زبان روی مجموعه‌ای از وظایف با استفاده از دستورالعمل‌های خاص است تا توانایی آن در درک و اجرای وظایف توصیف‌شده در پرامپت‌های زبان طبیعی بهبود یابد...

توانمندسازی هوش مصنوعی مکالمه‌ای. تنظیم دقیق مبتنی بر دستورالعمل گامی حیاتی در توسعه LLMها برای کاربردهای تعاملی مانند چت‌بات‌ها و دستیارهای شخصی است. این فرایند مدل را آموزش می‌دهد تا دستورات بیان‌شده به زبان طبیعی را درک کرده و پاسخ‌های مناسب ارائه دهد، فراتر از تکمیل ساده متن و به سمت اجرای وظایف بر اساس پرامپت‌های کاربر حرکت کند.

جفت‌های دستور-پاسخ. این فرایند از مجموعه داده‌ای متشکل از جفت‌های دستور و پاسخ استفاده می‌کند که اغلب با قالب‌های خاص پرامپت (مانند سبک Alpaca) ساختاربندی شده‌اند تا ورودی مدل را سازماندهی کنند. مدل آموزش می‌بیند که پاسخ متنی مطلوب را با توجه به دستور و هر زمینه ورودی مرتبط تولید کند.

فرایند آموزش. مشابه پیش‌آموزش، تنظیم دقیق مبتنی بر دستورالعمل از هدف پیش‌بینی توکن بعدی استفاده می‌کند، اما هدف‌ها توکن‌های پاسخ مطلوب پس از دستور هستند. بارگذارهای داده سفارشی ورودی‌های با طول متغیر را با پر کردن توالی‌ها و ماسک کردن توکن‌های پرکننده در محاسبه خطا مدیریت می‌کنند. وزن‌های مدل پیش‌آموزش‌شده تنظیم می‌شوند تا اختلاف بین توکن‌های پاسخ تولیدشده توسط مدل و توکن‌های پاسخ هدف را به حداقل برسانند و مدل بتواند نگاشت از دستورات به خروجی‌های مطلوب را بیاموزد.

آخرین به‌روزرسانی:: May 2, 2025

Report Issue

Want to read the full book?

Amazon Kindle Audible

نقد و بررسی

4.65 از 5

میانگین از 136 امتیازات از Goodreads و Amazon.

کتاب «ساخت مدل زبان بزرگ» به‌خاطر رویکرد جامع و گام‌به‌گام خود در فهم و پیاده‌سازی مدل‌های زبان بزرگ بسیار مورد تحسین قرار گرفته است. خوانندگان از توضیحات روشن، نمونه‌های کد عملی و ترکیب متعادل نظریه و کاربرد در این کتاب استقبال می‌کنند. این اثر همه مباحث را از اصول پایه ترنسفورمرها تا تنظیم دقیق مدل‌ها برای وظایف خاص پوشش می‌دهد. بسیاری این کتاب را منبعی ارزشمند برای تازه‌کاران و همچنین متخصصان باتجربه در حوزه هوش مصنوعی و یادگیری ماشین می‌دانند. برخی از منتقدان اشاره کرده‌اند که اگرچه کتاب در توضیح «چگونگی» بسیار موفق است، می‌توانست به «چرایی» برخی مفاهیم نیز عمیق‌تر بپردازد.

Similar Books

The Worlds I See

Fei-Fei Li

Curiosity, Exploration, and Discovery at the Dawn of AI

AI, ChatGPT, and the Race that Will Change the World

Lost Illusions Inside the Tech Bubble

A Brief History of Information Networks from the Stone Age to AI

What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference

Building Applications with Foundation Models

Jensen Huang and the Making of a Tech Giant

How to talk to customers & learn if your business is a good idea when everyone is lying to you

4.37

(12.5K)

System Design Interview – An insider's guide

Alex Xu

4.28

(2.9K)

درباره نویسنده

سباستین راشکا دانشمند داده و متخصص یادگیری ماشین با شور و اشتیاق است که در حال انجام دکترای خود در دانشگاه ایالتی میشیگان می‌باشد. تحقیقات او بر توسعه نرم‌افزارهای کارآمد برای غربالگری مجازی در زمینه کشف داروهای مبتنی بر رایانه و اتصال لیگاند به پروتئین متمرکز است. راشکا به کار تیمی و همکاری متن‌باز اهمیت فراوانی می‌دهد و معتقد است که به اشتراک‌گذاری ایده‌ها و دریافت بازخورد سازنده، کلید پیشرفت است. او متعهد به کار با داده‌ها، کشف الگوها و استخراج نتایج عمیق از طریق تکنیک‌های داده‌کاوی و یادگیری ماشین است. در کنار فعالیت‌های علمی، راشکا به ورزش علاقه‌مند است، به‌ویژه فوتبال و تنیس، و در اوقات فراغت خود مهارت‌های تحلیلی‌اش را در پیش‌بینی‌های ورزشی به کار می‌گیرد.

Compare Features	Free	Pro
📖 Read Summaries Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries Listen to unlimited summaries in 40 languages	—
❤️ Unlimited Bookmarks Free users are limited to 4	—
📜 Unlimited History Free users are limited to 4	—
📥 Unlimited Downloads Free users are limited to 1	—