نکات کلیدی
۱. یادگیری عمیق با کمینهسازی تابع زیان از دادهها میآموزد
در این مرحله، آموزش مدل شامل یافتن مقداری w∗ است که تابع زیان ℒ(w∗) را کمینه میکند.
یادگیری از دادهها. یادگیری عمیق، شاخهای از یادگیری ماشین، بر مدلهایی تمرکز دارد که مستقیماً از دادهها نمایههایی میآموزند. به جای کدنویسی دستی قوانین، مجموعهای از ورودیها و خروجیهای مطلوب جمعآوری میشود و سپس مدلی پارامتری آموزش داده میشود تا رابطه بین آنها را تقریب بزند. رفتار مدل توسط پارامترهای قابل آموزش که اغلب وزن نامیده میشوند، تنظیم میشود.
فرموله کردن کیفیت. هدف یافتن مقادیر پارامترهایی است که مدل را در پیشبینی دادههای دیدهنشده «خوب» کنند. این هدف با استفاده از تابع زیان ℒ(w) که میزان خطای مدل روی دادههای آموزشی را برای پارامترهای w اندازه میگیرد، رسمی میشود. توابع زیان رایج شامل میانگین مربعات خطا برای رگرسیون و آنتروپی متقاطع برای طبقهبندی است.
آموزش یعنی بهینهسازی. وظیفه اصلی آموزش یافتن پارامترهای بهینه w* است که این تابع زیان را کمینه میکنند. این فرایند بهینهسازی محور اصلی یادگیری عمیق است و انتخاب معماری مدل و تکنیکهای آموزش به شدت تحت تأثیر نیاز به انجام این کمینهسازی به صورت کارآمد و مؤثر، بهویژه برای دادههای پیچیده و با ابعاد بالا، قرار دارد.
۲. محاسبات کارآمد روی سختافزار تخصصی حیاتی است
واحدهای پردازش گرافیکی (GPU) نقش مهمی در موفقیت این حوزه داشتهاند، زیرا امکان اجرای چنین محاسباتی را روی سختافزاری مقرونبهصرفه فراهم کردهاند.
شتابدهی سختافزاری. یادگیری عمیق شامل محاسبات عظیمی است که عمدتاً عملیات جبر خطی روی دادههای بزرگ هستند. معماری موازی GPUها که در اصل برای گرافیک طراحی شده بود، بهخوبی برای این وظایف مناسب است و امکان یادگیری عمیق در مقیاس بزرگ را روی سختافزارهای در دسترس فراهم کرده است. تراشههای تخصصی مانند TPUها نیز این روند را بهینهتر کردهاند.
اهمیت سلسلهمراتب حافظه. محاسبات کارآمد روی GPU نیازمند مدیریت دقیق دادهها است. گلوگاه معمولاً انتقال داده بین حافظه CPU و GPU و همچنین درون سلسلهمراتب حافظه GPU است. پردازش دادهها در دستههایی که در حافظه سریع GPU جا میشوند، این انتقالها را به حداقل میرساند و امکان محاسبه موازی روی نمونهها را فراهم میکند.
تنسورها کلید هستند. دادهها، پارامترهای مدل و نتایج میانی به صورت تنسورها، آرایههای چندبعدی، سازماندهی میشوند. چارچوبهای یادگیری عمیق به طور مؤثر تنسورها را مدیریت میکنند و جزئیات حافظه سطح پایین را پنهان میسازند و عملیات پیچیدهای مانند تغییر شکل و استخراج را بدون کپیبرداری پرهزینه دادهها ممکن میسازند. این رویکرد مبتنی بر تنسور اساس دستیابی به توان محاسباتی بالا است.
۳. گرادیان نزولی و پسانتشار، موتور آموزش هستند
ترکیب این محاسبات با روش گرادیان نزولی، پسانتشار نامیده میشود.
کمینهسازی زیان. از آنجا که تابع زیان مدلهای عمیق معمولاً پیچیده و فاقد حل بسته ساده است، گرادیان نزولی الگوریتم اصلی بهینهسازی است. این روش با پارامترهای تصادفی شروع میکند و آنها را به صورت تکراری با برداشتن گامهای کوچک در جهت مخالف گرادیان زیان، که جهت بیشترین کاهش است، بهروزرسانی میکند.
بهروزرسانیهای تصادفی. محاسبه دقیق گرادیان روی کل دادهها از نظر محاسباتی سنگین است. گرادیان نزولی تصادفی (SGD) با استفاده از دستههای کوچک داده، تخمینی پرنوسان اما بدون سوگیری از گرادیان ارائه میدهد که امکان بهروزرسانیهای بیشتر پارامترها را با همان هزینه محاسباتی فراهم میکند. این روش دستهبندی کوچک استاندارد است و اغلب با بهینهسازهایی مانند Adam بهبود مییابد.
پسانتشار گرادیانها را محاسبه میکند. پسانتشار الگوریتمی است که به طور مؤثر گرادیان تابع زیان نسبت به تمام پارامترهای مدل را محاسبه میکند. این الگوریتم با استفاده از قاعده زنجیرهای حساب دیفرانسیل به صورت معکوس از لایههای شبکه عبور میکند و گرادیانها را لایه به لایه محاسبه میکند. این عبور معکوس همراه با عبور رو به جلو که خروجی مدل را محاسبه میکند، حلقه محاسباتی اصلی آموزش یادگیری عمیق را تشکیل میدهد.
۴. عمق و مقیاس، قابلیتهای قدرتمند را آزاد میکنند
شواهد تجربی فراوانی نشان میدهد که عملکرد... با افزایش دادهها طبق قوانین مقیاسبندی قابل توجه بهبود مییابد...
ارزش عمق. مدلهای عمیق که از لایههای متعدد تشکیل شدهاند، میتوانند نمایههای پیچیدهتر و سلسلهمراتبی نسبت به مدلهای کمعمق بیاموزند. اگرچه از نظر نظری یک شبکه تکلایه میتواند هر تابعی را تقریب بزند، اما معماریهای عمیق به طور تجربی عملکردی در سطح پیشرفته در حوزههای مختلف ارائه میدهند و معمولاً به دهها تا صدها لایه نیاز دارند.
قوانین مقیاسبندی. یافته مهم این است که عملکرد مدل معمولاً به طور قابل پیشبینی با افزایش مقیاس بهبود مییابد: دادههای بیشتر، پارامترهای بیشتر و محاسبات بیشتر. این موضوع روند ساخت مدلهای عظیمتر را که روی مجموعه دادههای بسیار بزرگ آموزش داده میشوند، تقویت کرده و به پیشرفتهایی مانند مدلهای زبان بزرگ منجر شده است.
مزایای مقیاس. مدلهای بزرگ با وجود ظرفیت عظیم خود، اغلب تعمیم خوبی دارند و مفاهیم سنتی بیشبرازش را به چالش میکشند. مقیاس آنها همراه با تکنیکهای آموزش توزیعشده مانند SGD روی دادههای عظیم، امکان یادگیری الگوها و دانش پیچیدهای را فراهم میکند که مدلهای کوچکتر قادر به آن نیستند، هرچند با هزینههای محاسباتی و مالی قابل توجه.
۵. مدلهای عمیق از لایههای قابل استفاده مجدد ساخته میشوند
لایهها عملیات پیچیده و مرکب تنسوری استانداردی هستند که به صورت تجربی به عنوان عمومی و کارآمد شناخته شدهاند.
اجزای مدولار. مدلهای عمیق با انباشتن یا اتصال انواع مختلف لایهها ساخته میشوند که عملیات تنسوری پارامتری و قابل استفاده مجدد هستند. این مدولار بودن طراحی مدل را ساده میکند و امکان ساخت معماریهای پیچیده از بلوکهای ساختمانی شناختهشده را فراهم میآورد.
انواع اصلی لایهها:
- خطی/کاملاً متصل: انجام تبدیلات آفاین (ضرب ماتریسی بهعلاوه بایاس).
- کانولوشنال: اعمال فیلترهای آفاین محلی و مشترک در ابعاد فضایی یا زمانی، که الگوهای محلی را میگیرند و نامتغیری ترجمهای را ممکن میسازند.
- توابع فعالسازی: افزودن غیرخطی بودن (مانند ReLU، GELU) که برای یادگیری نگاشتهای پیچیده ضروری است.
- پولینگ: کاهش اندازه فضایی با خلاصهسازی نواحی محلی (مانند ماکس پولینگ).
- لایههای نرمالسازی: تثبیت آموزش با نرمالسازی آمار فعالسازیها (مانند Batch Norm، Layer Norm).
- دراپاوت: تنظیم مدل با صفر کردن تصادفی فعالسازیها در طول آموزش.
- اتصالات پرش: اجازه میدهند سیگنالها از لایهها عبور کنند و جریان گرادیان و آموزش شبکههای بسیار عمیق را تسهیل میکنند.
مهندسی برای بهینهسازی. بسیاری از طراحیهای لایه مانند اتصالات پرش و لایههای نرمالسازی به طور خاص برای کاهش چالشهای آموزش مانند مشکل ناپدید شدن گرادیان توسعه یافتهاند و تمرکز را از بهینهسازی عمومی به طراحی مدلهایی که ذاتاً آسانتر بهینه میشوند، منتقل کردهاند.
۶. مکانیزمهای توجه اطلاعات دور را به هم متصل میکنند
لایههای توجه به طور خاص این مشکل را با محاسبه امتیاز توجه برای هر جزء از تنسور خروجی نسبت به هر جزء از تنسور ورودی، بدون محدودیت محلی، حل میکنند...
فراتر از محلی بودن. در حالی که لایههای کانولوشنال در پردازش اطلاعات محلی بسیار خوب عمل میکنند، بسیاری از وظایف نیازمند ادغام اطلاعات از بخشهای دوردست سیگنال هستند، مانند درک وابستگی بین کلمات دور در جمله یا ارتباط اشیاء در بخشهای مختلف تصویر. لایههای توجه مکانیزمی برای این تعامل جهانی فراهم میکنند.
پرسش، کلید، مقدار. عملگر اصلی توجه امتیازهایی را محاسبه میکند که نشاندهنده ارتباط هر عنصر «پرسش» با هر عنصر «کلید» است، معمولاً با ضرب داخلی. این امتیازها سپس برای محاسبه میانگین وزنی عناصر «مقدار» استفاده میشوند، به طوری که هر پرسش میتواند به اطلاعات مرتبط در سراسر توالی ورودی «توجه» کند.
توجه چندسر. لایه توجه چندسر این قابلیت را با انجام چندین محاسبه توجه به صورت موازی («سرها») با تبدیلات خطی یادگرفته شده متفاوت برای پرسشها، کلیدها و مقدارها افزایش میدهد. نتایج این سرها به هم متصل و به صورت خطی ترکیب میشوند، که به مدل اجازه میدهد به طور همزمان به اطلاعات از زیرفضایهای مختلف نمایه در موقعیتهای متفاوت توجه کند. این مکانیزم پایه معماریهای مدرن مانند ترنسفورمر است.
۷. معماریهای کلیدی ساختارهای داده متفاوت را هدف میگیرند
معماری انتخابی برای چنین وظایفی که در پیشرفتهای اخیر یادگیری عمیق نقش اساسی داشته، ترنسفورمر است...
MLPها برای دادههای ساده. پرسپترون چندلایه (MLP)، انبوهی از لایههای کاملاً متصل با توابع فعالسازی، سادهترین معماری عمیق است. اگرچه از نظر نظری تقریبکنندههای جهانی هستند، اما برای دادههای ساختاریافته با ابعاد بالا به دلیل تعداد زیاد پارامترها و نبود گرایش القایی عملی نیستند.
شبکههای کانولوشنال برای دادههای شبکهای. شبکههای کانولوشنال (ConvNets) استاندارد برای دادههای شبکهای مانند تصاویر هستند. آنها با استفاده از لایههای کانولوشنال و پولینگ، نمایههای سلسلهمراتبی و نامتغیر ترجمهای میسازند که معمولاً با لایههای کاملاً متصل برای وظایفی مانند طبقهبندی پایان مییابند. معماریهایی مانند LeNet و ResNet (که اتصالات پرش برای عمق دارد) نمونههای برجستهاند.
ترنسفورمرها برای توالیها. ترنسفورمرها که عمدتاً بر پایه لایههای توجه ساخته شدهاند، برای دادههای توالی مانند متن و به طور فزایندهای برای تصاویر غالب شدهاند. توانایی آنها در مدلسازی وابستگیهای بلندمدت به صورت جهانی، همراه با کدگذاری موقعیتی برای حفظ ترتیب توالی، آنها را بسیار مؤثر ساخته است. ساختار رمزگذار-رمزگشا برای ترجمه و مدلهای فقط رمزگشا مانند GPT برای تولید، نمونههای کلیدی هستند.
۸. یادگیری عمیق در وظایف پیشبینی برجسته است
دسته اول کاربردها... نیازمند پیشبینی مقدار ناشناختهای از سیگنال موجود هستند.
نگاشت ورودی به خروجی. وظایف پیشبینی شامل استفاده از مدل عمیق برای برآورد مقدار یا دسته هدف بر اساس سیگنال ورودی است. این چارچوب کلاسیک یادگیری نظارتشده است که مدل روی جفتهای ورودی و خروجی واقعی آموزش داده میشود.
کاربردهای متنوع:
- طبقهبندی تصویر: اختصاص یک برچسب به تصویر (مانند ResNet، ViT).
- شناسایی اشیاء: تشخیص اشیاء و جعبههای محدودکننده آنها در تصویر (مانند SSD با شبکههای کانولوشنال).
- بخشبندی معنایی: طبقهبندی هر پیکسل در تصویر (معمولاً با شبکههای کانولوشنال و اتصالات پرش).
- شناخت گفتار: تبدیل سیگنال صوتی به متن (مانند مدلهای مبتنی بر ترنسفورمر مانند Whisper).
- یادگیری تقویتی: یادگیری اقدامات بهینه در محیط برای بیشینهسازی پاداش (مانند DQN با شبکههای کانولوشنال برای برآورد ارزش حالت-عمل).
استفاده از پیشآموزش. برای وظایفی با دادههای برچسبخورده محدود، مدلهای پیشآموزشدیده روی مجموعه دادههای بزرگ مرتبط (مانند طبقهبندی تصویر یا مدلسازی زبان) میتوانند بهصورت دقیقتر تنظیم شوند و عملکرد را به طور قابل توجهی بهبود بخشند.
۹. یادگیری عمیق امکان سنتز پیچیده را فراهم میکند
دسته دوم کاربردها که از پیشبینی متمایز است، سنتز است.
مدلسازی توزیع دادهها. وظایف سنتز شامل تولید نمونههای جدیدی است که شبیه دادههای آموزشی باشند. این نیازمند یادگیری توزیع احتمالی دادهها است، نه فقط نگاشت ورودی به خروجی.
تولید متن. مدلهای خودرگرسیو، بهویژه مدلهای بزرگ مبتنی بر ترنسفورمر مانند GPT، در تولید متن شبیه انسان بسیار موفقاند. این مدلها برای پیشبینی توکن بعدی در توالی آموزش دیدهاند و ساختارهای زبانی پیچیده و دانش جهان را میآموزند که امکان تولید متن منسجم و مرتبط با زمینه را فراهم میکند، از جمله قابلیتهای یادگیری چندنمونهای.
تولید تصویر. مدلهای انتشار (Diffusion) رویکرد قدرتمندی برای سنتز تصویر هستند. آنها فرایند تدریجی تخریب دادهها (مانند افزودن نویز) را معکوس میکنند که دادهها را به توزیع ساده تبدیل میکند. با شروع از نویز تصادفی و اعمال گامهای یادگرفته شده حذف نویز به صورت تکراری، تصاویر با کیفیت و متنوع تولید میکنند که اغلب میتوانند بر اساس توصیفات متنی یا ورودیهای دیگر شرطی شوند.
۱۰. این حوزه فراتر از مدلهای اصلی و یادگیری نظارتشده گسترش مییابد
چنین مدلهایی بخشی از دسته بزرگتری از روشها هستند که تحت عنوان یادگیری خودنظارتی شناخته میشوند و تلاش میکنند از دادههای بدون برچسب بهره ببرند.
فراتر از معماریهای استاندارد. در حالی که MLPها، شبکههای کانولوشنال و ترنسفورمرها برجستهاند، معماریهای دیگری نیز برای انواع دادههای مختلف وجود دارد، مانند شبکههای عصبی بازگشتی (RNN) برای توالیها که تاریخی مهم دارند و شبکههای عصبی گراف (GNN) برای دادههای غیرشبکهای مانند شبکههای اجتماعی یا مولکولها.
یادگیری نمایهها. اتوانکودرها، از جمله اتوانکودرهای واریاسیونال (VAE)، بر یادگیری نمایههای فشرده و معنادار دادهها تمرکز دارند که برای کاهش ابعاد یا مدلسازی مولد مفید است. شبکههای مولد تخاصمی (GAN) با فرایند رقابتی بین مولد و تشخیصدهنده نمونههای واقعی تولید میکنند.
یادگیری خودنظارتی. روند مهمی در استفاده از حجم عظیمی از دادههای بدون برچسب از طریق یادگیری خودنظارتی وجود دارد. مدلها روی وظایف کمکی آموزش میبینند که «برچسب» آنها به طور خودکار از دادهها استخراج میشود (مثلاً پیشبینی بخشهای ماسکشده ورودی). این پیشآموزش نمایههای عمومی قدرتمندی میآموزد که سپس میتوانند روی مجموعه دادههای برچسبخورده کوچکتر برای وظایف خاص تنظیم دقیق شوند و وابستگی به برچسبگذاری انسانی پرهزینه را کاهش دهند.
آخرین بهروزرسانی::
نقد و بررسی
کتاب کوچک یادگیری عمیق عمدتاً با بازخوردهای مثبت مواجه شده و بهخاطر ارائهی خلاصهای موجز از مفاهیم یادگیری عمیق مورد تحسین قرار گرفته است. خوانندگان از قالب جمعوجور و اطلاعات فشردهی آن استقبال میکنند، هرچند برخی آن را برای مبتدیان کمی پیشرفته میدانند. این کتاب موضوعات بنیادین، شبکههای عصبی و معماریهای مدل را با نمودارهای واضح پوشش میدهد. اگرچه برخی خوانندگان با محتوای ریاضیاتی آن دچار دشواری میشوند، بسیاری آن را مرجعی ارزشمند میدانند. نسخهی رایگان PDF کتاب نیز بهعنوان هدیهای اندیشمندانه مورد توجه قرار گرفته است. برخی نقدها به کوتاهی کتاب اشاره دارند و پیشنهاد میکنند برای درک جامعتر، بهتر است همراه با منابع دیگر مطالعه شود.
Similar Books









