Name: The Little Book of Deep Learning
Rating: 4.6 (18 reviews)

Summary Reviews Similar Author

Try Full Access for 7 Days

Unlock listening & more!

Continue

نکات کلیدی

۱. یادگیری عمیق با کمینه‌سازی تابع زیان از داده‌ها می‌آموزد

در این مرحله، آموزش مدل شامل یافتن مقداری w∗ است که تابع زیان ℒ(w∗) را کمینه می‌کند.

یادگیری از داده‌ها. یادگیری عمیق، شاخه‌ای از یادگیری ماشین، بر مدل‌هایی تمرکز دارد که مستقیماً از داده‌ها نمایه‌هایی می‌آموزند. به جای کدنویسی دستی قوانین، مجموعه‌ای از ورودی‌ها و خروجی‌های مطلوب جمع‌آوری می‌شود و سپس مدلی پارامتری آموزش داده می‌شود تا رابطه بین آن‌ها را تقریب بزند. رفتار مدل توسط پارامترهای قابل آموزش که اغلب وزن نامیده می‌شوند، تنظیم می‌شود.

فرموله کردن کیفیت. هدف یافتن مقادیر پارامترهایی است که مدل را در پیش‌بینی داده‌های دیده‌نشده «خوب» کنند. این هدف با استفاده از تابع زیان ℒ(w) که میزان خطای مدل روی داده‌های آموزشی را برای پارامترهای w اندازه می‌گیرد، رسمی می‌شود. توابع زیان رایج شامل میانگین مربعات خطا برای رگرسیون و آنتروپی متقاطع برای طبقه‌بندی است.

آموزش یعنی بهینه‌سازی. وظیفه اصلی آموزش یافتن پارامترهای بهینه w* است که این تابع زیان را کمینه می‌کنند. این فرایند بهینه‌سازی محور اصلی یادگیری عمیق است و انتخاب معماری مدل و تکنیک‌های آموزش به شدت تحت تأثیر نیاز به انجام این کمینه‌سازی به صورت کارآمد و مؤثر، به‌ویژه برای داده‌های پیچیده و با ابعاد بالا، قرار دارد.

۲. محاسبات کارآمد روی سخت‌افزار تخصصی حیاتی است

واحدهای پردازش گرافیکی (GPU) نقش مهمی در موفقیت این حوزه داشته‌اند، زیرا امکان اجرای چنین محاسباتی را روی سخت‌افزاری مقرون‌به‌صرفه فراهم کرده‌اند.

شتاب‌دهی سخت‌افزاری. یادگیری عمیق شامل محاسبات عظیمی است که عمدتاً عملیات جبر خطی روی داده‌های بزرگ هستند. معماری موازی GPUها که در اصل برای گرافیک طراحی شده بود، به‌خوبی برای این وظایف مناسب است و امکان یادگیری عمیق در مقیاس بزرگ را روی سخت‌افزارهای در دسترس فراهم کرده است. تراشه‌های تخصصی مانند TPUها نیز این روند را بهینه‌تر کرده‌اند.

اهمیت سلسله‌مراتب حافظه. محاسبات کارآمد روی GPU نیازمند مدیریت دقیق داده‌ها است. گلوگاه معمولاً انتقال داده بین حافظه CPU و GPU و همچنین درون سلسله‌مراتب حافظه GPU است. پردازش داده‌ها در دسته‌هایی که در حافظه سریع GPU جا می‌شوند، این انتقال‌ها را به حداقل می‌رساند و امکان محاسبه موازی روی نمونه‌ها را فراهم می‌کند.

تنسورها کلید هستند. داده‌ها، پارامترهای مدل و نتایج میانی به صورت تنسورها، آرایه‌های چندبعدی، سازماندهی می‌شوند. چارچوب‌های یادگیری عمیق به طور مؤثر تنسورها را مدیریت می‌کنند و جزئیات حافظه سطح پایین را پنهان می‌سازند و عملیات پیچیده‌ای مانند تغییر شکل و استخراج را بدون کپی‌برداری پرهزینه داده‌ها ممکن می‌سازند. این رویکرد مبتنی بر تنسور اساس دستیابی به توان محاسباتی بالا است.

۳. گرادیان نزولی و پس‌انتشار، موتور آموزش هستند

ترکیب این محاسبات با روش گرادیان نزولی، پس‌انتشار نامیده می‌شود.

کمینه‌سازی زیان. از آنجا که تابع زیان مدل‌های عمیق معمولاً پیچیده و فاقد حل بسته ساده است، گرادیان نزولی الگوریتم اصلی بهینه‌سازی است. این روش با پارامترهای تصادفی شروع می‌کند و آن‌ها را به صورت تکراری با برداشتن گام‌های کوچک در جهت مخالف گرادیان زیان، که جهت بیشترین کاهش است، به‌روزرسانی می‌کند.

به‌روزرسانی‌های تصادفی. محاسبه دقیق گرادیان روی کل داده‌ها از نظر محاسباتی سنگین است. گرادیان نزولی تصادفی (SGD) با استفاده از دسته‌های کوچک داده، تخمینی پرنوسان اما بدون سوگیری از گرادیان ارائه می‌دهد که امکان به‌روزرسانی‌های بیشتر پارامترها را با همان هزینه محاسباتی فراهم می‌کند. این روش دسته‌بندی کوچک استاندارد است و اغلب با بهینه‌سازهایی مانند Adam بهبود می‌یابد.

پس‌انتشار گرادیان‌ها را محاسبه می‌کند. پس‌انتشار الگوریتمی است که به طور مؤثر گرادیان تابع زیان نسبت به تمام پارامترهای مدل را محاسبه می‌کند. این الگوریتم با استفاده از قاعده زنجیره‌ای حساب دیفرانسیل به صورت معکوس از لایه‌های شبکه عبور می‌کند و گرادیان‌ها را لایه به لایه محاسبه می‌کند. این عبور معکوس همراه با عبور رو به جلو که خروجی مدل را محاسبه می‌کند، حلقه محاسباتی اصلی آموزش یادگیری عمیق را تشکیل می‌دهد.

۴. عمق و مقیاس، قابلیت‌های قدرتمند را آزاد می‌کنند

شواهد تجربی فراوانی نشان می‌دهد که عملکرد... با افزایش داده‌ها طبق قوانین مقیاس‌بندی قابل توجه بهبود می‌یابد...

ارزش عمق. مدل‌های عمیق که از لایه‌های متعدد تشکیل شده‌اند، می‌توانند نمایه‌های پیچیده‌تر و سلسله‌مراتبی نسبت به مدل‌های کم‌عمق بیاموزند. اگرچه از نظر نظری یک شبکه تک‌لایه می‌تواند هر تابعی را تقریب بزند، اما معماری‌های عمیق به طور تجربی عملکردی در سطح پیشرفته در حوزه‌های مختلف ارائه می‌دهند و معمولاً به ده‌ها تا صدها لایه نیاز دارند.

قوانین مقیاس‌بندی. یافته مهم این است که عملکرد مدل معمولاً به طور قابل پیش‌بینی با افزایش مقیاس بهبود می‌یابد: داده‌های بیشتر، پارامترهای بیشتر و محاسبات بیشتر. این موضوع روند ساخت مدل‌های عظیم‌تر را که روی مجموعه داده‌های بسیار بزرگ آموزش داده می‌شوند، تقویت کرده و به پیشرفت‌هایی مانند مدل‌های زبان بزرگ منجر شده است.

مزایای مقیاس. مدل‌های بزرگ با وجود ظرفیت عظیم خود، اغلب تعمیم خوبی دارند و مفاهیم سنتی بیش‌برازش را به چالش می‌کشند. مقیاس آن‌ها همراه با تکنیک‌های آموزش توزیع‌شده مانند SGD روی داده‌های عظیم، امکان یادگیری الگوها و دانش پیچیده‌ای را فراهم می‌کند که مدل‌های کوچک‌تر قادر به آن نیستند، هرچند با هزینه‌های محاسباتی و مالی قابل توجه.

۵. مدل‌های عمیق از لایه‌های قابل استفاده مجدد ساخته می‌شوند

لایه‌ها عملیات پیچیده و مرکب تنسوری استانداردی هستند که به صورت تجربی به عنوان عمومی و کارآمد شناخته شده‌اند.

اجزای مدولار. مدل‌های عمیق با انباشتن یا اتصال انواع مختلف لایه‌ها ساخته می‌شوند که عملیات تنسوری پارامتری و قابل استفاده مجدد هستند. این مدولار بودن طراحی مدل را ساده می‌کند و امکان ساخت معماری‌های پیچیده از بلوک‌های ساختمانی شناخته‌شده را فراهم می‌آورد.

انواع اصلی لایه‌ها:

خطی/کاملاً متصل: انجام تبدیلات آفاین (ضرب ماتریسی به‌علاوه بایاس).
کانولوشنال: اعمال فیلترهای آفاین محلی و مشترک در ابعاد فضایی یا زمانی، که الگوهای محلی را می‌گیرند و نامتغیری ترجمه‌ای را ممکن می‌سازند.
توابع فعال‌سازی: افزودن غیرخطی بودن (مانند ReLU، GELU) که برای یادگیری نگاشت‌های پیچیده ضروری است.
پولینگ: کاهش اندازه فضایی با خلاصه‌سازی نواحی محلی (مانند ماکس پولینگ).
لایه‌های نرمال‌سازی: تثبیت آموزش با نرمال‌سازی آمار فعال‌سازی‌ها (مانند Batch Norm، Layer Norm).
دراپ‌اوت: تنظیم مدل با صفر کردن تصادفی فعال‌سازی‌ها در طول آموزش.
اتصالات پرش: اجازه می‌دهند سیگنال‌ها از لایه‌ها عبور کنند و جریان گرادیان و آموزش شبکه‌های بسیار عمیق را تسهیل می‌کنند.

مهندسی برای بهینه‌سازی. بسیاری از طراحی‌های لایه مانند اتصالات پرش و لایه‌های نرمال‌سازی به طور خاص برای کاهش چالش‌های آموزش مانند مشکل ناپدید شدن گرادیان توسعه یافته‌اند و تمرکز را از بهینه‌سازی عمومی به طراحی مدل‌هایی که ذاتاً آسان‌تر بهینه می‌شوند، منتقل کرده‌اند.

۶. مکانیزم‌های توجه اطلاعات دور را به هم متصل می‌کنند

لایه‌های توجه به طور خاص این مشکل را با محاسبه امتیاز توجه برای هر جزء از تنسور خروجی نسبت به هر جزء از تنسور ورودی، بدون محدودیت محلی، حل می‌کنند...

فراتر از محلی بودن. در حالی که لایه‌های کانولوشنال در پردازش اطلاعات محلی بسیار خوب عمل می‌کنند، بسیاری از وظایف نیازمند ادغام اطلاعات از بخش‌های دوردست سیگنال هستند، مانند درک وابستگی بین کلمات دور در جمله یا ارتباط اشیاء در بخش‌های مختلف تصویر. لایه‌های توجه مکانیزمی برای این تعامل جهانی فراهم می‌کنند.

پرسش، کلید، مقدار. عملگر اصلی توجه امتیازهایی را محاسبه می‌کند که نشان‌دهنده ارتباط هر عنصر «پرسش» با هر عنصر «کلید» است، معمولاً با ضرب داخلی. این امتیازها سپس برای محاسبه میانگین وزنی عناصر «مقدار» استفاده می‌شوند، به طوری که هر پرسش می‌تواند به اطلاعات مرتبط در سراسر توالی ورودی «توجه» کند.

توجه چندسر. لایه توجه چندسر این قابلیت را با انجام چندین محاسبه توجه به صورت موازی («سرها») با تبدیلات خطی یادگرفته شده متفاوت برای پرسش‌ها، کلیدها و مقدارها افزایش می‌دهد. نتایج این سرها به هم متصل و به صورت خطی ترکیب می‌شوند، که به مدل اجازه می‌دهد به طور همزمان به اطلاعات از زیرفضای‌های مختلف نمایه در موقعیت‌های متفاوت توجه کند. این مکانیزم پایه معماری‌های مدرن مانند ترنسفورمر است.

۷. معماری‌های کلیدی ساختارهای داده متفاوت را هدف می‌گیرند

معماری انتخابی برای چنین وظایفی که در پیشرفت‌های اخیر یادگیری عمیق نقش اساسی داشته، ترنسفورمر است...

MLPها برای داده‌های ساده. پرسپترون چندلایه (MLP)، انبوهی از لایه‌های کاملاً متصل با توابع فعال‌سازی، ساده‌ترین معماری عمیق است. اگرچه از نظر نظری تقریب‌کننده‌های جهانی هستند، اما برای داده‌های ساختاریافته با ابعاد بالا به دلیل تعداد زیاد پارامترها و نبود گرایش القایی عملی نیستند.

شبکه‌های کانولوشنال برای داده‌های شبکه‌ای. شبکه‌های کانولوشنال (ConvNets) استاندارد برای داده‌های شبکه‌ای مانند تصاویر هستند. آن‌ها با استفاده از لایه‌های کانولوشنال و پولینگ، نمایه‌های سلسله‌مراتبی و نامتغیر ترجمه‌ای می‌سازند که معمولاً با لایه‌های کاملاً متصل برای وظایفی مانند طبقه‌بندی پایان می‌یابند. معماری‌هایی مانند LeNet و ResNet (که اتصالات پرش برای عمق دارد) نمونه‌های برجسته‌اند.

ترنسفورمرها برای توالی‌ها. ترنسفورمرها که عمدتاً بر پایه لایه‌های توجه ساخته شده‌اند، برای داده‌های توالی مانند متن و به طور فزاینده‌ای برای تصاویر غالب شده‌اند. توانایی آن‌ها در مدل‌سازی وابستگی‌های بلندمدت به صورت جهانی، همراه با کدگذاری موقعیتی برای حفظ ترتیب توالی، آن‌ها را بسیار مؤثر ساخته است. ساختار رمزگذار-رمزگشا برای ترجمه و مدل‌های فقط رمزگشا مانند GPT برای تولید، نمونه‌های کلیدی هستند.

۸. یادگیری عمیق در وظایف پیش‌بینی برجسته است

دسته اول کاربردها... نیازمند پیش‌بینی مقدار ناشناخته‌ای از سیگنال موجود هستند.

نگاشت ورودی به خروجی. وظایف پیش‌بینی شامل استفاده از مدل عمیق برای برآورد مقدار یا دسته هدف بر اساس سیگنال ورودی است. این چارچوب کلاسیک یادگیری نظارت‌شده است که مدل روی جفت‌های ورودی و خروجی واقعی آموزش داده می‌شود.

کاربردهای متنوع:

طبقه‌بندی تصویر: اختصاص یک برچسب به تصویر (مانند ResNet، ViT).
شناسایی اشیاء: تشخیص اشیاء و جعبه‌های محدودکننده آن‌ها در تصویر (مانند SSD با شبکه‌های کانولوشنال).
بخش‌بندی معنایی: طبقه‌بندی هر پیکسل در تصویر (معمولاً با شبکه‌های کانولوشنال و اتصالات پرش).
شناخت گفتار: تبدیل سیگنال صوتی به متن (مانند مدل‌های مبتنی بر ترنسفورمر مانند Whisper).
یادگیری تقویتی: یادگیری اقدامات بهینه در محیط برای بیشینه‌سازی پاداش (مانند DQN با شبکه‌های کانولوشنال برای برآورد ارزش حالت-عمل).

استفاده از پیش‌آموزش. برای وظایفی با داده‌های برچسب‌خورده محدود، مدل‌های پیش‌آموزش‌دیده روی مجموعه داده‌های بزرگ مرتبط (مانند طبقه‌بندی تصویر یا مدل‌سازی زبان) می‌توانند به‌صورت دقیق‌تر تنظیم شوند و عملکرد را به طور قابل توجهی بهبود بخشند.

۹. یادگیری عمیق امکان سنتز پیچیده را فراهم می‌کند

دسته دوم کاربردها که از پیش‌بینی متمایز است، سنتز است.

مدل‌سازی توزیع داده‌ها. وظایف سنتز شامل تولید نمونه‌های جدیدی است که شبیه داده‌های آموزشی باشند. این نیازمند یادگیری توزیع احتمالی داده‌ها است، نه فقط نگاشت ورودی به خروجی.

تولید متن. مدل‌های خودرگرسیو، به‌ویژه مدل‌های بزرگ مبتنی بر ترنسفورمر مانند GPT، در تولید متن شبیه انسان بسیار موفق‌اند. این مدل‌ها برای پیش‌بینی توکن بعدی در توالی آموزش دیده‌اند و ساختارهای زبانی پیچیده و دانش جهان را می‌آموزند که امکان تولید متن منسجم و مرتبط با زمینه را فراهم می‌کند، از جمله قابلیت‌های یادگیری چندنمونه‌ای.

تولید تصویر. مدل‌های انتشار (Diffusion) رویکرد قدرتمندی برای سنتز تصویر هستند. آن‌ها فرایند تدریجی تخریب داده‌ها (مانند افزودن نویز) را معکوس می‌کنند که داده‌ها را به توزیع ساده تبدیل می‌کند. با شروع از نویز تصادفی و اعمال گام‌های یادگرفته شده حذف نویز به صورت تکراری، تصاویر با کیفیت و متنوع تولید می‌کنند که اغلب می‌توانند بر اساس توصیفات متنی یا ورودی‌های دیگر شرطی شوند.

۱۰. این حوزه فراتر از مدل‌های اصلی و یادگیری نظارت‌شده گسترش می‌یابد

چنین مدل‌هایی بخشی از دسته بزرگ‌تری از روش‌ها هستند که تحت عنوان یادگیری خودنظارتی شناخته می‌شوند و تلاش می‌کنند از داده‌های بدون برچسب بهره ببرند.

فراتر از معماری‌های استاندارد. در حالی که MLPها، شبکه‌های کانولوشنال و ترنسفورمرها برجسته‌اند، معماری‌های دیگری نیز برای انواع داده‌های مختلف وجود دارد، مانند شبکه‌های عصبی بازگشتی (RNN) برای توالی‌ها که تاریخی مهم دارند و شبکه‌های عصبی گراف (GNN) برای داده‌های غیرشبکه‌ای مانند شبکه‌های اجتماعی یا مولکول‌ها.

یادگیری نمایه‌ها. اتوانکودرها، از جمله اتوانکودرهای واریاسیونال (VAE)، بر یادگیری نمایه‌های فشرده و معنادار داده‌ها تمرکز دارند که برای کاهش ابعاد یا مدل‌سازی مولد مفید است. شبکه‌های مولد تخاصمی (GAN) با فرایند رقابتی بین مولد و تشخیص‌دهنده نمونه‌های واقعی تولید می‌کنند.

یادگیری خودنظارتی. روند مهمی در استفاده از حجم عظیمی از داده‌های بدون برچسب از طریق یادگیری خودنظارتی وجود دارد. مدل‌ها روی وظایف کمکی آموزش می‌بینند که «برچسب» آن‌ها به طور خودکار از داده‌ها استخراج می‌شود (مثلاً پیش‌بینی بخش‌های ماسک‌شده ورودی). این پیش‌آموزش نمایه‌های عمومی قدرتمندی می‌آموزد که سپس می‌توانند روی مجموعه داده‌های برچسب‌خورده کوچک‌تر برای وظایف خاص تنظیم دقیق شوند و وابستگی به برچسب‌گذاری انسانی پرهزینه را کاهش دهند.

آخرین به‌روزرسانی:: May 17, 2025

Report Issue

Want to read the full book?

Amazon Kindle Audible

نقد و بررسی

4.34 از 5

میانگین از 127 امتیازات از Goodreads و Amazon.

کتاب کوچک یادگیری عمیق عمدتاً با بازخوردهای مثبت مواجه شده و به‌خاطر ارائه‌ی خلاصه‌ای موجز از مفاهیم یادگیری عمیق مورد تحسین قرار گرفته است. خوانندگان از قالب جمع‌وجور و اطلاعات فشرده‌ی آن استقبال می‌کنند، هرچند برخی آن را برای مبتدیان کمی پیشرفته می‌دانند. این کتاب موضوعات بنیادین، شبکه‌های عصبی و معماری‌های مدل را با نمودارهای واضح پوشش می‌دهد. اگرچه برخی خوانندگان با محتوای ریاضیاتی آن دچار دشواری می‌شوند، بسیاری آن را مرجعی ارزشمند می‌دانند. نسخه‌ی رایگان PDF کتاب نیز به‌عنوان هدیه‌ای اندیشمندانه مورد توجه قرار گرفته است. برخی نقدها به کوتاهی کتاب اشاره دارند و پیشنهاد می‌کنند برای درک جامع‌تر، بهتر است همراه با منابع دیگر مطالعه شود.

Similar Books

The Surprising Rebirth of Belief in God

Justin Brierley

Why New Atheism Grew Old and Secular Thinkers Are Considering Christianity Again

The Remarkable Story of Risk

Curiosity, Exploration, and Discovery at the Dawn of AI

The Life of John D. Rockefeller, Sr.

Jeff Bezos and the Age of Amazon

The Elegant Math Behind Modern AI

The 33 Laws of Business and Life

4.17

(10.3K)

The Technological Republic

Alexander C. Karp

Hard Power, Soft Belief, and the Future of the West

Building Applications with Foundation Models

4.56

(196)

درباره نویسنده

فرانسوا فلوره استاد تمام و رئیس گروه یادگیری ماشین در دپارتمان علوم کامپیوتر دانشگاه ژنو است، جایی که کرسی یادگیری ماشین را بر عهده دارد. او دکترای ریاضیات خود را در سال ۲۰۰۰ از مؤسسه INRIA و دانشگاه پاریس شش دریافت کرده است. فلوره با ثبت چندین اختراع در حوزه یادگیری ماشین سهم قابل توجهی داشته و یکی از بنیان‌گذاران شرکت Neural Concept SA است؛ شرکتی که در زمینه ارائه راهکارهای یادگیری عمیق برای طراحی مهندسی تخصص دارد. فعالیت‌های او بر توسعه و کاربرد تکنیک‌های پیشرفته یادگیری ماشین در حوزه‌های مختلف متمرکز است.

Compare Features	Free	Pro
📖 Read Summaries Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries Listen to unlimited summaries in 40 languages	—
❤️ Unlimited Bookmarks Free users are limited to 4	—
📜 Unlimited History Free users are limited to 4	—
📥 Unlimited Downloads Free users are limited to 1	—