Facebook Pixel
Searching...
فارسی
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Machine Learning Simplified

Machine Learning Simplified

A Gentle Introduction to Supervised Learning
توسط Andrew Wolf 2022 109 صفحات
4.89
100+ امتیازها
گوش دادن
Listen to Summary

نکات کلیدی

1. یادگیری نظارت‌شده پیش‌بینی ناشناخته‌ها از شناخته‌ها.

به‌طور کلی، هدف یادگیری ماشین نظارت‌شده پیش‌بینی مقادیر ناشناخته بر اساس مقادیر شناخته‌شده است، مانند پیش‌بینی قیمت فروش یک خانه بر اساس موقعیت و متراژ آن، یا پیش‌بینی دسته‌ای از میوه‌ها با توجه به عرض و ارتفاع آن‌ها.

پیش‌بینی کلیدی است. یادگیری ماشین نظارت‌شده در پیش‌بینی نتایج بر اساس اطلاعات موجود بسیار موفق است. این روش از داده‌های تاریخی برای برآورد مقادیر یا دسته‌های آینده استفاده می‌کند. این قدرت پیش‌بینی در کاربردهای مختلف، از مالی تا بهداشت و درمان، ارزشمند است.

طبقه‌بندی در مقابل رگرسیون. یادگیری نظارت‌شده به دو نوع اصلی از مشکلات می‌پردازد:

  • طبقه‌بندی: پیش‌بینی یک دسته (مثلاً، هرزنامه یا غیرهرزنامه).
  • رگرسیون: پیش‌بینی یک مقدار عددی (مثلاً، قیمت خانه).

یادگیری از داده‌های گذشته. هسته‌ی یادگیری نظارت‌شده در توانایی آن برای شناسایی الگوها در مجموعه‌های داده برچسب‌گذاری‌شده نهفته است. با تحلیل این الگوها، مدل می‌تواند تعمیم دهد و پیش‌بینی‌های دقیقی بر روی داده‌های جدید و نادیده انجام دهد. این فرآیند یادگیری از مثال‌ها، یادگیری نظارت‌شده را از سایر رویکردهای هوش مصنوعی متمایز می‌کند.

2. یادگیری ماشین وظایف را از داده‌ها با شناسایی الگوها می‌آموزد.

ایده‌ی اصلی یادگیری ماشین، یا ML، یادگیری انجام یک وظیفه خاص از داده‌ها است.

شناسایی الگو. الگوریتم‌های یادگیری ماشین برای شناسایی و استخراج الگوهای معنادار از داده‌ها طراحی شده‌اند. این الگوها می‌توانند روابط پیچیده‌ای بین متغیرها باشند که برای انسان‌ها دشوار است. توانایی یادگیری خودکار این الگوها، یادگیری ماشین را بسیار قدرتمند می‌سازد.

یادگیری نظارت‌شده در مقابل یادگیری بدون نظارت. یادگیری ماشین به‌طور کلی به دو دسته تقسیم می‌شود:

  • یادگیری نظارت‌شده: نیاز به داده‌های برچسب‌گذاری‌شده برای آموزش یک مدل دارد.
  • یادگیری بدون نظارت: به بررسی داده‌های بدون برچسب برای کشف ساختارهای پنهان می‌پردازد.

فراتر از جادو. با وجود تصورات علمی تخیلی، یادگیری ماشین جادویی نیست. این یک فرآیند سیستماتیک برای شناسایی و استخراج الگوها از داده‌ها است. این فرآیند شامل بهینه‌سازی ریاضی و تحلیل آماری است که داده‌های خام را به بینش‌های قابل اقدام تبدیل می‌کند.

3. خط لوله یادگیری ماشین داده‌های خام را به پیش‌بینی‌های قابل اقدام تبدیل می‌کند.

برای انجام یادگیری ماشین در دنیای واقعی، معمولاً به چند مرحله متوالی نیاز داریم که یک خط لوله را تشکیل می‌دهند.

مراحل متوالی. خط لوله یادگیری ماشین مجموعه‌ای از مراحل است که داده‌های خام را به یک مدل قابل استقرار تبدیل می‌کند. این مراحل شامل استخراج داده، آماده‌سازی داده، ساخت مدل و استقرار مدل است. هر مرحله برای اطمینان از دقت و قابلیت اطمینان پیش‌بینی‌های نهایی حیاتی است.

علم داده و MLOps. خط لوله یادگیری ماشین معمولاً شامل متخصصان مختلف است:

  • دانشمندان داده: بر روی استخراج و آماده‌سازی داده تمرکز دارند.
  • مهندسان MLOps: بر روی استقرار و ادغام مدل تمرکز دارند.

کاربرد در دنیای واقعی. خط لوله یادگیری ماشین به پیچیدگی‌های داده‌های دنیای واقعی می‌پردازد که معمولاً نامنظم و غیرساختاریافته هستند. با پردازش سیستماتیک داده‌ها، خط لوله اطمینان می‌دهد که مدل ورودی با کیفیت بالا دریافت می‌کند که منجر به پیش‌بینی‌های دقیق‌تر و قابل اعتمادتر می‌شود.

4. رگرسیون خطی روابط را با خط بهترین برازش مدل‌سازی می‌کند.

پیدا کردن خطی که بهترین تطابق را با داده‌ها دارد، به‌عنوان رگرسیون خطی شناخته می‌شود و یکی از محبوب‌ترین ابزارها در آمار، اقتصادسنجی و بسیاری از زمینه‌های دیگر است.

روابط خطی. رگرسیون خطی رابطه بین یک متغیر هدف و یک یا چند متغیر پاسخ را با استفاده از یک معادله خطی مدل‌سازی می‌کند. این معادله نمایانگر خط بهترین برازش است که تفاوت بین مقادیر پیش‌بینی‌شده و واقعی را به حداقل می‌رساند. رگرسیون خطی ابزاری بنیادی در آمار و یادگیری ماشین است.

پارامترها و پیش‌بینی‌ها. معادله رگرسیون خطی دارای دو پارامتر کلیدی است:

  • شیب: تغییر در متغیر هدف را برای هر واحد تغییر در متغیر پاسخ نشان می‌دهد.
  • عرض از مبدأ: نمایانگر مقدار متغیر هدف زمانی است که متغیر پاسخ صفر باشد.

کاربردها. رگرسیون خطی به‌طور گسترده‌ای برای پیش‌بینی مقادیر عددی، مانند:

  • قیمت خانه‌ها بر اساس متراژ.
  • ارقام فروش بر اساس هزینه‌های تبلیغاتی.
  • تقاضای مشتری بر اساس کمپین‌های بازاریابی استفاده می‌شود.

5. نزول گرادیان مدل‌ها را با حداقل کردن توابع هزینه بهینه می‌کند.

در سطح بالا، یادگیری به یافتن مجموعه‌ای از پارامترها که تابع هزینه را بر روی داده‌های آموزشی به حداقل می‌رساند، معادل است.

بهینه‌سازی ریاضی. آموزش مدل یادگیری ماشین اساساً یک مسئله بهینه‌سازی ریاضی است. هدف یافتن مجموعه‌ای از پارامترها است که تابع هزینه را به حداقل می‌رساند، که تفاوت بین پیش‌بینی‌های مدل و مقادیر واقعی را اندازه‌گیری می‌کند. نزول گرادیان یک الگوریتم قدرتمند برای حل این مسئله بهینه‌سازی است.

فرآیند تکراری. نزول گرادیان یک الگوریتم تکراری است که با یک حدس اولیه برای پارامترها شروع می‌شود و سپس به‌طور مکرر آن‌ها را در جهت شیب تندترین نزول تنظیم می‌کند. این فرآیند ادامه می‌یابد تا الگوریتم به یک مقدار حداقلی از تابع هزینه همگرا شود.

نرخ یادگیری. نرخ یادگیری یک پارامتر حیاتی است که اندازه‌ی گام‌های برداشته‌شده در طول نزول گرادیان را کنترل می‌کند. نرخ یادگیری که خیلی کوچک باشد می‌تواند منجر به همگرایی کند شود، در حالی که نرخ یادگیری که خیلی بزرگ باشد می‌تواند باعث شود الگوریتم حداقل را از دست بدهد.

6. گسترش پایه پیچیدگی مدل را با ویژگی‌های چندجمله‌ای افزایش می‌دهد.

این بخش به یک تکنیک قدرتمند به نام گسترش پایه می‌پردازد که به‌طور مؤثری ویژگی‌های غیرخطی را به مدل اضافه می‌کند.

روابط غیرخطی. مدل‌های رگرسیون خطی محدود به ضبط روابط خطی بین متغیرها هستند. گسترش پایه یک تکنیک است که به ما اجازه می‌دهد روابط غیرخطی را با افزودن ویژگی‌های چندجمله‌ای به مدل مدل‌سازی کنیم. این امر پیچیدگی مدل را افزایش می‌دهد و به آن اجازه می‌دهد الگوهای داده‌های پیچیده‌تری را تطبیق دهد.

ویژگی‌های چندجمله‌ای. ویژگی‌های چندجمله‌ای با بالا بردن ویژگی‌های اصلی به توان‌های مختلف ایجاد می‌شوند. به‌عنوان مثال، اگر ویژگی اصلی x باشد، ویژگی‌های چندجمله‌ای x^2، x^3، x^4 و غیره خواهند بود. این ویژگی‌های چندجمله‌ای سپس به مدل رگرسیون خطی اضافه می‌شوند.

بیش‌برازش. در حالی که گسترش پایه می‌تواند دقت مدل را بهبود بخشد، همچنین می‌تواند منجر به بیش‌برازش شود. بیش‌برازش زمانی رخ می‌دهد که مدل داده‌های آموزشی را به‌خوبی یاد بگیرد و قادر به تعمیم به داده‌های جدید و نادیده نباشد. تکنیک‌های منظم‌سازی می‌توانند برای جلوگیری از بیش‌برازش استفاده شوند.

7. منظم‌سازی از بیش‌برازش با جریمه کردن پیچیدگی مدل جلوگیری می‌کند.

در سطح بالا، منظم‌سازی محدودیتی بر مجموع وزن‌ها قرار می‌دهد تا وزن‌ها کوچک بمانند.

تابع هزینه جریمه‌شده. منظم‌سازی یک تکنیک است که از بیش‌برازش جلوگیری می‌کند با افزودن یک عبارت جریمه به تابع هزینه. این عبارت جریمه مدل را از اختصاص وزن‌های بزرگ به ویژگی‌ها بازمی‌دارد، که پیچیدگی مدل را کاهش می‌دهد و توانایی آن را برای تعمیم بهبود می‌بخشد.

منظم‌سازی L1 و L2. دو نوع اصلی منظم‌سازی وجود دارد:

  • منظم‌سازی L1 (Lasso): جریمه‌ای متناسب با مقدار مطلق وزن‌ها اضافه می‌کند.
  • منظم‌سازی L2 (Ridge): جریمه‌ای متناسب با مربع وزن‌ها اضافه می‌کند.

انتخاب قدرت منظم‌سازی. قدرت منظم‌سازی با پارامتری به نام لامبدا کنترل می‌شود. مقدار بزرگ‌تر لامبدا منجر به منظم‌سازی قوی‌تر و مدلی ساده‌تر می‌شود. مقدار بهینه لامبدا می‌تواند با استفاده از اعتبارسنجی متقابل تعیین شود.

8. تجزیه و تحلیل بایاس-واریانس منابع خطای مدل را تشخیص می‌دهد.

در این فصل، ما مشکلات بیش‌برازش و کم‌برازش را با استفاده از یک تجزیه ریاضی از خطا به نام تجزیه بایاس-واریانس به‌طور دقیق‌تری تحلیل می‌کنیم.

تجزیه خطا. تجزیه بایاس-واریانس یک چارچوب ریاضی برای درک منابع خطا در یک مدل یادگیری ماشین است. این تجزیه خطا را به سه مؤلفه تقسیم می‌کند: بایاس، واریانس و خطای غیرقابل کاهش. درک این مؤلفه‌ها می‌تواند به ما در انتخاب پیچیدگی مناسب مدل و جلوگیری از بیش‌برازش یا کم‌برازش کمک کند.

خطای بایاس. خطای بایاس خطایی است که ناشی از ناتوانی مدل در ضبط رابطه واقعی بین متغیرها است. یک مدل با بایاس بالا بسیار ساده است و داده‌ها را کم‌برازش می‌کند.

خطای واریانس. خطای واریانس خطایی است که ناشی از حساسیت مدل به داده‌های آموزشی است. یک مدل با واریانس بالا بسیار پیچیده است و داده‌ها را بیش‌برازش می‌کند.

9. روش‌های اعتبارسنجی عملکرد مدل را بر روی داده‌های نادیده تخمین می‌زنند.

در بخش آخر، ما تجزیه بایاس-واریانس را مورد بحث قرار دادیم که به مشکلات بیش‌برازش و کم‌برازش از یک دیدگاه نظری روشنایی می‌بخشد.

تخمین عملکرد تعمیم‌یافته. روش‌های اعتبارسنجی برای تخمین اینکه یک مدل چگونه بر روی داده‌های جدید و نادیده عمل خواهد کرد، استفاده می‌شوند. این برای انتخاب بهترین مدل و جلوگیری از بیش‌برازش حیاتی است. رایج‌ترین روش‌های اعتبارسنجی شامل اعتبارسنجی نگه‌داشت و اعتبارسنجی متقابل است.

اعتبارسنجی نگه‌داشت. اعتبارسنجی نگه‌داشت شامل تقسیم داده‌ها به یک مجموعه آموزشی و یک مجموعه آزمایشی است. مدل بر روی مجموعه آموزشی آموزش داده می‌شود و سپس بر روی مجموعه آزمایشی ارزیابی می‌شود.

اعتبارسنجی متقابل. اعتبارسنجی متقابل یک روش اعتبارسنجی قوی‌تر است که شامل تقسیم داده‌ها به چندین بخش است. مدل بر روی یک زیرمجموعه از بخش‌ها آموزش داده می‌شود و سپس بر روی بخش باقی‌مانده ارزیابی می‌شود. این فرآیند برای هر بخش تکرار می‌شود و نتایج میانگین‌گیری می‌شوند تا تخمینی از عملکرد تعمیم‌یافته مدل به‌دست آید.

10. انتخاب ویژگی دقت و قابلیت تفسیر مدل را بهبود می‌بخشد.

هدف انتخاب ویژگی شناسایی سیستماتیک ویژگی‌هایی است که مهم‌ترین یا بالاترین قدرت پیش‌بینی را دارند و سپس آموزش مدل تنها بر روی آن ویژگی‌ها است.

ویژگی‌های نامربوط. بسیاری از مجموعه‌های داده شامل ویژگی‌هایی هستند که به وظیفه پیش‌بینی مربوط نیستند. این ویژگی‌های نامربوط می‌توانند منجر به بیش‌برازش شوند و قابلیت تفسیر مدل را کاهش دهند. انتخاب ویژگی فرآیند شناسایی و حذف این ویژگی‌های نامربوط است.

روش‌های فیلتر، جستجو و درون‌ساخت. سه نوع اصلی از روش‌های انتخاب ویژگی وجود دارد:

  • روش‌های فیلتر: ویژگی‌ها را بر اساس معیارهای آماری انتخاب می‌کنند.
  • روش‌های جستجو: بهترین زیرمجموعه‌ای از ویژگی‌ها را جستجو می‌کنند.
  • روش‌های درون‌ساخت: انتخاب ویژگی را به‌عنوان بخشی از فرآیند آموزش مدل انجام می‌دهند.

مزایای انتخاب ویژگی. انتخاب ویژگی می‌تواند دقت مدل را با جلوگیری از بیش‌برازش بهبود بخشد و قابلیت تفسیر مدل را با کاهش تعداد ویژگی‌ها افزایش دهد.

11. آماده‌سازی داده‌ها مجموعه‌های داده را پاک‌سازی، تبدیل و متعادل می‌کند.

فصل‌های قبلی عناصر اصلی خط لوله یادگیری ماشین را مورد بحث قرار دادند که فرض می‌کرد داده‌ها در یک فرم "ایده‌آل" هستند.

داده‌های دنیای واقعی. داده‌های دنیای واقعی معمولاً نامنظم هستند و نیاز به پیش‌پردازش قابل توجهی دارند تا بتوانند برای آموزش یک مدل یادگیری ماشین استفاده شوند. آماده‌سازی داده شامل پاک‌سازی، تبدیل و متعادل‌سازی مجموعه داده است.

پاک‌سازی داده. پاک‌سازی داده شامل تصحیح خطاها، مدیریت مقادیر گمشده و حذف تکراری‌ها است. این اطمینان می‌دهد که داده‌ها دقیق و سازگار هستند.

تبدیل ویژگی. تبدیل ویژگی شامل کدگذاری متغیرهای دسته‌ای و مقیاس‌بندی ویژگی‌های عددی است. این اطمینان می‌دهد که داده‌ها در فرمت قابل پردازش توسط الگوریتم یادگیری ماشین قرار دارند.

آخرین به‌روزرسانی::

نقد و بررسی

4.89 از 5
میانگین از 100+ امتیازات از Goodreads و Amazon.

کتاب یادگیری ماشین به زبان ساده با استقبال بی‌نظیری مواجه شده و به خاطر وضوح و دسترسی‌پذیری‌اش مورد تحسین قرار گرفته است. خوانندگان از توضیحات ساده، نمودارهای مفید و مثال‌های عملی کتاب قدردانی می‌کنند. این کتاب به عنوان یک مقدمه عالی برای مبتدیان و منبعی ارزشمند برای کسانی که دانش قبلی دارند، شناخته می‌شود. تمرکز کتاب بر شهود و توضیحات ساده مفاهیم پیچیده به‌طور مکرر مورد تأکید قرار می‌گیرد. بسیاری از منتقدان به کارایی آن در روشن کردن مفاهیم یادگیری ماشین و فراهم کردن پایه‌ای محکم برای مطالعه‌های بیشتر اشاره می‌کنند. همچنین، گنجاندن کدهای QR برای منابع اضافی نیز با استقبال خوبی روبه‌رو شده است.

درباره نویسنده

اندرو ولف نویسنده‌ی کتاب «یادگیری ماشین به زبان ساده» است، کتابی که به خاطر رویکردش در آموزش مفاهیم یادگیری ماشین مورد تحسین قرار گرفته است. سبک نوشتاری ولف به‌عنوانی شفاف، جذاب و مؤثر در تجزیه و تحلیل موضوعات پیچیده به بخش‌های قابل فهم توصیف می‌شود. اشتیاق او به این موضوع در محتوای کتاب و ساختار آن مشهود است. تخصص ولف در یادگیری ماشین به وضوح نمایان است، زیرا او به‌خوبی فاصله‌ی بین مفاهیم فنی و درک عملی را پر می‌کند. کتاب او به‌گونه‌ای طراحی شده است که هم به مبتدیان و هم به افرادی که دانش قبلی دارند پاسخگو باشد و توانایی او در انتقال ایده‌های پیچیده به مخاطبان متنوع را نشان می‌دهد.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Recommendations: Get personalized suggestions
Ratings: Rate books & see your ratings
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Mar 22,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
100,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →