نکات کلیدی
1. یادگیری نظارتشده پیشبینی ناشناختهها از شناختهها.
بهطور کلی، هدف یادگیری ماشین نظارتشده پیشبینی مقادیر ناشناخته بر اساس مقادیر شناختهشده است، مانند پیشبینی قیمت فروش یک خانه بر اساس موقعیت و متراژ آن، یا پیشبینی دستهای از میوهها با توجه به عرض و ارتفاع آنها.
پیشبینی کلیدی است. یادگیری ماشین نظارتشده در پیشبینی نتایج بر اساس اطلاعات موجود بسیار موفق است. این روش از دادههای تاریخی برای برآورد مقادیر یا دستههای آینده استفاده میکند. این قدرت پیشبینی در کاربردهای مختلف، از مالی تا بهداشت و درمان، ارزشمند است.
طبقهبندی در مقابل رگرسیون. یادگیری نظارتشده به دو نوع اصلی از مشکلات میپردازد:
- طبقهبندی: پیشبینی یک دسته (مثلاً، هرزنامه یا غیرهرزنامه).
- رگرسیون: پیشبینی یک مقدار عددی (مثلاً، قیمت خانه).
یادگیری از دادههای گذشته. هستهی یادگیری نظارتشده در توانایی آن برای شناسایی الگوها در مجموعههای داده برچسبگذاریشده نهفته است. با تحلیل این الگوها، مدل میتواند تعمیم دهد و پیشبینیهای دقیقی بر روی دادههای جدید و نادیده انجام دهد. این فرآیند یادگیری از مثالها، یادگیری نظارتشده را از سایر رویکردهای هوش مصنوعی متمایز میکند.
2. یادگیری ماشین وظایف را از دادهها با شناسایی الگوها میآموزد.
ایدهی اصلی یادگیری ماشین، یا ML، یادگیری انجام یک وظیفه خاص از دادهها است.
شناسایی الگو. الگوریتمهای یادگیری ماشین برای شناسایی و استخراج الگوهای معنادار از دادهها طراحی شدهاند. این الگوها میتوانند روابط پیچیدهای بین متغیرها باشند که برای انسانها دشوار است. توانایی یادگیری خودکار این الگوها، یادگیری ماشین را بسیار قدرتمند میسازد.
یادگیری نظارتشده در مقابل یادگیری بدون نظارت. یادگیری ماشین بهطور کلی به دو دسته تقسیم میشود:
- یادگیری نظارتشده: نیاز به دادههای برچسبگذاریشده برای آموزش یک مدل دارد.
- یادگیری بدون نظارت: به بررسی دادههای بدون برچسب برای کشف ساختارهای پنهان میپردازد.
فراتر از جادو. با وجود تصورات علمی تخیلی، یادگیری ماشین جادویی نیست. این یک فرآیند سیستماتیک برای شناسایی و استخراج الگوها از دادهها است. این فرآیند شامل بهینهسازی ریاضی و تحلیل آماری است که دادههای خام را به بینشهای قابل اقدام تبدیل میکند.
3. خط لوله یادگیری ماشین دادههای خام را به پیشبینیهای قابل اقدام تبدیل میکند.
برای انجام یادگیری ماشین در دنیای واقعی، معمولاً به چند مرحله متوالی نیاز داریم که یک خط لوله را تشکیل میدهند.
مراحل متوالی. خط لوله یادگیری ماشین مجموعهای از مراحل است که دادههای خام را به یک مدل قابل استقرار تبدیل میکند. این مراحل شامل استخراج داده، آمادهسازی داده، ساخت مدل و استقرار مدل است. هر مرحله برای اطمینان از دقت و قابلیت اطمینان پیشبینیهای نهایی حیاتی است.
علم داده و MLOps. خط لوله یادگیری ماشین معمولاً شامل متخصصان مختلف است:
- دانشمندان داده: بر روی استخراج و آمادهسازی داده تمرکز دارند.
- مهندسان MLOps: بر روی استقرار و ادغام مدل تمرکز دارند.
کاربرد در دنیای واقعی. خط لوله یادگیری ماشین به پیچیدگیهای دادههای دنیای واقعی میپردازد که معمولاً نامنظم و غیرساختاریافته هستند. با پردازش سیستماتیک دادهها، خط لوله اطمینان میدهد که مدل ورودی با کیفیت بالا دریافت میکند که منجر به پیشبینیهای دقیقتر و قابل اعتمادتر میشود.
4. رگرسیون خطی روابط را با خط بهترین برازش مدلسازی میکند.
پیدا کردن خطی که بهترین تطابق را با دادهها دارد، بهعنوان رگرسیون خطی شناخته میشود و یکی از محبوبترین ابزارها در آمار، اقتصادسنجی و بسیاری از زمینههای دیگر است.
روابط خطی. رگرسیون خطی رابطه بین یک متغیر هدف و یک یا چند متغیر پاسخ را با استفاده از یک معادله خطی مدلسازی میکند. این معادله نمایانگر خط بهترین برازش است که تفاوت بین مقادیر پیشبینیشده و واقعی را به حداقل میرساند. رگرسیون خطی ابزاری بنیادی در آمار و یادگیری ماشین است.
پارامترها و پیشبینیها. معادله رگرسیون خطی دارای دو پارامتر کلیدی است:
- شیب: تغییر در متغیر هدف را برای هر واحد تغییر در متغیر پاسخ نشان میدهد.
- عرض از مبدأ: نمایانگر مقدار متغیر هدف زمانی است که متغیر پاسخ صفر باشد.
کاربردها. رگرسیون خطی بهطور گستردهای برای پیشبینی مقادیر عددی، مانند:
- قیمت خانهها بر اساس متراژ.
- ارقام فروش بر اساس هزینههای تبلیغاتی.
- تقاضای مشتری بر اساس کمپینهای بازاریابی استفاده میشود.
5. نزول گرادیان مدلها را با حداقل کردن توابع هزینه بهینه میکند.
در سطح بالا، یادگیری به یافتن مجموعهای از پارامترها که تابع هزینه را بر روی دادههای آموزشی به حداقل میرساند، معادل است.
بهینهسازی ریاضی. آموزش مدل یادگیری ماشین اساساً یک مسئله بهینهسازی ریاضی است. هدف یافتن مجموعهای از پارامترها است که تابع هزینه را به حداقل میرساند، که تفاوت بین پیشبینیهای مدل و مقادیر واقعی را اندازهگیری میکند. نزول گرادیان یک الگوریتم قدرتمند برای حل این مسئله بهینهسازی است.
فرآیند تکراری. نزول گرادیان یک الگوریتم تکراری است که با یک حدس اولیه برای پارامترها شروع میشود و سپس بهطور مکرر آنها را در جهت شیب تندترین نزول تنظیم میکند. این فرآیند ادامه مییابد تا الگوریتم به یک مقدار حداقلی از تابع هزینه همگرا شود.
نرخ یادگیری. نرخ یادگیری یک پارامتر حیاتی است که اندازهی گامهای برداشتهشده در طول نزول گرادیان را کنترل میکند. نرخ یادگیری که خیلی کوچک باشد میتواند منجر به همگرایی کند شود، در حالی که نرخ یادگیری که خیلی بزرگ باشد میتواند باعث شود الگوریتم حداقل را از دست بدهد.
6. گسترش پایه پیچیدگی مدل را با ویژگیهای چندجملهای افزایش میدهد.
این بخش به یک تکنیک قدرتمند به نام گسترش پایه میپردازد که بهطور مؤثری ویژگیهای غیرخطی را به مدل اضافه میکند.
روابط غیرخطی. مدلهای رگرسیون خطی محدود به ضبط روابط خطی بین متغیرها هستند. گسترش پایه یک تکنیک است که به ما اجازه میدهد روابط غیرخطی را با افزودن ویژگیهای چندجملهای به مدل مدلسازی کنیم. این امر پیچیدگی مدل را افزایش میدهد و به آن اجازه میدهد الگوهای دادههای پیچیدهتری را تطبیق دهد.
ویژگیهای چندجملهای. ویژگیهای چندجملهای با بالا بردن ویژگیهای اصلی به توانهای مختلف ایجاد میشوند. بهعنوان مثال، اگر ویژگی اصلی x باشد، ویژگیهای چندجملهای x^2، x^3، x^4 و غیره خواهند بود. این ویژگیهای چندجملهای سپس به مدل رگرسیون خطی اضافه میشوند.
بیشبرازش. در حالی که گسترش پایه میتواند دقت مدل را بهبود بخشد، همچنین میتواند منجر به بیشبرازش شود. بیشبرازش زمانی رخ میدهد که مدل دادههای آموزشی را بهخوبی یاد بگیرد و قادر به تعمیم به دادههای جدید و نادیده نباشد. تکنیکهای منظمسازی میتوانند برای جلوگیری از بیشبرازش استفاده شوند.
7. منظمسازی از بیشبرازش با جریمه کردن پیچیدگی مدل جلوگیری میکند.
در سطح بالا، منظمسازی محدودیتی بر مجموع وزنها قرار میدهد تا وزنها کوچک بمانند.
تابع هزینه جریمهشده. منظمسازی یک تکنیک است که از بیشبرازش جلوگیری میکند با افزودن یک عبارت جریمه به تابع هزینه. این عبارت جریمه مدل را از اختصاص وزنهای بزرگ به ویژگیها بازمیدارد، که پیچیدگی مدل را کاهش میدهد و توانایی آن را برای تعمیم بهبود میبخشد.
منظمسازی L1 و L2. دو نوع اصلی منظمسازی وجود دارد:
- منظمسازی L1 (Lasso): جریمهای متناسب با مقدار مطلق وزنها اضافه میکند.
- منظمسازی L2 (Ridge): جریمهای متناسب با مربع وزنها اضافه میکند.
انتخاب قدرت منظمسازی. قدرت منظمسازی با پارامتری به نام لامبدا کنترل میشود. مقدار بزرگتر لامبدا منجر به منظمسازی قویتر و مدلی سادهتر میشود. مقدار بهینه لامبدا میتواند با استفاده از اعتبارسنجی متقابل تعیین شود.
8. تجزیه و تحلیل بایاس-واریانس منابع خطای مدل را تشخیص میدهد.
در این فصل، ما مشکلات بیشبرازش و کمبرازش را با استفاده از یک تجزیه ریاضی از خطا به نام تجزیه بایاس-واریانس بهطور دقیقتری تحلیل میکنیم.
تجزیه خطا. تجزیه بایاس-واریانس یک چارچوب ریاضی برای درک منابع خطا در یک مدل یادگیری ماشین است. این تجزیه خطا را به سه مؤلفه تقسیم میکند: بایاس، واریانس و خطای غیرقابل کاهش. درک این مؤلفهها میتواند به ما در انتخاب پیچیدگی مناسب مدل و جلوگیری از بیشبرازش یا کمبرازش کمک کند.
خطای بایاس. خطای بایاس خطایی است که ناشی از ناتوانی مدل در ضبط رابطه واقعی بین متغیرها است. یک مدل با بایاس بالا بسیار ساده است و دادهها را کمبرازش میکند.
خطای واریانس. خطای واریانس خطایی است که ناشی از حساسیت مدل به دادههای آموزشی است. یک مدل با واریانس بالا بسیار پیچیده است و دادهها را بیشبرازش میکند.
9. روشهای اعتبارسنجی عملکرد مدل را بر روی دادههای نادیده تخمین میزنند.
در بخش آخر، ما تجزیه بایاس-واریانس را مورد بحث قرار دادیم که به مشکلات بیشبرازش و کمبرازش از یک دیدگاه نظری روشنایی میبخشد.
تخمین عملکرد تعمیمیافته. روشهای اعتبارسنجی برای تخمین اینکه یک مدل چگونه بر روی دادههای جدید و نادیده عمل خواهد کرد، استفاده میشوند. این برای انتخاب بهترین مدل و جلوگیری از بیشبرازش حیاتی است. رایجترین روشهای اعتبارسنجی شامل اعتبارسنجی نگهداشت و اعتبارسنجی متقابل است.
اعتبارسنجی نگهداشت. اعتبارسنجی نگهداشت شامل تقسیم دادهها به یک مجموعه آموزشی و یک مجموعه آزمایشی است. مدل بر روی مجموعه آموزشی آموزش داده میشود و سپس بر روی مجموعه آزمایشی ارزیابی میشود.
اعتبارسنجی متقابل. اعتبارسنجی متقابل یک روش اعتبارسنجی قویتر است که شامل تقسیم دادهها به چندین بخش است. مدل بر روی یک زیرمجموعه از بخشها آموزش داده میشود و سپس بر روی بخش باقیمانده ارزیابی میشود. این فرآیند برای هر بخش تکرار میشود و نتایج میانگینگیری میشوند تا تخمینی از عملکرد تعمیمیافته مدل بهدست آید.
10. انتخاب ویژگی دقت و قابلیت تفسیر مدل را بهبود میبخشد.
هدف انتخاب ویژگی شناسایی سیستماتیک ویژگیهایی است که مهمترین یا بالاترین قدرت پیشبینی را دارند و سپس آموزش مدل تنها بر روی آن ویژگیها است.
ویژگیهای نامربوط. بسیاری از مجموعههای داده شامل ویژگیهایی هستند که به وظیفه پیشبینی مربوط نیستند. این ویژگیهای نامربوط میتوانند منجر به بیشبرازش شوند و قابلیت تفسیر مدل را کاهش دهند. انتخاب ویژگی فرآیند شناسایی و حذف این ویژگیهای نامربوط است.
روشهای فیلتر، جستجو و درونساخت. سه نوع اصلی از روشهای انتخاب ویژگی وجود دارد:
- روشهای فیلتر: ویژگیها را بر اساس معیارهای آماری انتخاب میکنند.
- روشهای جستجو: بهترین زیرمجموعهای از ویژگیها را جستجو میکنند.
- روشهای درونساخت: انتخاب ویژگی را بهعنوان بخشی از فرآیند آموزش مدل انجام میدهند.
مزایای انتخاب ویژگی. انتخاب ویژگی میتواند دقت مدل را با جلوگیری از بیشبرازش بهبود بخشد و قابلیت تفسیر مدل را با کاهش تعداد ویژگیها افزایش دهد.
11. آمادهسازی دادهها مجموعههای داده را پاکسازی، تبدیل و متعادل میکند.
فصلهای قبلی عناصر اصلی خط لوله یادگیری ماشین را مورد بحث قرار دادند که فرض میکرد دادهها در یک فرم "ایدهآل" هستند.
دادههای دنیای واقعی. دادههای دنیای واقعی معمولاً نامنظم هستند و نیاز به پیشپردازش قابل توجهی دارند تا بتوانند برای آموزش یک مدل یادگیری ماشین استفاده شوند. آمادهسازی داده شامل پاکسازی، تبدیل و متعادلسازی مجموعه داده است.
پاکسازی داده. پاکسازی داده شامل تصحیح خطاها، مدیریت مقادیر گمشده و حذف تکراریها است. این اطمینان میدهد که دادهها دقیق و سازگار هستند.
تبدیل ویژگی. تبدیل ویژگی شامل کدگذاری متغیرهای دستهای و مقیاسبندی ویژگیهای عددی است. این اطمینان میدهد که دادهها در فرمت قابل پردازش توسط الگوریتم یادگیری ماشین قرار دارند.
آخرین بهروزرسانی::
نقد و بررسی
کتاب یادگیری ماشین به زبان ساده با استقبال بینظیری مواجه شده و به خاطر وضوح و دسترسیپذیریاش مورد تحسین قرار گرفته است. خوانندگان از توضیحات ساده، نمودارهای مفید و مثالهای عملی کتاب قدردانی میکنند. این کتاب به عنوان یک مقدمه عالی برای مبتدیان و منبعی ارزشمند برای کسانی که دانش قبلی دارند، شناخته میشود. تمرکز کتاب بر شهود و توضیحات ساده مفاهیم پیچیده بهطور مکرر مورد تأکید قرار میگیرد. بسیاری از منتقدان به کارایی آن در روشن کردن مفاهیم یادگیری ماشین و فراهم کردن پایهای محکم برای مطالعههای بیشتر اشاره میکنند. همچنین، گنجاندن کدهای QR برای منابع اضافی نیز با استقبال خوبی روبهرو شده است.