نکات کلیدی
1. یادگیری ماشین: الگوریتمها از طریق مثالها
یادگیری ماشین را میتوان بهعنوان فرآیند حل یک مشکل عملی تعریف کرد که شامل ۱) جمعآوری یک مجموعه داده و ۲) ساخت یک مدل آماری بهصورت الگوریتمی بر اساس آن مجموعه داده است.
حل مشکلات عملی. یادگیری ماشین (ML) به ایجاد الگوریتمهایی مربوط میشود که از دادهها یاد میگیرند تا مشکلات دنیای واقعی را حل کنند. بهجای برنامهنویسی صریح یک ماشین برای انجام یک کار، الگوریتمهای ML بر روی مجموعههای داده آموزش میبینند و به آنها اجازه میدهند الگوها را شناسایی کرده و پیشبینیها یا تصمیمات اتخاذ کنند. این رویکرد بهویژه در مواجهه با سیستمهای پیچیده یا پویا که برنامهنویسی صریح در آنها دشوار یا غیرممکن است، مفید است.
رویکرد مبتنی بر داده. هستهی یادگیری ماشین در دادهها نهفته است. الگوریتمهای ML به یک مجموعه داده از مثالها برای یادگیری نیاز دارند. این مثالها میتوانند از منابع مختلفی از جمله طبیعت، دادههای تولیدشده توسط انسان یا حتی سایر الگوریتمها بهدست آیند. کیفیت و کمیت دادهها تأثیر قابلتوجهی بر عملکرد مدل ML دارند.
مدلهای آماری. در اصل، یادگیری ماشین شامل ساخت مدلهای آماری بر اساس دادههای جمعآوریشده است. این مدلها روابط و الگوهای زیرین در دادهها را ضبط میکنند و به الگوریتم اجازه میدهند تا پیشبینیها یا تصمیمات را بر اساس دادههای جدید و نادیدهگرفتهشده انجام دهد. هدف ایجاد مدلی است که بهخوبی تعمیم یابد، به این معنی که میتواند بهطور دقیق وظیفهاش را بر روی دادههایی که بهطور صریح بر روی آنها آموزش ندیده است، انجام دهد.
2. یادگیری نظارتشده: دادههای برچسبگذاریشده برای پیشبینی
در یادگیری نظارتشده، مجموعه داده شامل مجموعهای از مثالهای برچسبگذاریشده {(x i, yi )} است.
یادگیری از مثالهای برچسبگذاریشده. یادگیری نظارتشده نوعی از یادگیری ماشین است که در آن الگوریتم از یک مجموعه داده حاوی مثالهای برچسبگذاریشده یاد میگیرد. هر مثال شامل یک بردار ویژگی (x) و یک برچسب مربوطه (y) است. برچسب نمایانگر خروجی یا هدف موردنظر برای آن ورودی خاص است.
طبقهبندی و رگرسیون. یادگیری نظارتشده میتواند به دو دسته اصلی تقسیم شود: طبقهبندی و رگرسیون. در طبقهبندی، هدف پیشبینی یک برچسب دستهای، مانند "هرزنامه" یا "غیرهرزنامه" است. در رگرسیون، هدف پیشبینی یک مقدار پیوسته، مانند قیمت یک خانه است.
آموزش مدل و پیشبینی. الگوریتم یادگیری نظارتشده از مجموعه داده برچسبگذاریشده برای آموزش مدلی استفاده میکند که میتواند بردارهای ویژگی ورودی را به برچسبهای مربوطه آنها نگاشت کند. پس از آموزش مدل، میتوان از آن برای پیشبینی برچسبها برای بردارهای ویژگی جدید و نادیدهگرفتهشده استفاده کرد. دقت مدل معمولاً با استفاده از یک مجموعه داده آزمایشی جداگانه ارزیابی میشود.
3. یادگیری بدون نظارت: کشف ساختارهای پنهان
در یادگیری بدون نظارت، مجموعه داده شامل مجموعهای از مثالهای بدون برچسب {x i} است.
کاوش دادههای بدون برچسب. یادگیری بدون نظارت نوعی از یادگیری ماشین است که در آن الگوریتم از یک مجموعه داده حاوی تنها مثالهای بدون برچسب یاد میگیرد. هدف کشف ساختارها، الگوها یا روابط پنهان در دادهها بدون هیچ دانش قبلی از خروجی موردنظر است.
خوشهبندی و کاهش ابعاد. دو وظیفه رایج در یادگیری بدون نظارت خوشهبندی و کاهش ابعاد هستند. خوشهبندی شامل گروهبندی مثالهای مشابه بهصورت خوشهها است، در حالی که کاهش ابعاد شامل کاهش تعداد ویژگیها در مجموعه داده در حالی که اطلاعات اساسی آن حفظ میشود، است.
کاربردها در زمینههای مختلف. یادگیری بدون نظارت در زمینههای مختلفی از جمله تقسیمبندی مشتری، شناسایی ناهنجاری و تجسم دادهها کاربرد دارد. بهعنوان مثال، میتوان از آن برای شناسایی بخشهای مختلف مشتری بر اساس رفتار خرید آنها یا برای شناسایی تراکنشهای تقلبی بر اساس الگوهای غیرمعمول آنها استفاده کرد.
4. رگرسیون خطی: مدلسازی روابط با خطوط
از سوی دیگر، هایپرپلن در رگرسیون خطی بهگونهای انتخاب میشود که به تمام مثالهای آموزشی نزدیکتر باشد.
یافتن بهترین تطابق. رگرسیون خطی یک الگوریتم یادگیری نظارتشده است که رابطه بین یک متغیر وابسته (هدف) و یک یا چند متغیر مستقل (ویژگیها) را با تطبیق یک معادله خطی به دادههای مشاهدهشده مدلسازی میکند. هدف یافتن خط (یا هایپرپلن در ابعاد بالاتر) است که بهترین نمایندگی از رابطه بین متغیرها را ارائه دهد.
کاهش خطا. "بهترین تطابق" با حداقل کردن مجموع مربعات اختلافات بین مقادیر پیشبینیشده و مقادیر واقعی تعیین میشود. این روش بهعنوان روش حداقل مربعات شناخته میشود. معادله خطی حاصل سپس میتواند برای پیشبینی مقدار متغیر هدف برای بردارهای ویژگی جدید و نادیدهگرفتهشده استفاده شود.
ساده و قابل تفسیر. رگرسیون خطی یک الگوریتم نسبتاً ساده و قابل تفسیر است و آن را به نقطه شروع خوبی برای بسیاری از مشکلات رگرسیونی تبدیل میکند. با این حال، ممکن است برای مجموعههای دادهای که روابط پیچیده و غیرخطی بین متغیرها دارند، مناسب نباشد. در چنین مواردی، ممکن است به الگوریتمهای پیشرفتهتری نیاز باشد.
5. رگرسیون لجستیک: طبقهبندی با احتمالها
آنها متوجه شدند که اگر برچسب منفی را ۰ و برچسب مثبت را ۱ تعریف کنیم، تنها نیاز داریم یک تابع پیوسته ساده پیدا کنیم که دامنهاش (۰ ، ۱) باشد.
پیشبینی احتمالها. رگرسیون لجستیک یک الگوریتم یادگیری نظارتشده است که برای مشکلات طبقهبندی دوتایی استفاده میشود. بر خلاف رگرسیون خطی که یک مقدار پیوسته پیشبینی میکند، رگرسیون لجستیک احتمال تعلق یک مثال به یک کلاس خاص را پیشبینی میکند.
تابع سیگموید. رگرسیون لجستیک از تابع سیگموید برای نگاشت ترکیب خطی ویژگیها به یک مقدار احتمال بین ۰ و ۱ استفاده میکند. تابع سیگموید یک منحنی S شکل است که هر ورودی با ارزش واقعی را به این دامنه فشرده میکند.
برآورد حداکثر احتمال. پارامترهای مدل رگرسیون لجستیک معمولاً با استفاده از برآورد حداکثر احتمال تخمین زده میشوند. این شامل یافتن مقادیر پارامترهایی است که احتمال مشاهده مجموعه داده برچسبگذاریشده دادهشده را حداکثر میکند. سپس میتوان از مدل برای طبقهبندی مثالهای جدید بر اساس احتمالهای پیشبینیشده آنها استفاده کرد.
6. درختان تصمیم: اتخاذ تصمیمات مرحله به مرحله
هنگامی که به گره برگ میرسیم، تصمیم درباره کلاسی که مثال به آن تعلق دارد، اتخاذ میشود.
تصمیمگیری سلسلهمراتبی. درخت تصمیم یک الگوریتم یادگیری نظارتشده است که از یک ساختار درختی برای اتخاذ تصمیمات استفاده میکند. هر گره داخلی در درخت نمایانگر یک آزمون بر روی یک ویژگی خاص است و هر شاخه نمایانگر نتیجه آن آزمون است. گرههای برگ نمایانگر طبقهبندی یا پیشبینی نهایی هستند.
آنتروپی و افزایش اطلاعات. درختان تصمیم با تقسیم مجدد مجموعه داده بر اساس ویژگیای که بیشترین افزایش اطلاعات را فراهم میکند، ساخته میشوند. افزایش اطلاعات معیاری است از اینکه چقدر آنتروپی (عدم قطعیت) مجموعه داده با تقسیم بر روی یک ویژگی خاص کاهش مییابد.
تفسیر آسان. درختان تصمیم نسبتاً آسان برای تفسیر هستند و این امر آنها را به انتخابی محبوب برای مشکلاتی که توضیحپذیری در آنها مهم است، تبدیل میکند. با این حال، آنها میتوانند مستعد بیشبرازش باشند، بهویژه اگر اجازه داده شود درخت بیش از حد عمیق شود. تکنیکهایی مانند هرس و منظمسازی میتوانند برای جلوگیری از بیشبرازش استفاده شوند.
7. SVM: یافتن مرز تفکیک بهینه
در یادگیری ماشین، مرز تفکیککننده مثالهای کلاسهای مختلف بهعنوان مرز تصمیمگیری شناخته میشود.
حداکثر کردن حاشیه. ماشینهای بردار پشتیبان (SVM) الگوریتمهای یادگیری نظارتشدهای هستند که برای طبقهبندی و رگرسیون استفاده میشوند. هدف یک SVM یافتن هایپرپلن بهینه است که مثالهای کلاسهای مختلف را با بزرگترین حاشیه ممکن جدا کند.
بردارهای پشتیبان. بردارهای پشتیبان مثالهایی هستند که نزدیکترین فاصله را به هایپرپلن دارند و بر موقعیت آن تأثیر میگذارند. الگوریتم SVM بر روی این بردارهای پشتیبان تمرکز میکند تا مرز تفکیک بهینه را تعیین کند.
حقه هستهای. SVMها همچنین میتوانند برای حل مشکلات طبقهبندی غیرخطی با استفاده از حقه هستهای استفاده شوند. حقه هستهای شامل نگاشت فضای ویژگی اصلی به یک فضای با ابعاد بالاتر است که در آن مثالها بهصورت خطی قابل تفکیک میشوند. توابع هستهای رایج شامل هسته چندجملهای و هسته تابع پایه شعاعی (RBF) است.
8. شبکههای عصبی: تقلید از پیچیدگی مغز
همانطور که در شکل ۱ مشاهده میکنید، در پرسپترون چندلایه، تمام خروجیهای یک لایه به هر ورودی لایه بعدی متصل هستند.
گرههای متصل. شبکههای عصبی مدلهای یادگیری ماشینی هستند که از ساختار و عملکرد مغز انسان الهام گرفتهاند. آنها از گرههای متصل (نورونها) تشکیل شدهاند که در لایهها سازماندهی شدهاند. هر اتصال بین گرهها وزنی دارد که نشاندهنده قدرت اتصال است.
توابع فعالسازی. هر گره در یک شبکه عصبی تابع فعالسازی را بر روی مجموع وزنی ورودیهای خود اعمال میکند. توابع فعالسازی غیرخطی بودن را به مدل وارد میکنند و به آن اجازه میدهند روابط پیچیده بین متغیرها را یاد بگیرد. توابع فعالسازی رایج شامل تابع سیگموید، تابع ReLU و تابع tanh است.
یادگیری عمیق. یادگیری عمیق به شبکههای عصبی با چندین لایه بین لایه ورودی و خروجی اشاره دارد. این شبکههای عصبی عمیق میتوانند نمایشهای سلسلهمراتبی از دادهها را یاد بگیرند و به آنها اجازه میدهند تا مشکلات پیچیدهای در زمینههایی مانند شناسایی تصویر، پردازش زبان طبیعی و شناسایی گفتار را حل کنند.
9. مهندسی ویژگی: ایجاد ورودیهای معنادار
مسئله تبدیل دادههای خام به یک مجموعه داده بهعنوان مهندسی ویژگی شناخته میشود.
تبدیل دادههای خام. مهندسی ویژگی فرآیند تبدیل دادههای خام به مجموعهای از ویژگیها است که میتوانند توسط یک الگوریتم یادگیری ماشین استفاده شوند. این مرحلهای حیاتی در خط لوله یادگیری ماشین است، زیرا کیفیت ویژگیها تأثیر قابلتوجهی بر عملکرد مدل دارد.
دانش دامنه. مهندسی ویژگی معمولاً به دانش دامنه نیاز دارد تا مهمترین و اطلاعاتیترین ویژگیها را شناسایی کند. این شامل انتخاب، تبدیل و ایجاد ویژگیهای جدید از دادههای خام است.
تکنیکهای مهندسی ویژگی. تکنیکهای رایج برای مهندسی ویژگی شامل کدگذاری یکداغ، باینینگ، نرمالسازی و استانداردسازی است. کدگذاری یکداغ برای تبدیل ویژگیهای دستهای به ویژگیهای عددی استفاده میشود، در حالی که باینینگ برای تبدیل ویژگیهای پیوسته به ویژگیهای دستهای به کار میرود. نرمالسازی و استانداردسازی برای مقیاسدهی ویژگیها به یک دامنه مشترک استفاده میشود.
10. ارزیابی مدل: ارزیابی معیارهای عملکرد
مجموعه آزمایشی شامل مثالهایی است که الگوریتم یادگیری هرگز آنها را ندیده است، بنابراین اگر مدل ما در پیشبینی برچسبهای مثالهای مجموعه آزمایشی خوب عمل کند، میگوییم که مدل ما بهخوبی تعمیم مییابد یا بهسادگی، خوب است.
اندازهگیری تعمیم. ارزیابی مدل فرآیند ارزیابی عملکرد یک مدل یادگیری ماشین بر روی یک مجموعه داده آزمایشی جداگانه است. مجموعه داده آزمایشی شامل مثالهایی است که مدل هرگز آنها را ندیده است و تخمینی بدون تعصب از توانایی آن برای تعمیم به دادههای جدید ارائه میدهد.
معیارها برای رگرسیون و طبقهبندی. معیارهای مختلفی برای ارزیابی عملکرد مدلهای رگرسیون و طبقهبندی استفاده میشود. برای رگرسیون، معیارهای رایج شامل میانگین مربعات خطا (MSE) و R-squared است. برای طبقهبندی، معیارهای رایج شامل دقت، دقت، یادآوری و نمره F1 است.
ماتریس سردرگمی. ماتریس سردرگمی جدولی است که عملکرد یک مدل طبقهبندی را با نشان دادن تعداد مثبتهای واقعی، منفیهای واقعی، مثبتهای کاذب و منفیهای کاذب خلاصه میکند. میتوان از آن برای محاسبه معیارهای مختلف عملکرد، مانند دقت و یادآوری استفاده کرد.
11. منظمسازی: جلوگیری از بیشبرازش
منظمسازی یک اصطلاح کلی است که شامل روشهایی است که الگوریتم یادگیری را مجبور میکند تا مدلی کمتر پیچیده بسازد.
تعادل بین تعصب و واریانس. منظمسازی تکنیکی است که برای جلوگیری از بیشبرازش در مدلهای یادگیری ماشین استفاده میشود. بیشبرازش زمانی رخ میدهد که مدل دادههای آموزشی را بهخوبی یاد بگیرد و منجر به عملکرد ضعیف بر روی دادههای جدید شود. تکنیکهای منظمسازی یک جریمه به تابع هزینه اضافه میکنند و مدل را به ساخت مدلی سادهتر و قابل تعمیمتر تشویق میکنند.
منظمسازی L1 و L2. دو نوع رایج منظمسازی، منظمسازی L1 و L2 هستند. منظمسازی L1 یک جریمه متناسب با مقدار مطلق پارامترهای مدل اضافه میکند، در حالی که منظمسازی L2 یک جریمه متناسب با مربع پارامترهای مدل اضافه میکند.
Dropout و نرمالسازی دستهای. در شبکههای عصبی، Dropout و نرمالسازی دستهای نیز بهعنوان تکنیکهای منظمسازی استفاده میشوند. Dropout بهطور تصادفی برخی از واحدها را از محاسبات در حین آموزش حذف میکند، در حالی که نرمالسازی دستهای خروجیهای هر لایه را استاندارد میکند.
12. روشهای تجمیع: ترکیب چندین مدل
یادگیری تجمیعی یک پارادایم یادگیری است که بهجای تلاش برای یادگیری یک مدل فوقدقیق، بر آموزش تعداد زیادی مدل با دقت پایین تمرکز میکند و سپس پیشبینیهای ارائهشده توسط آن مدلهای ضعیف را ترکیب میکند تا یک مدل متا با دقت بالا بهدست آورد.
حکمت جمعی. روشهای تجمیع پیشبینیهای چندین مدل فردی را ترکیب میکنند تا عملکرد کلی را بهبود بخشند. ایده این است که با ترکیب نقاط قوت مدلهای مختلف، تجمیع میتواند دقت و استحکام بیشتری نسبت به هر مدل منفرد بهدست آورد.
Bagging و Boosting. دو روش تجمیع رایج، Bagging و Boosting هستند. Bagging شامل آموزش چندین مدل بر روی زیرمجموعههای مختلف دادههای آموزشی است، در حالی که Boosting شامل آموزش مدلها بهصورت متوالی است، بهطوریکه هر مدل بر روی اصلاح خطاهای مدلهای قبلی تمرکز میکند.
جنگل تصادفی و Boosting گرادیان. جنگل تصادفی و Boosting گرادیان دو الگوریتم تجمیع محبوب هستند که از درختان تصمیم بهعنوان مدلهای پایه خود استفاده میکنند. جنگل تصادفی از Bagging برای ایجاد چندین درخت تصمیم استفاده میکند، در حالی که Boosting گرادیان
آخرین بهروزرسانی::
نقد و بررسی
کتاب ماشین یادگیری صد صفحهای به خاطر مرور مختصر اما جامع خود از مفاهیم یادگیری ماشین، تحسینهای زیادی را به خود جلب کرده است. خوانندگان از تعادل بین دقت ریاضی و توضیحات عملی آن قدردانی میکنند که این کتاب را هم برای مبتدیان و هم برای حرفهایهای با تجربه مناسب میسازد. فرمت فشردهی کتاب به عنوان یک نقطه قوت شناخته میشود و راهنمایی سریع را بدون فدای عمق ارائه میدهد. برخی انتقادات شامل محتوای ریاضی متراکم و گاهی عدم توضیحات دقیق است. بهطور کلی، این کتاب به عنوان یک متن مقدماتی یا یادآور برای کسانی که زمینهی فنی دارند، به شدت توصیه میشود.