Facebook Pixel
Searching...
فارسی
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Data Science

Data Science

توسط John D. Kelleher 2018 280 صفحات
3.91
500+ امتیازها
گوش دادن
گوش دادن

نکات کلیدی

1. علم داده: هنر استخراج بینش‌های قابل اقدام از داده‌ها

هدف علم داده بهبود تصمیم‌گیری از طریق استناد به بینش‌های استخراج‌شده از مجموعه‌های بزرگ داده است.

تعریف علم داده. علم داده شامل مجموعه‌ای از اصول، تعاریف مسئله، الگوریتم‌ها و فرآیندها برای استخراج الگوهای غیرمشهود و مفید از مجموعه‌های بزرگ داده است. این علم عناصر مختلفی از جمله یادگیری ماشین، داده‌کاوی و آمار را ترکیب می‌کند تا داده‌های پیچیده را تحلیل کرده و بینش‌های قابل اقدام استخراج کند.

اجزای کلیدی علم داده:

  • جمع‌آوری و آماده‌سازی داده‌ها
  • تحلیل اکتشافی داده‌ها
  • یادگیری ماشین و مدل‌سازی آماری
  • تجسم داده‌ها و ارتباط نتایج

ارزش علم داده. سازمان‌ها در صنایع مختلف از علم داده برای کسب مزیت‌های رقابتی، بهبود کارایی عملیاتی و اتخاذ تصمیمات بهتر استفاده می‌کنند. از پیش‌بینی رفتار مشتریان تا بهینه‌سازی زنجیره‌های تأمین، علم داده نحوه عملکرد و رقابت کسب‌وکارها را در دنیای مدرن متحول می‌کند.

2. فرآیند CRISP-DM: چارچوبی برای پروژه‌های علم داده

چرخه حیات CRISP-DM شامل شش مرحله است: درک کسب‌وکار، درک داده، آماده‌سازی داده، مدل‌سازی، ارزیابی و پیاده‌سازی.

درک CRISP-DM. فرآیند استاندارد بین‌صنعتی برای داده‌کاوی (CRISP-DM) رویکردی ساختاریافته برای برنامه‌ریزی و اجرای پروژه‌های علم داده ارائه می‌دهد. این فرآیند تکراری اطمینان می‌دهد که پروژه‌ها بر اهداف کسب‌وکار متمرکز باقی بمانند و در عین حال انعطاف‌پذیری لازم برای سازگاری با بینش‌های جدید را حفظ کنند.

شش مرحله CRISP-DM:

  1. درک کسب‌وکار: تعریف اهداف و الزامات پروژه
  2. درک داده: جمع‌آوری و بررسی داده‌های اولیه
  3. آماده‌سازی داده: پاک‌سازی، تبدیل و فرمت‌دهی داده‌ها
  4. مدل‌سازی: انتخاب و اعمال تکنیک‌های مدل‌سازی
  5. ارزیابی: ارزیابی عملکرد مدل و انطباق با اهداف کسب‌وکار
  6. پیاده‌سازی: پیاده‌سازی مدل و ادغام نتایج در فرآیندهای کسب‌وکار

اهمیت تکرار. فرآیند CRISP-DM بر نیاز به بهبود و سازگاری مداوم در طول چرخه حیات پروژه تأکید دارد. این رویکرد تکراری به دانشمندان داده اجازه می‌دهد تا بینش‌های جدید را در نظر بگیرند، چالش‌ها را حل کنند و اطمینان حاصل کنند که پروژه با نیازهای در حال تحول کسب‌وکار هم‌راستا باقی می‌ماند.

3. یادگیری ماشین: موتور علم داده

یادگیری ماشین شامل استفاده از مجموعه‌ای از تکنیک‌های پیشرفته آماری و محاسباتی برای پردازش داده‌ها به منظور یافتن الگوها است.

اصول اولیه یادگیری ماشین. الگوریتم‌های یادگیری ماشین به کامپیوترها اجازه می‌دهند تا از داده‌ها یاد بگیرند بدون اینکه به‌طور صریح برنامه‌ریزی شده باشند. این الگوریتم‌ها می‌توانند الگوها را شناسایی کرده، پیش‌بینی کنند و با تجربه عملکرد خود را بهبود بخشند.

انواع کلیدی یادگیری ماشین:

  • یادگیری تحت نظارت: از داده‌های برچسب‌گذاری‌شده برای پیش‌بینی استفاده می‌کند
  • یادگیری بدون نظارت: الگوهای پنهان را در داده‌های بدون برچسب کشف می‌کند
  • یادگیری تقویتی: از طریق تعامل با محیط یاد می‌گیرد

الگوریتم‌های محبوب یادگیری ماشین:

  • رگرسیون خطی و لجستیک
  • درخت‌های تصمیم و جنگل‌های تصادفی
  • شبکه‌های عصبی و یادگیری عمیق
  • ماشین‌های بردار پشتیبان
  • خوشه‌بندی K-Means

یادگیری ماشین هسته بسیاری از کاربردهای علم داده را تشکیل می‌دهد و به سازمان‌ها این امکان را می‌دهد که وظایف پیچیده را خودکار کرده، پیش‌بینی‌های دقیقی انجام دهند و بینش‌هایی را کشف کنند که برای انسان‌ها دشوار یا غیرممکن است.

4. خوشه‌بندی، شناسایی ناهنجاری و قوانین انجمنی: وظایف کلیدی علم داده

خوشه‌بندی شامل مرتب‌سازی نمونه‌ها در یک مجموعه داده به زیرگروه‌هایی است که شامل نمونه‌های مشابه هستند.

وظایف اساسی علم داده. این تکنیک‌ها پایه‌گذار بسیاری از کاربردهای علم داده هستند و به کسب‌وکارها این امکان را می‌دهند که از داده‌های خود بینش‌های ارزشمندی کسب کنند.

خوشه‌بندی:

  • گروه‌بندی نقاط داده مشابه
  • کاربردها: تقسیم‌بندی مشتریان، فشرده‌سازی تصویر
  • الگوریتم رایج: خوشه‌بندی K-Means

شناسایی ناهنجاری:

  • شناسایی الگوهای غیرمعمول یا نقاط دورافتاده در داده‌ها
  • کاربردها: شناسایی تقلب، نظارت بر سلامت سیستم
  • تکنیک‌ها: روش‌های آماری، الگوریتم‌های یادگیری ماشین

کشف قوانین انجمنی:

  • کشف روابط بین متغیرها در مجموعه‌های بزرگ داده
  • کاربردها: تحلیل سبد خرید، سیستم‌های توصیه‌گر
  • الگوریتم محبوب: الگوریتم آپریوری

این تکنیک‌ها ابزارهای قدرتمندی برای کشف الگوهای پنهان، شناسایی مشکلات بالقوه و اتخاذ تصمیمات مبتنی بر داده در صنایع و کاربردهای مختلف فراهم می‌کنند.

5. مدل‌های پیش‌بینی: طبقه‌بندی و رگرسیون در عمل

پیش‌بینی وظیفه تخمین ارزش یک ویژگی هدف برای یک نمونه خاص بر اساس ارزش‌های سایر ویژگی‌ها (یا ویژگی‌های ورودی) برای آن نمونه است.

درک مدل‌های پیش‌بینی. مدل‌های پیش‌بینی یک کاربرد حیاتی از یادگیری ماشین در علم داده هستند که به سازمان‌ها این امکان را می‌دهند تا بر اساس داده‌های تاریخی و ورودی‌های فعلی تصمیمات آگاهانه‌ای اتخاذ کنند.

دو نوع اصلی مدل‌های پیش‌بینی:

  1. طبقه‌بندی: پیش‌بینی نتایج دسته‌ای (مثلاً، هرزنامه یا غیرهرزنامه)
  2. رگرسیون: پیش‌بینی مقادیر عددی پیوسته (مثلاً، قیمت خانه‌ها)

مراحل کلیدی در ساخت مدل‌های پیش‌بینی:

  1. جمع‌آوری و آماده‌سازی داده‌ها
  2. انتخاب و مهندسی ویژگی‌ها
  3. انتخاب و آموزش مدل
  4. ارزیابی و تنظیم مدل
  5. پیاده‌سازی و نظارت

مدل‌های پیش‌بینی کاربردهای گسترده‌ای دارند، از پیش‌بینی ریزش مشتریان در مخابرات تا پیش‌بینی قیمت‌ها در بازارهای مالی. موفقیت این مدل‌ها به کیفیت داده‌ها، انتخاب مناسب ویژگی‌ها و ارزیابی دقیق مدل بستگی دارد.

6. اکوسیستم علم داده: از منابع داده تا تحلیل‌ها

پایگاه‌های داده فناوری طبیعی برای ذخیره و بازیابی داده‌های ساختاریافته عملیاتی یا تراکنشی هستند (یعنی نوع داده‌هایی که توسط عملیات روزمره یک شرکت تولید می‌شوند).

اجزای اکوسیستم علم داده. یک زیرساخت قوی علم داده معمولاً شامل اجزای مختلفی است که به‌طور مشترک برای امکان ذخیره‌سازی، پردازش و تحلیل کارآمد داده‌ها عمل می‌کنند.

عناصر کلیدی اکوسیستم:

  • منابع داده: پایگاه‌های داده تراکنشی، دستگاه‌های IoT، رسانه‌های اجتماعی و غیره
  • ذخیره‌سازی داده: پایگاه‌های داده رابطه‌ای، انبارهای داده، دریاچه‌های داده
  • فناوری‌های داده‌های کلان: هدوپ، اسپارک، پایگاه‌های داده NoSQL
  • ابزارهای تحلیل: SQL، R، پایتون، SAS، Tableau
  • پلتفرم‌های یادگیری ماشین: TensorFlow، scikit-learn، H2O.ai

روندها در اکوسیستم:

  • راه‌حل‌های مبتنی بر ابر برای مقیاس‌پذیری و انعطاف‌پذیری
  • ادغام پردازش‌های بلادرنگ و دسته‌ای
  • تأکید بر حاکمیت داده و امنیت
  • پذیرش ابزارهای یادگیری ماشین خودکار (AutoML)

اکوسیستم در حال تحول علم داده به سازمان‌ها این امکان را می‌دهد که حجم و تنوع فزاینده‌ای از داده‌ها را مدیریت کرده، تحلیل‌های پیچیده‌ای انجام دهند و بینش‌های قابل اقدام را به‌طور کارآمدتر از همیشه استخراج کنند.

7. ملاحظات اخلاقی و حریم خصوصی در عصر داده‌های کلان

پیش‌بینی اینکه این تغییرات در بلندمدت چگونه پیش خواهند رفت، بسیار دشوار است. در این حوزه منافع مختلفی وجود دارد: به تفاوت‌های برنامه‌های شرکت‌های بزرگ اینترنتی، تبلیغاتی و بیمه، سازمان‌های اطلاعاتی، مقامات پلیس، دولت‌ها، تحقیقات علوم پزشکی و اجتماعی و گروه‌های حقوق مدنی توجه کنید.

تعادل بین نوآوری و حریم خصوصی. با رشد قابلیت‌های علم داده، نگرانی‌ها در مورد حریم خصوصی، انصاف و استفاده اخلاقی از داده‌ها نیز افزایش می‌یابد. سازمان‌ها باید در حین بهره‌برداری از قدرت علم داده، ملاحظات اخلاقی پیچیده‌ای را مدیریت کنند.

ملاحظات اخلاقی کلیدی:

  • حریم خصوصی و حفاظت از داده‌ها
  • تعصب الگوریتمی و انصاف
  • شفافیت و قابلیت توضیح مدل‌ها
  • رضایت آگاهانه برای جمع‌آوری و استفاده از داده‌ها
  • استفاده مسئولانه از داده‌های شخصی

چشم‌انداز قانونی:

  • مقررات عمومی حفاظت از داده‌ها (GDPR) در اتحادیه اروپا
  • قانون حریم خصوصی مصرف‌کننده کالیفرنیا (CCPA) در ایالات متحده
  • مقررات خاص بخش (مثلاً، HIPAA برای مراقبت‌های بهداشتی)

دانشمندان داده و سازمان‌ها باید ملاحظات اخلاقی را در کار خود در اولویت قرار دهند و اقداماتی مانند حریم خصوصی به‌عنوان طراحی، حسابرسی الگوریتمی و سیاست‌های شفاف استفاده از داده‌ها را برای ایجاد اعتماد و اطمینان از نوآوری مسئولانه پیاده‌سازی کنند.

8. آینده علم داده: پزشکی شخصی و شهرهای هوشمند

حسگرهای پزشکی که توسط بیمار پوشیده یا بلعیده می‌شوند یا کاشته می‌شوند، در حال توسعه هستند تا به‌طور مداوم علائم حیاتی و رفتارهای بیمار و نحوه عملکرد اندام‌های او را در طول روز نظارت کنند.

کاربردهای نوظهور علم داده. با پیشرفت تکنیک‌های علم داده و در دسترس قرار گرفتن داده‌های بیشتر، کاربردهای جدیدی در حال ظهور هستند که وعده تحول در جنبه‌های مختلف زندگی ما را می‌دهند.

پزشکی شخصی:

  • تحلیل ژنومی برای درمان‌های سفارشی
  • نظارت مداوم بر سلامت از طریق دستگاه‌های پوشیدنی
  • تشخیص و برنامه‌ریزی درمان با کمک هوش مصنوعی

شهرهای هوشمند:

  • مدیریت و بهینه‌سازی ترافیک در زمان واقعی
  • نگهداری پیش‌بینی‌شده زیرساخت‌ها
  • بهبود کارایی انرژی و پایداری
  • افزایش ایمنی عمومی از طریق پلیس پیش‌بینی‌کننده

این کاربردها پتانسیل علم داده را برای بهبود نتایج بهداشتی، ارتقاء زندگی شهری و حل چالش‌های پیچیده اجتماعی نشان می‌دهند. با این حال، آن‌ها همچنین سؤالات مهمی در مورد حریم خصوصی، مالکیت داده و تعادل بین پیشرفت فناوری و حقوق فردی را مطرح می‌کنند.

9. اصول موفقیت در پروژه‌های علم داده

پروژه‌های موفق علم داده نیاز به تمرکز، داده‌های با کیفیت خوب، افراد مناسب، تمایل به آزمایش با مدل‌های متعدد، ادغام در معماری و فرآیندهای فناوری اطلاعات (IT) کسب‌وکار، حمایت از مدیریت ارشد و شناسایی سازمان از این واقعیت دارند که به دلیل تغییرات جهانی، مدل‌ها قدیمی می‌شوند و نیاز به بازسازی منظم دارند.

عوامل کلیدی موفقیت. پروژه‌های موفق علم داده نیاز به ترکیبی از تخصص فنی، درک کسب‌وکار و حمایت سازمانی دارند.

اصول حیاتی برای موفقیت:

  1. تعریف واضح مشکل و تمرکز پروژه
  2. داده‌های با کیفیت و مرتبط
  3. تیم پروژه با مهارت و متنوع
  4. آزمایش با مدل‌ها و رویکردهای متعدد
  5. ادغام با سیستم‌های IT موجود و فرآیندهای کسب‌وکار
  6. حمایت و پشتیبانی قوی از مدیریت ارشد
  7. رویکرد تکراری با به‌روزرسانی‌های منظم مدل

دام‌های رایج برای اجتناب:

  • عدم وجود اهداف کسب‌وکار واضح
  • کیفیت پایین داده‌ها یا داده‌های ناکافی
  • وابستگی بیش از حد به یک الگوریتم یا رویکرد واحد
  • عدم ادغام نتایج در فرآیندهای کسب‌وکار
  • غفلت از ملاحظات اخلاقی و نگرانی‌های حریم خصوصی

با رعایت این اصول و اجتناب از دام‌های رایج، سازمان‌ها می‌توانند ارزش ابتکارات علم داده خود را به حداکثر برسانند و تأثیر معناداری بر کسب‌وکار خود بگذارند.

آخرین به‌روزرسانی::

نقد و بررسی

3.91 از 5
میانگین از 500+ امتیازات از Goodreads و Amazon.

کتاب علم داده به‌عنوان یک مقدمه‌ی قابل‌دسترس به این حوزه، نظرات مثبت عمومی را جلب کرده است. خوانندگان از توضیحات واضح آن درباره‌ی مفاهیم کلیدی، الگوریتم‌ها و ملاحظات اخلاقی قدردانی می‌کنند. بسیاری این کتاب را برای مبتدیان یا کسانی که به دنبال یک مرور کلی هستند، مفید می‌دانند، هرچند برخی اشاره می‌کنند که عمق فنی آن کم است. پوشش کتاب از کاربردهای دنیای واقعی و جنبه‌های تجاری مورد تحسین قرار گرفته است. در حالی که برخی به سادگی محتوای آن انتقاد می‌کنند، دیگران به دیدگاه وسیع آن درباره‌ی اصول علم داده، وظایف و روندهای آینده ارزش می‌دهند.

درباره نویسنده

جان دی. کلاهر، استاد علوم کامپیوتر و رهبر علمی در مؤسسه فناوری دوبلین است. تخصص او در زمینه یادگیری ماشین و تحلیل داده‌های پیش‌بینی‌کننده قرار دارد. کلاهر چندین کتاب در این زمینه‌ها تألیف کرده است، از جمله "اصول یادگیری ماشین برای تحلیل داده‌های پیش‌بینی‌کننده" که توسط انتشارات MIT منتشر شده است. کار او در مؤسسه تحقیقاتی اطلاعات، ارتباطات و سرگرمی نشان‌دهنده تمرکز او بر به‌کارگیری مفاهیم علوم کامپیوتر در حوزه‌های عملی و نوآورانه است. پیشینه علمی و تاریخچه انتشار کلاهر او را به عنوان یک مرجع معتبر در زمینه علم داده و کاربردهای آن که به سرعت در حال تحول است، معرفی می‌کند.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Unlock Unlimited Listening
🎧 Listen while you drive, walk, run errands, or do other activities
2.8x more books Listening Reading
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Feb 6,
cancel anytime before.
Compare Features Free Pro
Read full text summaries
Summaries are free to read for everyone
Listen to summaries
12,000+ hours of audio
Unlimited Bookmarks
Free users are limited to 10
Unlimited History
Free users are limited to 10
What our users say
50,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →