نکات کلیدی
1. تغییر تمرکز از نمونهبرداری به مجموعهدادههای جامع
استفاده از تمام دادهها به ما این امکان را میدهد که جزئیاتی را ببینیم که هرگز نمیتوانستیم زمانی که به مقادیر کوچک محدود بودیم، مشاهده کنیم.
از برخی به همه. دادههای کلان نشاندهندهی تغییر از تکیه بر نمونهها به تحلیل مجموعهدادههای جامع است. آمار سنتی به دلیل محدودیتهای جمعآوری و پردازش دادهها به نمونهبرداری وابسته بود. اما با پیشرفتهای فناوری، اکنون تحلیل مقادیر زیادی از دادهها ممکن است و دیدی دقیقتر و جزئیتر از پدیدهها ارائه میدهد.
جزئیات و دقت. تحلیل تمام دادههای موجود امکان بینشهای عمیقتری را در زیرمجموعهها و زیر بازارهایی که روشهای نمونهبرداری اغلب نادیده میگیرند، فراهم میکند. این سطح از جزئیات برای شناسایی ناهنجاریها، درک ترجیحات خاص و انجام پیشبینیهای دقیق حیاتی است. به عنوان مثال، Google Flu Trends از میلیاردها جستجوی اینترنتی برای پیشبینی شیوع آنفولانزا در سطح شهر استفاده میکند، که این کار با مجموعهدادههای کوچکتر و نمونهبرداری شده غیرممکن است.
محدودیتهای نمونهبرداری. در حالی که نمونهبرداری تصادفی یک میانبر موفق بوده است، اما با ضعفهای ذاتی همراه است. دقت آن به اطمینان از تصادفی بودن بستگی دارد که دستیابی به آن دشوار است و به راحتی نمیتوان آن را برای شامل کردن زیرمجموعهها گسترش داد. با پذیرش مجموعهدادههای جامع، میتوانیم این محدودیتها را پشت سر بگذاریم و امکانات جدیدی برای تحلیل و درک ایجاد کنیم.
2. پذیرش بینظمی: دادههای ناقص میتوانند بینشهای برتری ارائه دهند
در ازای کاهش استانداردهای خطاهای مجاز، میتوان به دادههای بسیار بیشتری دست یافت.
معامله دقت برای مقیاس. در دنیای دادههای کلان، تمایل به پذیرش بینظمی میتواند یک ویژگی مثبت باشد. در حالی که تحلیل سنتی بر کیفیت و دقت دادهها تأکید دارد، دادههای کلان این واقعیت را میپذیرد که حجم بالای اطلاعات میتواند جبرانکنندهی خطاهای فردی باشد. این معامله به ما اجازه میدهد با دادههای دنیای واقعی کار کنیم که اغلب ناقص، ناسازگار و بدون ساختار هستند.
بیشتر بهتر است. آزمایش محققان مایکروسافت با بررسی گرامر نشان داد که یک الگوریتم ساده با یک میلیارد کلمه بهتر از یک الگوریتم پیچیده با یک میلیون کلمه عمل میکند. سیستم ترجمهی گوگل به خوبی کار میکند زیرا از یک مجموعهداده بزرگ اما بسیار بینظم استفاده میکند: کل اینترنت جهانی و بیشتر.
بینظمی در عمل. پروژهی قیمتهای میلیاردی که بهصورت زنده تورم را با جمعآوری دادهها از خردهفروشان آنلاین ردیابی میکند، بینظمی را در ازای مقیاس و بهموقع بودن میپذیرد. بهطور مشابه، سیستمهای برچسبگذاری در پلتفرمهایی مانند فلیکر عدم دقت را برای ایجاد روشی غنیتر و انعطافپذیرتر برای سازماندهی محتوا میپذیرند. با پذیرش بینظمی، میتوانیم بینشهای جدیدی را کشف کنیم و خدمات ارزشمندی ایجاد کنیم که با روشهای سنتی غیرممکن است.
3. همبستگی بر علتمندی ارجحیت دارد: دانستن "چه" اغلب کافی است
در دنیای دادههای کلان، ما نیازی به تمرکز بر علتمندی نداریم؛ بلکه میتوانیم الگوها و همبستگیها را در دادهها کشف کنیم که بینشهای جدید و ارزشمندی را به ما ارائه میدهند.
قدرت پیشبینی. دادههای کلان تمرکز را از درک اینکه چرا چیزی اتفاق میافتد به پیشبینی اینکه چه اتفاقی خواهد افتاد تغییر میدهد. با شناسایی همبستگیهای قوی، میتوانیم پیشبینیهای دقیقی انجام دهیم حتی بدون اینکه علل زیرین را بدانیم. این رویکرد انقلابی در تجارت الکترونیک، بهداشت و بسیاری از زمینههای دیگر ایجاد کرده است.
نمونههایی از پیشبینیهای مبتنی بر همبستگی:
- سیستم توصیهگر آمازون محصولات را بر اساس تاریخچه خرید پیشنهاد میدهد، نه بر اساس درک اینکه چرا مشتریان برخی اقلام را دوست دارند.
- والمارت قبل از طوفانها پاپتارتها را بر اساس دادههای فروش تاریخی انبار میکند، نه بر اساس درک دلایل روانشناختی پشت همبستگی.
- نمرهی پایبندی به داروهای FICO پیشبینی میکند که آیا افراد داروهای خود را مصرف خواهند کرد یا خیر، بر اساس عواملی مانند مالکیت خانه و مدت زمان اشتغال، نه بر اساس درک باورهای بهداشتی فردی آنها.
محدودیتهای علتمندی. در حالی که انسانها به طور طبیعی تمایل دارند به دنبال توضیحات علتمندی باشند، این میتواند اغلب منجر به سوگیریها و نتیجهگیریهای نادرست شود. در مقابل، تحلیل همبستگی به ما این امکان را میدهد که الگوها و روابطی را کشف کنیم که ممکن است هرگز به آنها فکر نکرده باشیم. با پذیرش "چه" به جای "چرا"، میتوانیم بینشهای جدیدی را کشف کنیم و تصمیمات مؤثرتری بگیریم.
4. دادهسازی: تبدیل نامحسوس به دادههای قابل اندازهگیری
دادهسازی به معنای تبدیل اطلاعات دربارهی تمام چیزها، از جمله مواردی که هرگز به عنوان اطلاعات در نظر گرفته نمیشدند، به فرمت دادهای برای قابل اندازهگیری کردن است.
اندازهگیری جهان. دادهسازی فرآیند تبدیل اطلاعات دربارهی تمام چیزها، از جمله مواردی که به طور سنتی به عنوان داده در نظر گرفته نمیشوند، به فرمت قابل اندازهگیری است. این امکان را به ما میدهد که اطلاعات را به روشهای جدیدی تحلیل و استفاده کنیم، مانند تحلیل پیشبینی. این امر ارزش ضمنی و نهفتهی اطلاعات را آزاد میکند.
نمونههایی از دادهسازی:
- سیستم پروفسور کوشیمیزو موقعیتهای نشستن را به داده تبدیل میکند تا دزدان خودرو را شناسایی کند.
- موری لاگهای قدیمی کشتیها را به داده تبدیل کرد تا نقشههای ناوبری ایجاد کند.
- گوگل جستجوهای اینترنتی را به داده تبدیل میکند تا شیوع آنفولانزا را پیشبینی کند.
دادهسازی در مقابل دیجیتالیسازی. دادهسازی با دیجیتالیسازی متفاوت است، که به سادگی فرآیند تبدیل اطلاعات آنالوگ به فرمت دیجیتال است. دادهسازی فراتر میرود و اطلاعات را به شکلی ساختاریافته و قابل اندازهگیری تبدیل میکند که میتوان آن را تحلیل و برای اهداف جدید استفاده کرد.
5. ارزش دادهها در استفاده مجدد و آزادسازی پتانسیل نهفته است
هر مجموعهدادهای احتمالاً دارای مقداری ارزش ذاتی، پنهان و هنوز کشف نشده است و رقابت برای کشف و ضبط تمام آن در حال انجام است.
فراتر از استفاده اولیه. ارزش دادهها دیگر محدود به هدف اصلی آن نیست. در عصر دادههای کلان، ارزش واقعی دادهها در پتانسیل آنها برای استفاده مجدد و آزادسازی ارزش نهفته است. این نیاز به تغییر نگرش از در نظر گرفتن دادهها به عنوان یک منبع ایستا به شناسایی آنها به عنوان یک دارایی پویا دارد.
نمونههایی از استفاده مجدد از دادهها:
- گوگل از جستجوهای اینترنتی برای پیشبینی شیوع آنفولانزا و بهبود ترجمه زبان استفاده میکند.
- UPS از دادههای حسگر خودروهای خود برای پیشبینی مشکلات موتور و بهینهسازی مسیرها استفاده میکند.
- آویوا از گزارشهای اعتباری و دادههای بازاریابی مصرفکننده برای ارزیابی ریسکهای بهداشتی استفاده میکند.
ارزش گزینهای دادهها. ارزش واقعی دادهها مجموع تمام راههای ممکن است که میتوانند در آینده مورد استفاده قرار گیرند. این "ارزش گزینهای" میتواند از طریق تحلیل نوآورانه، ترکیب با سایر مجموعهدادهها و ایجاد خدمات جدید آزاد شود. با شناسایی و بهرهبرداری از این پتانسیل، سازمانها میتوانند ارزش اقتصادی قابل توجهی ایجاد کرده و مزیت رقابتی کسب کنند.
6. دادههای کلان صنایع را متحول میکند و ارزش تخصص را کاهش میدهد
تخصص در زمینههای خاص در دنیایی که احتمال و همبستگی در اولویت است، کمتر اهمیت دارد.
تغییر دینامیکهای قدرت. دادههای کلان صنایع را متحول میکند و به چالش کشیدن مفاهیم سنتی تخصص و تصمیمگیری را به همراه دارد. در دنیایی که احتمال و همبستگی در اولویت است، تخصص در زمینههای خاص کمتر اهمیت دارد. این تغییر در حال مختل کردن سلسلهمراتبهای مستقر و توانمندسازی بازیگران جدید است.
اثر مانیبال. فیلم مانیبال نشان میدهد که چگونه تحلیل مبتنی بر داده میتواند بر تخصص سنتی غلبه کند. شکارچیان بیسبال با آمارشناسانی که از دادهها برای شناسایی بازیکنان undervalued و ساخت یک تیم برنده استفاده میکردند، جایگزین شدند.
تخصص در زمینههای خاص کمتر اهمیت دارد. ظهور دادههای کلان نیاز به تعدیل ایدههای سنتی مدیریت، تصمیمگیری، منابع انسانی و آموزش دارد. متخصصان موضوعی نخواهند رفت، اما باید با آنچه که تحلیل دادههای کلان میگوید، کنار بیایند.
7. حریم خصوصی، تمایل و خطرات قدرت بیحد و حصر دادهها
بیشتر نهادهای ما بر اساس این فرض تأسیس شدهاند که تصمیمات انسانی بر اساس اطلاعاتی کوچک، دقیق و علتمند است.
سوی تاریک دادهها. در حالی که دادههای کلان مزایای زیادی را ارائه میدهند، همچنین خطرات قابل توجهی برای حریم خصوصی، آزادی و انصاف به همراه دارند. قدرت بیحد و حصر دادهها میتواند منجر به افزایش نظارت، مجازاتها بر اساس تمایلات و دیکتاتوری دادهها شود.
از حریم خصوصی به احتمال. خطر از حریم خصوصی به احتمال تغییر میکند: الگوریتمها احتمال اینکه فردی دچار حمله قلبی شود، در پرداخت وام مسکن دچار مشکل شود یا مرتکب جرم شود را پیشبینی خواهند کرد. این به یک ملاحظه اخلاقی در مورد نقش اراده آزاد در مقابل دیکتاتوری دادهها منجر میشود.
دیکتاتوری دادهها. ما در معرض خطر قرار داریم که قربانی دیکتاتوری دادهها شویم، جایی که به اطلاعات، خروجی تحلیلهای خود، وابسته میشویم و در نهایت از آن سوءاستفاده میکنیم. جامعه هزاران سال تجربه در درک و نظارت بر رفتار انسانی دارد. اما چگونه میتوان یک الگوریتم را تنظیم کرد؟
8. پاسخگویی، اراده انسانی و حسابرسی الگوریتم: حاکمیت دادههای کلان
برای عصر دادههای کلان به اصول جدیدی نیاز است که در فصل نهم به آنها پرداختهایم.
اصول جدید برای یک عصر جدید. عصر دادههای کلان نیاز به قوانین و اصول جدیدی دارد تا حقوق فردی را حفظ کرده و انصاف را تضمین کند. این اصول باید بر اساس ارزشهای موجود بنا شوند اما همچنین چالشهای منحصر به فردی که دادههای کلان به همراه دارند را شناسایی کنند.
استفاده مسئولانه. تغییر تمرکز از رضایت فردی به پاسخگویی کاربران داده برای حفاظت از حریم خصوصی ضروری است. کاربران داده باید مسئولیت اعمال خود را بر عهده بگیرند و اقداماتی برای کاهش آسیبهای احتمالی انجام دهند.
اراده انسانی. ما باید اراده انسانی را تضمین کنیم و اطمینان حاصل کنیم که قضاوتها بر اساس اقدامات واقعی، نه پیشبینیهای آماری، انجام میشود. این نیاز به بازتعریف عدالت دارد تا آزادی و مسئولیت فردی را حفظ کند.
حسابرسی الگوریتم. نهادها و متخصصان جدیدی برای حسابرسی و تفسیر الگوریتمهای پیچیده مورد نیاز هستند تا شفافیت و پاسخگویی را تضمین کنند. این "الگوریتمیستها" نقش حیاتی در حفاظت از سوءاستفاده از دادههای کلان ایفا خواهند کرد.
آخرین بهروزرسانی::
نقد و بررسی
کتاب دادههای کلان نظرات متنوعی را به خود جلب کرده است؛ از یک سو، به خاطر ارائهی خلاصهای قابل فهم از موضوع و مثالهای روشنگرانه مورد تحسین قرار گرفته و از سوی دیگر، منتقدان به تکرار و سادهسازی بیش از حد آن اشاره کردهاند. خوانندگان از بینشهایی که دربارهی تأثیر دادهها بر جامعه، نگرانیهای حریم خصوصی و پیامدهای آینده ارائه میدهد، قدردانی میکنند. برخی محتوا را قدیمی یا فاقد عمق میدانند. این کتاب برای کسانی که با مفاهیم دادههای کلان آشنا نیستند، توصیه میشود، اما ممکن است برای کارشناسان ناامیدکننده باشد. بهطور کلی، این کتاب بهعنوان یک مقدمهی تفکر برانگیز به حوزهای که روزبهروز اهمیت بیشتری پیدا میکند، شناخته میشود، هرچند که در دامنه و جزئیات محدودیتهایی دارد.
Similar Books






