نکات کلیدی
1. تغییر تمرکز از نمونهبرداری به مجموعهدادههای جامع
استفاده از تمام دادهها به ما این امکان را میدهد که جزئیاتی را ببینیم که هرگز نمیتوانستیم زمانی که به مقادیر کوچک محدود بودیم، مشاهده کنیم.
از برخی به همه. دادههای کلان نشاندهندهی تغییر از تکیه بر نمونهها به تحلیل مجموعهدادههای جامع است. آمار سنتی به دلیل محدودیتهای جمعآوری و پردازش دادهها به نمونهبرداری وابسته بود. اما با پیشرفتهای فناوری، اکنون تحلیل مقادیر زیادی از دادهها ممکن است و دیدی دقیقتر و جزئیتر از پدیدهها ارائه میدهد.
جزئیات و دقت. تحلیل تمام دادههای موجود امکان بینشهای عمیقتری را در زیرمجموعهها و زیر بازارهایی که روشهای نمونهبرداری اغلب نادیده میگیرند، فراهم میکند. این سطح از جزئیات برای شناسایی ناهنجاریها، درک ترجیحات خاص و انجام پیشبینیهای دقیق حیاتی است. به عنوان مثال، Google Flu Trends از میلیاردها جستجوی اینترنتی برای پیشبینی شیوع آنفولانزا در سطح شهر استفاده میکند، که این کار با مجموعهدادههای کوچکتر و نمونهبرداری شده غیرممکن است.
محدودیتهای نمونهبرداری. در حالی که نمونهبرداری تصادفی یک میانبر موفق بوده است، اما با ضعفهای ذاتی همراه است. دقت آن به اطمینان از تصادفی بودن بستگی دارد که دستیابی به آن دشوار است و به راحتی نمیتوان آن را برای شامل کردن زیرمجموعهها گسترش داد. با پذیرش مجموعهدادههای جامع، میتوانیم این محدودیتها را پشت سر بگذاریم و امکانات جدیدی برای تحلیل و درک ایجاد کنیم.
2. پذیرش بینظمی: دادههای ناقص میتوانند بینشهای برتری ارائه دهند
در ازای کاهش استانداردهای خطاهای مجاز، میتوان به دادههای بسیار بیشتری دست یافت.
معامله دقت برای مقیاس. در دنیای دادههای کلان، تمایل به پذیرش بینظمی میتواند یک ویژگی مثبت باشد. در حالی که تحلیل سنتی بر کیفیت و دقت دادهها تأکید دارد، دادههای کلان این واقعیت را میپذیرد که حجم بالای اطلاعات میتواند جبرانکنندهی خطاهای فردی باشد. این معامله به ما اجازه میدهد با دادههای دنیای واقعی کار کنیم که اغلب ناقص، ناسازگار و بدون ساختار هستند.
بیشتر بهتر است. آزمایش محققان مایکروسافت با بررسی گرامر نشان داد که یک الگوریتم ساده با یک میلیارد کلمه بهتر از یک الگوریتم پیچیده با یک میلیون کلمه عمل میکند. سیستم ترجمهی گوگل به خوبی کار میکند زیرا از یک مجموعهداده بزرگ اما بسیار بینظم استفاده میکند: کل اینترنت جهانی و بیشتر.
بینظمی در عمل. پروژهی قیمتهای میلیاردی که بهصورت زنده تورم را با جمعآوری دادهها از خردهفروشان آنلاین ردیابی میکند، بینظمی را در ازای مقیاس و بهموقع بودن میپذیرد. بهطور مشابه، سیستمهای برچسبگذاری در پلتفرمهایی مانند فلیکر عدم دقت را برای ایجاد روشی غنیتر و انعطافپذیرتر برای سازماندهی محتوا میپذیرند. با پذیرش بینظمی، میتوانیم بینشهای جدیدی را کشف کنیم و خدمات ارزشمندی ایجاد کنیم که با روشهای سنتی غیرممکن است.
3. همبستگی بر علتمندی ارجحیت دارد: دانستن "چه" اغلب کافی است
در دنیای دادههای کلان، ما نیازی به تمرکز بر علتمندی نداریم؛ بلکه میتوانیم الگوها و همبستگیها را در دادهها کشف کنیم که بینشهای جدید و ارزشمندی را به ما ارائه میدهند.
قدرت پیشبینی. دادههای کلان تمرکز را از درک اینکه چرا چیزی اتفاق میافتد به پیشبینی اینکه چه اتفاقی خواهد افتاد تغییر میدهد. با شناسایی همبستگیهای قوی، میتوانیم پیشبینیهای دقیقی انجام دهیم حتی بدون اینکه علل زیرین را بدانیم. این رویکرد انقلابی در تجارت الکترونیک، بهداشت و بسیاری از زمینههای دیگر ایجاد کرده است.
نمونههایی از پیشبینیهای مبتنی بر همبستگی:
- سیستم توصیهگر آمازون محصولات را بر اساس تاریخچه خرید پیشنهاد میدهد، نه بر اساس درک اینکه چرا مشتریان برخی اقلام را دوست دارند.
- والمارت قبل از طوفانها پاپتارتها را بر اساس دادههای فروش تاریخی انبار میکند، نه بر اساس درک دلایل روانشناختی پشت همبستگی.
- نمرهی پایبندی به داروهای FICO پیشبینی میکند که آیا افراد داروهای خود را مصرف خواهند کرد یا خیر، بر اساس عواملی مانند مالکیت خانه و مدت زمان اشتغال، نه بر اساس درک باورهای بهداشتی فردی آنها.
محدودیتهای علتمندی. در حالی که انسانها به طور طبیعی تمایل دارند به دنبال توضیحات علتمندی باشند، این میتواند اغلب منجر به سوگیریها و نتیجهگیریهای نادرست شود. در مقابل، تحلیل همبستگی به ما این امکان را میدهد که الگوها و روابطی را کشف کنیم که ممکن است هرگز به آنها فکر نکرده باشیم. با پذیرش "چه" به جای "چرا"، میتوانیم بینشهای جدیدی را کشف کنیم و تصمیمات مؤثرتری بگیریم.
4. دادهسازی: تبدیل نامحسوس به دادههای قابل اندازهگیری
دادهسازی به معنای تبدیل اطلاعات دربارهی تمام چیزها، از جمله مواردی که هرگز به عنوان اطلاعات در نظر گرفته نمیشدند، به فرمت دادهای برای قابل اندازهگیری کردن است.
اندازهگیری جهان. دادهسازی فرآیند تبدیل اطلاعات دربارهی تمام چیزها، از جمله مواردی که به طور سنتی به عنوان داده در نظر گرفته نمیشوند، به فرمت قابل اندازهگیری است. این امکان را به ما میدهد که اطلاعات را به روشهای جدیدی تحلیل و استفاده کنیم، مانند تحلیل پیشبینی. این امر ارزش ضمنی و نهفتهی اطلاعات را آزاد میکند.
نمونههایی از دادهسازی:
- سیستم پروفسور کوشیمیزو موقعیتهای نشستن را به داده تبدیل میکند تا دزدان خودرو را شناسایی کند.
- موری لاگهای قدیمی کشتیها را به داده تبدیل کرد تا نقشههای ناوبری ایجاد کند.
- گوگل جستجوهای اینترنتی را به داده تبدیل میکند تا شیوع آنفولانزا را پیشبینی کند.
دادهسازی در مقابل دیجیتالیسازی. دادهسازی با دیجیتالیسازی متفاوت است، که به سادگی فرآیند تبدیل اطلاعات آنالوگ به فرمت دیجیتال است. دادهسازی فراتر میرود و اطلاعات را به شکلی ساختاریافته و قابل اندازهگیری تبدیل میکند که میتوان آن را تحلیل و برای اهداف جدید استفاده کرد.
5. ارزش دادهها در استفاده مجدد و آزادسازی پتانسیل نهفته است
هر مجموعهدادهای احتمالاً دارای مقداری ارزش ذاتی، پنهان و هنوز کشف نشده است و رقابت برای کشف و ضبط تمام آن در حال انجام است.
فراتر از استفاده اولیه. ارزش دادهها دیگر محدود به هدف اصلی آن نیست. در عصر دادههای کلان، ارزش واقعی دادهها در پتانسیل آنها برای استفاده مجدد و آزادسازی ارزش نهفته است. این نیاز به تغییر نگرش از در نظر گرفتن دادهها به عنوان یک منبع ایستا به شناسایی آنها به عنوان یک دارایی پویا دارد.
نمونههایی از استفاده مجدد از دادهها:
- گوگل از جستجوهای اینترنتی برای پیشبینی شیوع آنفولانزا و بهبود ترجمه زبان استفاده میکند.
- UPS از دادههای حسگر خودروهای خود برای پیشبینی مشکلات موتور و بهینهسازی مسیرها استفاده میکند.
- آویوا از گزارشهای اعتباری و دادههای بازاریابی مصرفکننده برای ارزیابی ریسکهای بهداشتی استفاده میکند.
ارزش گزینهای دادهها. ارزش واقعی دادهها مجموع تمام راههای ممکن است که میتوانند در آینده مورد استفاده قرار گیرند. این "ارزش گزینهای" میتواند از طریق تحلیل نوآورانه، ترکیب با سایر مجموعهدادهها و ایجاد خدمات جدید آزاد شود. با شناسایی و بهرهبرداری از این پتانسیل، سازمانها میتوانند ارزش اقتصادی قابل توجهی ایجاد کرده و مزیت رقابتی کسب کنند.
6. دادههای کلان صنایع را متحول میکند و ارزش تخصص را کاهش میدهد
تخصص در زمینههای خاص در دنیایی که احتمال و همبستگی در اولویت است، کمتر اهمیت دارد.
تغییر دینامیکهای قدرت. دادههای کلان صنایع را متحول میکند و به چالش کشیدن مفاهیم سنتی تخصص و تصمیمگیری را به همراه دارد. در دنیایی که احتمال و همبستگی در اولویت است، تخصص در زمینههای خاص کمتر اهمیت دارد. این تغییر در حال مختل کردن سلسلهمراتبهای مستقر و توانمندسازی بازیگران جدید است.
اثر مانیبال. فیلم مانیبال نشان میدهد که چگونه تحلیل مبتنی بر داده میتواند بر تخصص سنتی غلبه کند. شکارچیان بیسبال با آمارشناسانی که از دادهها برای شناسایی بازیکنان undervalued و ساخت یک تیم برنده استفاده میکردند، جایگزین شدند.
تخصص در زمینههای خاص کمتر اهمیت دارد. ظهور دادههای کلان نیاز به تعدیل ایدههای سنتی مدیریت، تصمیمگیری، منابع انسانی و آموزش دارد. متخصصان موضوعی نخواهند رفت، اما باید با آنچه که تحلیل دادههای کلان میگوید، کنار بیایند.
7. حریم خصوصی، تمایل و خطرات قدرت بیحد و حصر دادهها
بیشتر نهادهای ما بر اساس این فرض تأسیس شدهاند که تصمیمات انسانی بر اساس اطلاعاتی کوچک، دقیق و علتمند است.
سوی تاریک دادهها. در حالی که دادههای کلان مزایای زیادی را ارائه میدهند، همچنین خطرات قابل توجهی برای حریم خصوصی، آزادی و انصاف به همراه دارند. قدرت بیحد و حصر دادهها میتواند منجر به افزایش نظارت، مجازاتها بر اساس تمایلات و دیکتاتوری دادهها شود.
از حریم خصوصی به احتمال. خطر از حریم خصوصی به احتمال تغییر میکند: الگوریتمها احتمال اینکه فردی دچار حمله قلبی شود، در پرداخت وام مسکن دچار مشکل شود یا مرتکب جرم شود را پیشبینی خواهند کرد. این به یک ملاحظه اخلاقی در مورد نقش اراده آزاد در مقابل دیکتاتوری دادهها منجر میشود.
دیکتاتوری دادهها. ما در معرض خطر قرار داریم که قربانی دیکتاتوری دادهها شویم، جایی که به اطلاعات، خروجی تحلیلهای خود، وابسته میشویم و در نهایت از آن سوءاستفاده میکنیم. جامعه هزاران سال تجربه در درک و نظارت بر رفتار انسانی دارد. اما چگونه میتوان یک الگوریتم را تنظیم کرد؟
8. پاسخگویی، اراده انسانی و حسابرسی الگوریتم: حاکمیت دادههای کلان
برای عصر دادههای کلان به اصول جدیدی نیاز است که در فصل نهم به آنها پرداختهایم.
اصول جدید برای یک عصر جدید. عصر دادههای کلان نیاز به قوانین و اصول جدیدی دارد تا حقوق فردی را حفظ کرده و انصاف را تضمین کند. این اصول باید بر اساس ارزشهای موجود بنا شوند اما همچنین چالشهای منحصر به فردی که دادههای کلان به همراه دارند را شناسایی کنند.
استفاده مسئولانه. تغییر تمرکز از رضایت فردی به پاسخگویی کاربران داده برای حفاظت از حریم خصوصی ضروری است. کاربران داده باید مسئولیت اعمال خود را بر عهده بگیرند و اقداماتی برای کاهش آسیبهای احتمالی انجام دهند.
اراده انسانی. ما باید اراده انسانی را تضمین کنیم و اطمینان حاصل کنیم که قضاوتها بر اساس اقدامات واقعی، نه پیشبینیهای آماری، انجام میشود. این نیاز به بازتعریف عدالت دارد تا آزادی و مسئولیت فردی را حفظ کند.
حسابرسی الگوریتم. نهادها و متخصصان جدیدی برای حسابرسی و تفسیر الگوریتمهای پیچیده مورد نیاز هستند تا شفافیت و پاسخگویی را تضمین کنند. این "الگوریتمیستها" نقش حیاتی در حفاظت از سوءاستفاده از دادههای کلان ایفا خواهند کرد.
خلاصه نقدها
کتاب دادههای کلان نظرات متنوعی را به خود جلب کرده است؛ از یک سو، به خاطر ارائهی خلاصهای قابل فهم از موضوع و مثالهای روشنگرانه مورد تحسین قرار گرفته و از سوی دیگر، منتقدان به تکرار و سادهسازی بیش از حد آن اشاره کردهاند. خوانندگان از بینشهایی که دربارهی تأثیر دادهها بر جامعه، نگرانیهای حریم خصوصی و پیامدهای آینده ارائه میدهد، قدردانی میکنند. برخی محتوا را قدیمی یا فاقد عمق میدانند. این کتاب برای کسانی که با مفاهیم دادههای کلان آشنا نیستند، توصیه میشود، اما ممکن است برای کارشناسان ناامیدکننده باشد. بهطور کلی، این کتاب بهعنوان یک مقدمهی تفکر برانگیز به حوزهای که روزبهروز اهمیت بیشتری پیدا میکند، شناخته میشود، هرچند که در دامنه و جزئیات محدودیتهایی دارد.
دیگران نیز خواندهاند
سؤالات متداول
What is "Big Data: A Revolution That Will Transform How We Live, Work, and Think" by Viktor Mayer-Schönberger about?
- Big Data Revolution Overview: The book explores how the explosion of data and new analytical techniques are transforming society, business, healthcare, and governance.
- Shift in Data Analysis: It highlights the move from small, exact datasets to vast, messy ones, focusing on correlations rather than causality.
- Societal and Ethical Implications: The authors discuss both the benefits and risks of big data, including privacy concerns and the need for new governance principles.
- Real-World Case Studies: Examples like Google Flu Trends and Farecast illustrate how big data is applied in practice.
Why should I read "Big Data: A Revolution That Will Transform How We Live, Work, and Think" by Viktor Mayer-Schönberger?
- Comprehensive Introduction: The book offers an accessible yet thorough introduction to big data’s impact across sectors, making it suitable for both novices and experts.
- Mindset Shifts: It explains the fundamental changes in thinking required to leverage big data, such as embracing messiness and prioritizing correlation.
- Practical and Ethical Guidance: The authors provide frameworks for harnessing big data’s potential while addressing privacy and ethical challenges.
- Preparation for the Future: Reading it equips you to navigate and succeed in an increasingly data-driven world.
What are the key takeaways from "Big Data: A Revolution That Will Transform How We Live, Work, and Think" by Viktor Mayer-Schönberger?
- Three Major Shifts: The book identifies using all data (N=all), embracing messiness, and valuing correlation over causality as core changes in data analysis.
- Data as a New Asset: Data is positioned as a vital economic input, with value increasing through reuse and combination.
- Risks and Governance: It stresses the need for new privacy frameworks and algorithmic accountability to manage big data’s risks.
- Changing Expertise: The rise of data skills and the decline of traditional subject-matter supremacy are highlighted as workforce trends.
How does "Big Data" by Viktor Mayer-Schönberger define and explain the concept of datafication?
- Definition of Datafication: Datafication is the process of turning aspects of life—like behavior, location, and interactions—into quantifiable data for analysis.
- Difference from Digitization: Unlike digitization, which converts analog to digital, datafication makes intangible phenomena measurable and analyzable.
- Historical and Modern Context: The book traces datafication from early record-keeping to modern GPS and sensor data, showing its deep roots and current acceleration.
- Enabling New Insights: Datafication expands what can be analyzed, leading to innovations in health, advertising, and urban management.
What are the main mindset shifts about data analysis described in "Big Data" by Viktor Mayer-Schönberger?
- From Sampling to N=all: The book advocates analyzing entire datasets instead of small samples, reducing sampling bias and increasing insight granularity.
- Embracing Messiness: It encourages tolerating imperfect, inconsistent data, as large volumes can compensate for inaccuracies and yield better results.
- Prioritizing Correlation Over Causality: The focus shifts to finding predictive correlations rather than understanding underlying causes, challenging traditional scientific approaches.
- Actionable Insights: These shifts enable faster, more practical decision-making in business, health, and governance.
How does "Big Data" by Viktor Mayer-Schönberger explain the use of correlations instead of causality in data analysis?
- Correlation as a Tool: The book shows that correlations allow for accurate predictions without needing to understand why phenomena occur.
- Practical Examples: Cases like Amazon’s recommendations and Walmart’s hurricane inventory illustrate how knowing “what” is happening can be sufficient.
- Limitations of Causality: Establishing causality is often impractical; big data’s abundance makes correlation-based analysis more feasible and sometimes more useful.
- Bias Correction: The authors argue that humans are prone to see causality where none exists, making correlation-based approaches a valuable corrective.
What is the "option value of data" according to "Big Data" by Viktor Mayer-Schönberger?
- Definition of Option Value: Data’s value lies not just in its primary use but in its potential for novel, secondary applications.
- Reuse and Combination: Combining datasets can unlock insights and value that are impossible from isolated data sources.
- Business Implications: Companies that recognize and exploit the option value of data gain competitive advantages and create new business models.
- Challenges in Valuation: Traditional accounting often fails to capture data’s true worth, making it an underappreciated asset.
How does "Big Data" by Viktor Mayer-Schönberger categorize big data companies and their roles in the data value chain?
- Data Holders: These organizations control access to large datasets but may not analyze or innovate with the data themselves (e.g., MasterCard).
- Data Specialists: Firms with analytics expertise extract insights from data, often serving clients who own the data (e.g., Accenture).
- Big-Data Mindset Innovators: Individuals or startups who creatively use data, sometimes without initially owning it, to disrupt industries (e.g., FlightCaster, Decide.com).
- Success Through Combination: The most successful companies combine data access, analytical skills, and innovative thinking.
What are the main risks and challenges of big data discussed in "Big Data" by Viktor Mayer-Schönberger?
- Privacy Erosion: The scale and depth of personal data collection make traditional privacy protections inadequate, and anonymization is often ineffective.
- Predictive Punishment: Using analytics to penalize individuals based on predicted behavior raises ethical and legal concerns about justice and free will.
- Overreliance on Data: The “dictatorship of data” can lead to decisions that ignore context, causality, or human judgment, with historical examples as warnings.
- Need for New Governance: The book calls for new frameworks to manage these risks responsibly.
How does "Big Data" by Viktor Mayer-Schönberger address privacy and propose new governance solutions?
- Limitations of Consent: The traditional “notice and consent” model is inadequate for big data, as future uses of data are often unforeseeable.
- Accountability Shift: The authors propose holding data users accountable for their actions, including formal risk assessments and regulatory oversight.
- Technical Solutions: Innovations like differential privacy are discussed as ways to protect individual identities while preserving data utility.
- Algorithm Auditing: The book advocates for a new class of professionals (“algorithmists”) to audit and certify algorithms for fairness and transparency.
How does "Big Data" by Viktor Mayer-Schönberger describe the changing role of expertise and decision-making in the big data era?
- Decline of Traditional Expertise: Data analysis skills and the ability to interpret correlations are becoming more valuable than deep subject-matter knowledge.
- Rise of Data-Driven Decisions: Organizations increasingly rely on predictive models and analytics, reducing dependence on intuition or gut feeling.
- Interdisciplinary Skills Needed: Mathematics, statistics, programming, and data science are foundational, complementing domain knowledge.
- Examples in Practice: Sports teams, tech companies, and city governments are highlighted as early adopters of data-driven decision-making.
What are the most memorable quotes from "Big Data" by Viktor Mayer-Schönberger and what do they mean?
- “To measure is to know.” — Lord Kelvin: Emphasizes the importance of quantification for understanding, a theme central to big data’s expansion of measurement.
- “More trumps better.” — Big Data Principle: Suggests that large, messy datasets often yield better insights than small, clean ones, challenging traditional data quality norms.
- “Big data is about what, not why.” — Core Insight: Highlights the shift from seeking causal explanations to focusing on predictive correlations.
- “Data is a platform.” — Tim O’Reilly: Underlines data’s foundational role in enabling new products, services, and business models in the digital economy.