Facebook Pixel
Searching...
فارسی
EnglishEnglish
EspañolSpanish
简体中文Chinese
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
Python for Data Analysis

Python for Data Analysis

توسط Wes McKinney 2011 400 صفحات
4.17
2k+ امتیازها
گوش دادن
گوش دادن

نکات کلیدی

1. تسلط بر ساختارها و توابع داده‌ای داخلی پایتون

پایتون به دلیل سهولت استفاده در پردازش رشته‌ها و متن، به مدت طولانی به عنوان یک زبان محبوب برای دستکاری داده‌های خام شناخته شده است.

بلوک‌های سازنده‌ی بنیادی. ساختارهای داده‌ای داخلی پایتون مانند لیست‌ها، تاپل‌ها، دیکشنری‌ها و مجموعه‌ها، پایه و اساس تحلیل داده‌ها را تشکیل می‌دهند. لیست‌ها و تاپل‌ها توالی‌های مرتب را ذخیره می‌کنند، در حالی که دیکشنری‌ها و مجموعه‌ها امکان جستجوی سریع و ذخیره‌سازی مقادیر منحصر به فرد را فراهم می‌کنند. این ساختارها از عملیات‌های مختلفی پشتیبانی می‌کنند:

  • عملیات لیست: اضافه کردن، گسترش، درج، حذف
  • متدهای دیکشنری: keys()، values()، items()
  • عملیات مجموعه: اتحاد، اشتراک، تفاوت

توابع داخلی پایتون، مانند len()، range()، zip() و enumerate()، ابزارهای قدرتمندی برای دستکاری داده‌ها ارائه می‌دهند. درک لیست‌ها راهی مختصر برای ایجاد لیست‌های جدید بر اساس لیست‌های موجود است که معمولاً جایگزین حلقه‌های سنتی می‌شود.

2. استفاده از NumPy برای محاسبات عددی کارآمد

NumPy به طور داخلی داده‌ها را در یک بلوک پیوسته از حافظه ذخیره می‌کند که مستقل از سایر اشیاء داخلی پایتون است.

آرایه‌های با عملکرد بالا. ndarray در NumPy سنگ بنای محاسبات عددی در پایتون است و امکانات زیر را ارائه می‌دهد:

  • ذخیره‌سازی و عملیات کارآمد بر روی آرایه‌های بزرگ
  • قابلیت پخش برای کار با آرایه‌های با اشکال مختلف
  • عملیات وکتوری که نیاز به حلقه‌های صریح را از بین می‌برد

توابع جهانی NumPy (ufuncs) عملیات سریع عنصر به عنصر بر روی آرایه‌ها را فراهم می‌کنند، مانند np.sqrt()، np.exp() و np.maximum(). این توابع می‌توانند بر روی کل آرایه‌ها به طور همزمان عمل کنند و عملکرد را به طور قابل توجهی نسبت به پیاده‌سازی‌های خالص پایتون بهبود بخشند.

عملیات جبر خطی، تولید اعداد تصادفی و تبدیل فوریه نیز در NumPy موجود است که آن را به ابزاری ضروری برای محاسبات علمی و تحلیل داده‌ها تبدیل می‌کند.

3. استفاده از pandas برای دستکاری و تحلیل داده‌ها

pandas ابزاری اصلی در طول بخش‌های زیادی از کتاب خواهد بود.

ساختارهای داده برای تحلیل. pandas دو ساختار داده اصلی را معرفی می‌کند:

  • Series: آرایه‌ی یک‌بعدی با برچسب
  • DataFrame: ساختار داده‌ی دو‌بعدی با برچسب که شامل ستون‌هایی با انواع مختلف است

این ساختارها قابلیت‌های قدرتمندی برای ایندکس‌گذاری و هم‌راستایی داده‌ها ارائه می‌دهند. ویژگی‌های کلیدی شامل:

  • مدیریت داده‌های گمشده
  • ادغام و پیوستن به مجموعه‌های داده
  • تغییر شکل و چرخش داده‌ها
  • قابلیت‌های سری زمانی

pandas در بارگذاری داده‌ها از منابع مختلف (CSV، Excel، پایگاه‌های داده) برتری دارد و ابزارهایی برای پاک‌سازی، تبدیل و تحلیل داده‌ها فراهم می‌کند. ادغام آن با NumPy امکان انتقال بی‌دردسر بین دستکاری داده‌ها و محاسبات عددی را فراهم می‌آورد.

4. ایجاد تجسم‌های بصری با matplotlib و seaborn

matplotlib یک بسته‌ی ترسیم دسکتاپ است که برای ایجاد نمودارها و شکل‌هایی مناسب برای انتشار طراحی شده است.

کاوش بصری داده‌ها. Matplotlib یک رابط ترسیم مشابه MATLAB در پایتون ارائه می‌دهد و امکانات زیر را فراهم می‌کند:

  • نمودارهای خطی، نمودارهای پراکنده، نمودارهای میله‌ای، هیستوگرام‌ها و بیشتر
  • عناصر قابل تنظیم نمودار (رنگ‌ها، برچسب‌ها، افسانه‌ها و غیره)
  • پشتیبانی از انواع مختلف نمودارها در یک شکل

Seaborn، که بر پایه‌ی matplotlib ساخته شده است، امکانات زیر را ارائه می‌دهد:

  • تجسم داده‌های آماری
  • تم‌های داخلی برای نمودارهای جذاب
  • رابط کاربری سطح بالا برای انواع نمودارهای رایج

این کتابخانه‌ها به طور مشترک امکان ایجاد تجسم‌های با کیفیت انتشار برای کاوش و ارائه داده‌ها را فراهم می‌کنند. ادغام با pandas امکان ترسیم آسان اشیاء DataFrame و Series را فراهم می‌آورد.

5. مدیریت مؤثر داده‌های سری زمانی

داده‌های سری زمانی یک شکل مهم از داده‌های ساختاریافته در زمینه‌های مختلفی مانند مالی، اقتصادی، بوم‌شناسی، علوم اعصاب و فیزیک هستند.

تحلیل داده‌های زمانی. pandas ابزارهای قدرتمندی برای کار با داده‌های مبتنی بر زمان ارائه می‌دهد:

  • DatetimeIndex و PeriodIndex برای ایندکس‌گذاری مبتنی بر زمان
  • نمونه‌برداری و تبدیل فرکانس
  • محاسبات پنجره‌ای متحرک
  • مدیریت منطقه زمانی

این ویژگی‌ها امکان تحلیل کارآمد داده‌های سری زمانی را فراهم می‌کنند، از جمله:

  • تولید دامنه‌های تاریخی
  • جابجایی داده‌ها
  • عملیات تأخیری و پیشرو
  • تحلیل مبتنی بر دوره

توانایی مدیریت فرکانس‌های زمانی مختلف (روزانه، ماهانه، سه‌ماهه) و انجام محاسبات مبتنی بر تقویم، pandas را به ابزاری بسیار مفید برای تحلیل داده‌های مالی و اقتصادی تبدیل می‌کند.

6. انجام تجمیع داده و عملیات گروهی

دسته‌بندی یک مجموعه داده و اعمال یک تابع به هر گروه، چه تجمیع و چه تبدیل، می‌تواند جزء حیاتی از یک جریان کار تحلیل داده باشد.

تحلیل مبتنی بر گروه. قابلیت groupby در pandas امکان تجمیع و تبدیل داده‌های قدرتمند را فراهم می‌کند:

  • تقسیم داده‌ها به گروه‌ها بر اساس یک یا چند کلید
  • اعمال توابع به هر گروه
  • ترکیب نتایج به یک ساختار داده جدید

عملیات رایج شامل:

  • تجمیع‌ها: جمع، میانگین، شمارش و غیره
  • تبدیل‌ها: استانداردسازی، رتبه‌بندی و غیره
  • توابع سفارشی که به گروه‌ها اعمال می‌شوند

این قابلیت به ویژه برای خلاصه‌سازی مجموعه‌های داده بزرگ، محاسبه آمار سطح گروه و انجام تبدیل‌های پیچیده داده بر اساس متغیرهای دسته‌ای مفید است.

7. ادغام pandas با کتابخانه‌های مدل‌سازی

pandas به طور کلی به کار با آرایه‌های تاریخ‌دار متمایل است، چه به عنوان یک ایندکس محور و چه به عنوان یک ستون در DataFrame.

آماده‌سازی داده برای مدل‌سازی. pandas انتقال بین دستکاری داده و مدل‌سازی آماری را تسهیل می‌کند:

  • تبدیل آسان بین اشیاء pandas و آرایه‌های NumPy
  • پشتیبانی از داده‌های دسته‌ای و ایجاد متغیرهای کاذب
  • ادغام با Patsy برای مشخص کردن فرمول مدل

این ویژگی‌ها امکان ادغام بی‌دردسر با کتابخانه‌های مدل‌سازی مانند statsmodels و scikit-learn را فراهم می‌آورد. ساختارهای داده‌ای pandas به راحتی می‌توانند به فرمت مورد نیاز این کتابخانه‌ها تبدیل شوند و فرآیند مدل‌سازی را تسهیل کنند.

8. کاوش مدل‌سازی آماری با statsmodels

statsmodels یک کتابخانه پایتون برای برازش انواع مختلف مدل‌های آماری، انجام آزمون‌های آماری و کاوش و تجسم داده‌ها است.

ابزارهای تحلیل آماری. Statsmodels مجموعه وسیعی از مدل‌های آماری و آزمون‌ها را ارائه می‌دهد:

  • مدل‌های رگرسیون خطی
  • تحلیل سری زمانی
  • مدل‌های خطی تعمیم‌یافته
  • آزمون‌های فرضیه

این کتابخانه هم API مبتنی بر فرمول (مشابه R) و هم API مبتنی بر آرایه را ارائه می‌دهد که امکان مشخص کردن مدل به صورت انعطاف‌پذیر را فراهم می‌کند. همچنین ابزارهای جامع تشخیص مدل و تفسیر نتایج را ارائه می‌دهد.

9. پیاده‌سازی یادگیری ماشین با scikit-learn

scikit-learn یکی از پرکاربردترین و مورد اعتمادترین ابزارهای یادگیری ماشین عمومی پایتون است.

جریان‌های کار یادگیری ماشین. Scikit-learn یک API یکپارچه برای وظایف مختلف یادگیری ماشین ارائه می‌دهد:

  • یادگیری تحت نظارت: طبقه‌بندی، رگرسیون
  • یادگیری بدون نظارت: خوشه‌بندی، کاهش ابعاد
  • انتخاب و ارزیابی مدل
  • پیش‌پردازش داده و مهندسی ویژگی

ویژگی‌های کلیدی شامل:

  • API یکسان fit/predict در مدل‌ها
  • ابزارهای اعتبارسنجی متقابل
  • ایجاد پایپ‌لاین برای جریان‌های کار انتها به انتها
  • مستندات و مثال‌های گسترده

ادغام این کتابخانه با pandas و NumPy امکان گنجاندن بی‌دردسر تکنیک‌های یادگیری ماشین در جریان‌های کار تحلیل داده را فراهم می‌آورد.

آخرین به‌روزرسانی::

FAQ

What's Python for Data Analysis about?

  • Focus on Data Manipulation: The book is centered on manipulating, processing, cleaning, and analyzing data using Python. It provides a comprehensive guide to the Python programming language and its data-oriented library ecosystem.
  • Tools and Libraries: It emphasizes essential libraries like pandas, NumPy, and Jupyter, which are crucial for data analysis tasks. These tools are foundational for anyone looking to become an effective data analyst.
  • Practical Approach: The book is designed to be practical, offering hands-on examples and code snippets that readers can directly apply to their data analysis projects.

Why should I read Python for Data Analysis?

  • Comprehensive Resource: The book is a key resource for university courses and professionals, covering essential tools and techniques for data analysis in Python.
  • Authoritative Source: Written by Wes McKinney, the creator of pandas, it offers insights directly from an expert, making it a valuable resource.
  • Updated Content: The third edition is updated with current versions of Python, NumPy, and pandas, ensuring readers learn the most relevant practices.

What are the key takeaways of Python for Data Analysis?

  • Data Wrangling Skills: Readers will learn how to manipulate and clean data effectively using pandas, focusing on reshaping, merging, and aggregating data.
  • Understanding NumPy: The book provides a solid foundation in NumPy, crucial for numerical computing in Python, enhancing data analysis capabilities.
  • Visualization Techniques: It covers basic data visualization using matplotlib, allowing readers to present their data analysis results effectively.

What are the best quotes from Python for Data Analysis and what do they mean?

  • "Python has become a popular and widespread language for data analysis.": Highlights Python's growing importance in data science, indicating its value for future career opportunities.
  • "It’s a good idea to be familiar with the documentation for the various statistics or machine learning frameworks.": Emphasizes the importance of staying updated with the latest tools and libraries in the evolving field of data science.
  • "The programming skills you have developed here will stay relevant for a long time into the future.": Reassures readers that the skills learned will remain applicable, making it a worthwhile endeavor.

How does Python for Data Analysis approach data wrangling?

  • Step-by-Step Guidance: The book provides a structured approach to data wrangling, starting with data loading and cleaning, making it easy to follow.
  • Use of Real Datasets: By using real datasets, it allows readers to practice data wrangling techniques in a realistic context, reinforcing concepts.
  • Focus on pandas: It extensively covers pandas, detailing its functionalities for data manipulation, crucial for effective data wrangling in Python.

What are the essential Python libraries discussed in Python for Data Analysis?

  • NumPy: Fundamental for numerical computing, providing support for multidimensional arrays and mathematical functions, essential for efficient data manipulation.
  • pandas: Emphasized for data manipulation and analysis, particularly for working with structured data, introducing key data structures like Series and DataFrame.
  • matplotlib: Used for creating visualizations, the book provides guidance on using it to visualize data effectively.

How does Python for Data Analysis help with data cleaning?

  • Data Preparation Techniques: Covers techniques for cleaning and preparing data, including handling missing values, filtering, and transforming data.
  • Using pandas for Cleaning: Provides practical examples of using pandas to clean data, such as removing duplicates and filling in missing values.
  • Real-World Examples: Includes real-world datasets and scenarios, allowing readers to see how data cleaning is applied in practice.

What is the significance of the DataFrame in Python for Data Analysis?

  • Tabular Data Structure: DataFrame is a two-dimensional, size-mutable, and potentially heterogeneous tabular data structure with labeled axes.
  • Data Manipulation: Allows for easy manipulation of data, including filtering, grouping, and aggregating, with numerous examples provided.
  • Integration with Other Libraries: Integrates well with other libraries like NumPy and matplotlib, facilitating complex data analysis tasks.

How does Python for Data Analysis address missing data?

  • Identifying Missing Values: Discusses methods for identifying and handling missing data, emphasizing the importance of recognizing missing values.
  • Filling and Dropping: Covers techniques for filling missing values and dropping rows or columns with missing data, allowing for dataset-specific approaches.
  • Using pandas Functions: Demonstrates how to use pandas functions like isna() and fillna() to manage missing data effectively.

What is the groupby method in pandas as explained in Python for Data Analysis?

  • Data Aggregation: The groupby method is used to split data into groups based on criteria, allowing for aggregation and transformation.
  • Flexible Grouping: Supports grouping by one or more columns, with various aggregation functions like mean, sum, and count.
  • Example Usage: For instance, df.groupby("key").mean() computes the mean of each group defined by unique values in the "key" column.

How can I create a pivot table in pandas as described in Python for Data Analysis?

  • Using pivot_table: Allows summarizing data by one or more keys, arranging data in a rectangular format.
  • Aggregation Functions: Specify aggregation functions like mean, sum, or count to compute statistics for the pivot table.
  • Example: df.pivot_table(index="day", columns="smoker", values="tip_pct", aggfunc="mean") creates a pivot table showing average tip percentages by day and smoking status.

How do I visualize data using pandas as per Python for Data Analysis?

  • Built-in Plotting: Pandas has built-in plotting capabilities through the plot attribute, simplifying visualizations directly from DataFrames and Series.
  • Integration with Matplotlib: Integrates well with matplotlib, allowing for customization of plots using its extensive features.
  • Example: df.plot(kind="bar") creates a bar plot of the DataFrame, demonstrating the ease of visualization with pandas.

نقد و بررسی

4.17 از 5
میانگین از 2k+ امتیازات از Goodreads و Amazon.

کتاب پایتون برای تحلیل داده‌ها به دلیل پوشش جامع خود از پانداس و دستکاری داده‌ها در پایتون، عمدتاً نقدهای مثبتی دریافت می‌کند. خوانندگان از مثال‌های عملی و توضیحات واضح آن، به‌ویژه برای کسانی که از زبان‌های دیگر به پایتون منتقل می‌شوند، تمجید می‌کنند. برخی از تمرکز بر پانداس به جای مفاهیم گسترده‌تر تحلیل داده و استفاده از مجموعه داده‌های تصادفی انتقاد می‌کنند. این کتاب برای یادگیری مدیریت داده‌ها ارزشمند تلقی می‌شود، اما ممکن است برای کاربران با تجربه بیش از حد طولانی باشد. به‌طور کلی، به عنوان منبعی مفید برای تسلط بر پانداس و تحلیل داده‌های مبتنی بر پایتون دیده می‌شود.

درباره نویسنده

وس مک‌کینی یکی از چهره‌های برجسته در جامعه‌ی علم داده‌ی پایتون است که بیشتر به عنوان خالق کتابخانه‌ی pandas شناخته می‌شود. تخصص او در تحلیل و پردازش داده‌ها در نوشته‌هایش که ترکیبی از دانش نظری و بینش‌های عملی است، به وضوح دیده می‌شود. پیشینه‌ی مک‌کینی به عنوان یک توسعه‌دهنده‌ی نرم‌افزار و دانشمند داده، رویکرد او به آموزش تحلیل داده‌های مبتنی بر پایتون را شکل داده است. کتاب او به خاطر توضیحات شفاف و پوشش جامع از قابلیت‌های pandas مورد تحسین قرار گرفته است. کارهای مک‌کینی به طور قابل توجهی به اکوسیستم پایتون برای تحلیل داده کمک کرده و وظایف پیچیده‌ی پردازش داده را برای برنامه‌نویسان و تحلیل‌گران قابل دسترس‌تر کرده است.

0:00
-0:00
1x
Dan
Andrew
Michelle
Lauren
Select Speed
1.0×
+
200 words per minute
Create a free account to unlock:
Requests: Request new book summaries
Bookmarks: Save your favorite books
History: Revisit books later
Ratings: Rate books & see your ratings
Try Full Access for 7 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
All summaries are free to read in 40 languages
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 10
📜 Unlimited History
Free users are limited to 10
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 73,530 books. That's 12,000+ hours of audio!
Day 4: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 7: Your subscription begins
You'll be charged on Feb 27,
cancel anytime before.
Consume 2.8x More Books
2.8x more books Listening Reading
Our users love us
50,000+ readers
"...I can 10x the number of books I can read..."
"...exceptionally accurate, engaging, and beautifully presented..."
"...better than any amazon review when I'm making a book-buying decision..."
Save 62%
Yearly
$119.88 $44.99/year
$3.75/mo
Monthly
$9.99/mo
Try Free & Unlock
7 days free, then $44.99/year. Cancel anytime.
Settings
Appearance
Black Friday Sale 🎉
$20 off Lifetime Access
$79.99 $59.99
Upgrade Now →