скачать книгу бесплатно
# Добавление нового столбца
df['Зарплата'] = [50000, 60000, 45000]
```
Операции с группами:
```python
# Группировка данных по столбцу 'Город' и вычисление среднего значения возраста в каждой группе
grouped_df = df.groupby('Город')['Возраст'].mean()
```
4. Визуализация данных с Pandas
Pandas также предоставляет встроенные средства для визуализации данных. Например, гистограмму можно построить следующим образом:
Давайте разберем пошагово строки кода:
– Импорт библиотек:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```
Здесь мы импортируем необходимые библиотеки. `pd` – это стандартное соглашение для обозначения библиотеки Pandas. `matplotlib.pyplot` используется для создания графиков, а `seaborn` – библиотека для стилизации графиков и добавления дополнительных функций визуализации.
– Создание данных:
```python
data = {'Имя': ['Анна', 'Борис', 'Виктория'],
'Возраст': [25, 30, 22],
'Город': ['Москва', 'Санкт-Петербург', 'Киев']}
df = pd.DataFrame(data)
```
Мы создаем простой DataFrame с тремя колонками: 'Имя', 'Возраст' и 'Город'. Эти данные представляют собой три записи с именами, возрастами и городами.
Настраиваем стиль seaborn:
```python
sns.set(style="whitegrid")
```
Эта строка устанавливает стиль для графика с помощью библиотеки seaborn. Здесь мы выбрали стиль "whitegrid", который добавляет белую сетку на фоне графика.
– Создаем гистограмму:
```python
plt.figure(figsize=(8, 6))
sns.histplot(df['Возраст'], bins=20, kde=True, color='skyblue')
```
Здесь мы создаем гистограмму для столбца 'Возраст' из DataFrame. `figsize=(8, 6)` устанавливает размер графика. `bins=20` указывает количество столбцов в гистограмме. `kde=True` добавляет оценку плотности на гистограмму. `color='skyblue'` задает цвет графика.
– Добавляем подписи и заголовок:
```python
plt.xlabel('Возраст', fontsize=12)
plt.ylabel('Частота', fontsize=12)
plt.title('Гистограмма возрастов', fontsize=14)
```
Эти строки добавляют подписи к осям и заголовок для улучшения понимания графика
– Добавляем сетку:
```python
plt.grid(axis='y', linestyle='–', alpha=0.7)
```
Эта строка добавляет горизонтальную сетку для лучшей читаемости.
– Показываем график:
```python
plt.show()
```
И наконец, эта строка отображает график.
Этот код создает красивую гистограмму с данными о возрасте и демонстрирует базовые шаги визуализации данных с использованием библиотек Pandas, Matplotlib и Seaborn в Python.
Pandas предоставляет эффективные инструменты для работы с табличными данными, что делает его широко используемым в анализе данных, машинном обучении и других областях. DataFrame позволяет легко выполнять множество операций, от фильтрации и группировки данных до визуализации результатов. Это делает Pandas мощным инструментом для аналитики и обработки данных в Python.
Приведем примеры фильтрации, сортировки и агрегации данных с использованием библиотеки Pandas на основе предположимого DataFrame с информацией о людях:
В этом примере мы использовали фильтрацию для выбора только тех записей, где возраст больше 25 лет.
Здесь мы отсортировали DataFrame по столбцу 'Возраст' в порядке убывания.
В данном примере мы использовали агрегацию для расчета среднего возраста и суммы зарплаты для каждого города.
Эти примеры показывают базовые операции фильтрации, сортировки и агрегации данных с Pandas, которые могут быть полезны при работе с табличными данными.
2.3. Matplotlib
Matplotlib – это библиотека для визуализации данных в языке программирования Python. Она предоставляет множество инструментов для создания различных типов графиков и диаграмм. Давайте рассмотрим несколько основных видов графиков и диаграмм, которые можно создать с помощью Matplotlib.
1. Линейный график
Линейный график подходит для визуализации зависимости одной переменной от другой. Рассмотрим пример:
```python
import matplotlib.pyplot as plt
# Создаем данные для примера
x = [1, 2, 3, 4, 5]
y = [10, 15, 7, 12, 9]
# Строим линейный график
plt.plot(x, y, marker='o', linestyle='-', color='b', label='Линейный график')
# Добавляем подписи и заголовок
plt.xlabel('X-ось')
plt.ylabel('Y-ось')
plt.title('Пример линейного графика')
plt.legend() # Добавляем легенду
# Показываем график
plt.show()
```
2. Гистограмма
Гистограмма используется для визуализации распределения данных. Пример:
```python
import matplotlib.pyplot as plt
import numpy as np
# Создаем данные для примера
data = np.random.randn(1000)
# Строим гистограмму
plt.hist(data, bins=30, color='skyblue', edgecolor='black')
# Добавляем подписи и заголовок
plt.xlabel('Значения')
plt.ylabel('Частота')
plt.title('Пример гистограммы')
# Показываем график
plt.show()
```
3. Круговая диаграмма
Круговая диаграмма отображает доли от целого. Пример:
```python
import matplotlib.pyplot as plt