Eksploracja biblioteki Pandas języka Python do analizy danych

Pandas to potężna biblioteka Pythona używana do manipulacji danymi i analizy. Dostarcza struktur danych i funkcji potrzebnych do bezproblemowej pracy ze strukturami danych. Dzięki łatwym w użyciu strukturom danych Pandas jest szczególnie przydatny do czyszczenia, transformacji i analizy danych. W tym artykule omówiono podstawowe funkcje Pandas i sposoby ich wykorzystania do wydajnego przetwarzania danych.

Pierwsze kroki z Pandami

Aby zacząć używać Pandas, musisz zainstalować go za pomocą pip. Możesz to zrobić, uruchamiając następujące polecenie:

pip install pandas

Podstawowe struktury danych

Pandas udostępnia dwie podstawowe struktury danych: Series i DataFrame.

Szereg

Seria to jednowymiarowy obiekt przypominający tablicę, który może przechowywać różne typy danych, w tym liczby całkowite, ciągi znaków i liczby zmiennoprzecinkowe. Każdy element w serii ma skojarzony indeks.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

Ramka danych

DataFrame to dwuwymiarowa, zmienna pod względem rozmiaru i heterogeniczna struktura danych tabelarycznych z opisanymi osiami (wiersze i kolumny). Jest to zasadniczo zbiór serii.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Manipulacja danymi

Pandas oferuje szeroką gamę funkcji umożliwiających przetwarzanie danych, w tym indeksowanie, wycinanie i filtrowanie.

Indeksowanie i dzielenie

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

Filtrowanie danych

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Czyszczenie danych

Czyszczenie danych jest kluczowym krokiem w analizie danych. Pandas udostępnia kilka metod obsługi brakujących danych, duplikatów rekordów i transformacji danych.

Obsługa brakujących danych

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

Usuwanie duplikatów

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

Wniosek

Pandas to niezbędne narzędzie do analizy danych w Pythonie. Jego potężne struktury danych i funkcje ułatwiają obsługę, manipulowanie i analizowanie danych. Opanowując Pandas, możesz znacznie zwiększyć swoje możliwości analizy danych i usprawnić swój przepływ pracy.