Eksploracja biblioteki Pandas języka Python do analizy danych
Pandas to potężna biblioteka Pythona używana do manipulacji danymi i analizy. Dostarcza struktur danych i funkcji potrzebnych do bezproblemowej pracy ze strukturami danych. Dzięki łatwym w użyciu strukturom danych Pandas jest szczególnie przydatny do czyszczenia, transformacji i analizy danych. W tym artykule omówiono podstawowe funkcje Pandas i sposoby ich wykorzystania do wydajnego przetwarzania danych.
Pierwsze kroki z Pandami
Aby zacząć używać Pandas, musisz zainstalować go za pomocą pip. Możesz to zrobić, uruchamiając następujące polecenie:
pip install pandas
Podstawowe struktury danych
Pandas udostępnia dwie podstawowe struktury danych: Series i DataFrame.
Szereg
Seria to jednowymiarowy obiekt przypominający tablicę, który może przechowywać różne typy danych, w tym liczby całkowite, ciągi znaków i liczby zmiennoprzecinkowe. Każdy element w serii ma skojarzony indeks.
import pandas as pd
# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)
Ramka danych
DataFrame to dwuwymiarowa, zmienna pod względem rozmiaru i heterogeniczna struktura danych tabelarycznych z opisanymi osiami (wiersze i kolumny). Jest to zasadniczo zbiór serii.
# Creating a DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
Manipulacja danymi
Pandas oferuje szeroką gamę funkcji umożliwiających przetwarzanie danych, w tym indeksowanie, wycinanie i filtrowanie.
Indeksowanie i dzielenie
# Selecting a single column
print(df['Name'])
# Selecting multiple columns
print(df[['Name', 'City']])
# Selecting rows by index
print(df.loc[0]) # First row
print(df.iloc[1]) # Second row
Filtrowanie danych
# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)
Czyszczenie danych
Czyszczenie danych jest kluczowym krokiem w analizie danych. Pandas udostępnia kilka metod obsługi brakujących danych, duplikatów rekordów i transformacji danych.
Obsługa brakujących danych
# Creating a DataFrame with missing values
data = {
'Name': ['Alice', 'Bob', None],
'Age': [25, None, 35]
}
df = pd.DataFrame(data)
# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)
Usuwanie duplikatów
# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)
Wniosek
Pandas to niezbędne narzędzie do analizy danych w Pythonie. Jego potężne struktury danych i funkcje ułatwiają obsługę, manipulowanie i analizowanie danych. Opanowując Pandas, możesz znacznie zwiększyć swoje możliwości analizy danych i usprawnić swój przepływ pracy.