Wprowadzenie do uczenia maszynowego

Uczenie maszynowe (ML) to poddziedzina sztucznej inteligencji (AI), która koncentruje się na tworzeniu systemów komputerowych, które potrafią się uczyć, dostosowywać, przewidywać i korelować, a wszystko to bez wykonywania wyraźnych instrukcji.

Celem uczenia maszynowego jest zrozumienie i przetworzenie dużej ilości danych poprzez wykorzystanie algorytmów i tworzenie uogólnionych modeli, które mogą generować przyjazne dla użytkownika wyniki.

Uczenie maszynowe zwykle działa, wykonując poniższe kroki:

Zbieranie danych z różnych źródeł
Czyszczenie danych w celu uzyskania jednorodności
Budowa modelu z wykorzystaniem algorytmu ML
Uzyskiwanie wniosków z wyników modelu
Wizualizacja danych i przekształcanie wyników w graficzne wykresy

1. Zbieranie danych z różnych źródeł

Uczenie maszynowe wymaga dużej ilości danych, aby stworzyć model gotowy do produkcji.

Gromadzenie danych dla ML odbywa się na dwa sposoby: automatyczne i ręczne.

Zautomatyzowane gromadzenie danych wykorzystuje programy i skrypty, które pobierają dane z Internetu.
Ręczne gromadzenie danych to proces ręcznego gromadzenia danych i ich jednorodnego przygotowania.

Zautomatyzowane gromadzenie danych przy użyciu skrobania sieciowego w języku Python:

import requests
from bs4 import BeautifulSoup

# Scrape data from a website
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# Extract relevant information from the website
data = soup.find('div', class_='data-container').text
# Store the gathered data
with open('data.txt', 'w') as file:
    file.write(data)

2. Czyszczenie danych w celu uzyskania jednorodności

Zapewnienie jednorodności danych jest kluczowym krokiem, aby uczenie maszynowe mogło działać i generować wyniki.

Czyszczenie danych w przypadku uczenia maszynowego odbywa się ręcznie lub automatycznie za pomocą algorytmów i polega na naprawianiu i/lub usuwaniu nieprawidłowych, uszkodzonych, źle sformatowanych, zduplikowanych i niekompletnych danych w zestawie danych.

Czyszczenie danych za pomocą Pythona i pand:

import pandas as pd

# Read data from a CSV file
data = pd.read_csv('data.csv')

# Remove duplicates
data = data.drop_duplicates()

# Fix missing values by filling with mean
data['column_name'].fillna(data['column_name'].mean(), inplace=True)

# Remove incorrect or corrupted data
data = data[data['column_name'] > 0]

# Save cleaned data to a new file
data.to_csv('cleaned_data.csv', index=False)

3. Budowa modelu z wykorzystaniem algorytmu ML

ML (uczenie maszynowe) model to plik zawierający wyniki algorytmów uczenia maszynowego i używany do wnioskowania o wprowadzaniu dynamicznym.

Model ML (uczenie maszynowe) działa w ten sposób, że zawiera listę wzorców dopasowywanych do danych wejściowych w czasie rzeczywistym, a następnie generuje dane wyjściowe zgodnie z dopasowanym wzorcem.

Modele ML mogą mieć różne typy struktur, przy czym najpopularniejsze typy to: klasyfikacja binarna, klasyfikacja wieloklasowa, i regresja.

Binarny model klasyfikacji przewiduje wynik binarny, co oznacza jeden z dwóch możliwych wyników.
Model klasyfikacji wieloklasowej przewiduje jeden z więcej niż dwóch wyników.
Model regresji przewiduje wartości liczbowe.

Proces budowania modelu uczenia maszynowego nazywa się szkoleniem.

Trening uczenia maszynowego odbywa się za pomocą algorytmów i dzieli się na dwie kategorie: uczenie nadzorowane i uczenie się bez nadzoru.

Uczenie nadzorowane (SL) ma miejsce, gdy model ML jest szkolony przy użyciu danych oznaczonych etykietami, co oznacza dane, które mają zarówno wartości wejściowe, jak i wyjściowe.
Uczenie się bez nadzoru (UL) ma miejsce, gdy model uczenia maszynowego jest szkolony przy użyciu danych nieoznaczonych, czyli danych, które nie mają znaczników ani znanych wyników.

Sieci neuronowe (NN) stanowią rdzeń uczenia się bez nadzoru i polegają na mapowaniu danych w zbiorze danych, umożliwiając tworzenie korelacji.

Tworzenie binarnego modelu klasyfikacji przy użyciu biblioteki scikit-learn języka Python:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Load the dataset
X, y = load_dataset()

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Create a Logistic Regression model
model = LogisticRegression()

# Train the model
model.fit(X_train, y_train)

# Make predictions on the test set
y_pred = model.predict(X_test)

# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, y_pred)

4. Uzyskiwanie wniosków z wyników modelu

Wyciągnięcie wniosków z modeli uczenia maszynowego oznacza zrozumienie nieznanych wcześniej wzorców i przetestowanie zdolności modelu do przewidywania i wyciągania wniosków.

Zdobycie spostrzeżeń jest bardzo ważne, aby zweryfikować ważność modelu i określić, czy należy wprowadzić jakieś zmiany w algorytmie uczenia się.

Analizowanie ważności funkcji w wyszkolonym modelu za pomocą języka Python:

import matplotlib.pyplot as plt

# Get the feature importance scores
importances = model.coef_[0]

# Sort feature importance in descending order
sorted_indices = importances.argsort()[::-1]
sorted_importances = importances[sorted_indices]

# Plot the feature importance
plt.bar(range(len(sorted_importances)), sorted_importances)
plt.xticks(range(len(sorted_importances)), sorted_indices)
plt.xlabel('Feature Index')
plt.ylabel('Importance Score')
plt.title('Feature Importance')
plt.show()

5. Wizualizacja danych i przekształcanie wyników w graficzne wykresy

Wizualizacja danych modelu ML polega na umieszczeniu danych wyjściowych na wykresie i udostępnieniu interaktywnego API.

Tworzenie wykresu punktowego przewidywanych wartości za pomocą Pythona:

import matplotlib.pyplot as plt

# Get the predicted values
y_pred = model.predict(X)

# Create a scatter plot
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Predicted Values')
plt.show()

Wniosek

Powyższe przykłady kodu demonstrują praktyczne implementacje każdego etapu uczenia maszynowego, od gromadzenia i czyszczenia danych po budowanie modeli, spostrzeżenia i wizualizację danych.

ai sztuczna inteligencja ml maszyna uczenie się wprowadzenie dane python programowanie kodowanie skrypty przykład model pandy scikit-learn nlp