Seri Belajar PyTorch Part 2: Dataset, DataLoader & Klasifikasi MNIST

📚 Seri Belajar PyTorch:

1 2 3 4 5 6 7 8 9 10

📑 Daftar Isi — Part 2

Recap Part 1 — Apa yang sudah kita pelajari
Dataset MNIST — 70.000 gambar angka tulisan tangan
Transforms — Preprocessing gambar sebelum masuk model
DataLoader — Batch, shuffle, parallel loading
Membangun Classifier — Neural network untuk 10 kelas angka
Training Loop Lengkap — Train + evaluate + visualisasi loss
Evaluasi & Prediksi — Akurasi, confusion, dan prediksi real
Ringkasan & Preview Part 3

🔄

1. Recap Part 1

Fondasi yang sudah kita kuasai

Di Part 1, kita sudah belajar: Tensor (array multi-dimensi), Autograd (hitung gradient otomatis), dan membuat neural network pertama yang belajar y = 2x + 1 dari data. Sekarang kita naik level — dari data dummy ke data real: gambar tulisan tangan.

🖼️

2. Mengenal Dataset MNIST

70.000 gambar angka 0-9, masing-masing 28×28 pixel grayscale

MNIST (Modified National Institute of Standards and Technology) adalah dataset benchmark paling terkenal di machine learning — berisi 70.000 gambar angka tulisan tangan (0-9), masing-masing berukuran 28×28 pixel dalam grayscale.

🖼️ Contoh Gambar MNIST — Angka 0 sampai 9

📊 Training Set

60.000 gambar + label. Digunakan untuk melatih model. Data di-shuffle setiap epoch.

🧪 Test Set

10.000 gambar + label. Tidak pernah dilihat model saat training. Mengukur akurasi sebenarnya.

🔄

3. Transforms — Preprocessing Data

Konversi gambar → tensor, normalisasi nilai pixel

Sebelum gambar bisa masuk ke neural network, kita perlu transform: mengubah gambar PIL menjadi tensor dan normalisasi agar training lebih stabil.

05_transforms.py — Preprocessing Pipeline

import torchvision.transforms as transforms

# Pipeline preprocessing: jalankan berurutan
transform = transforms.Compose([
    transforms.ToTensor(),          # PIL Image → Tensor [0, 1]
    transforms.Normalize(
        (0.1307,),                  # mean MNIST
        (0.3081,)                   # std MNIST
    )
])

# Apa yang terjadi:
# 1. ToTensor(): gambar 28×28 pixel (0-255)
#    → Tensor shape [1, 28, 28] dengan nilai [0.0, 1.0]
# 2. Normalize(): (pixel - mean) / std
#    → Nilai terpusat di 0, spread ±1
#    → Training lebih stabil & cepat converge

🎓 Mengapa Normalisasi?

Tanpa normalisasi, pixel bernilai 0-255 — range yang terlalu besar. Gradient bisa meledak atau menghilang. Normalisasi membuat semua input dalam range yang seragam (~-0.4 sampai ~2.8 untuk MNIST), sehingga optimizer bekerja jauh lebih efisien. Nilai 0.1307 dan 0.3081 adalah mean dan std yang sudah dihitung dari seluruh dataset MNIST.

📦

4. Dataset & DataLoader

Muat data, bagi ke batch, shuffle, parallel loading

🔄 DataLoader Pipeline — Dari Dataset ke Batch

06_dataset_dataloader.py — Muat MNIST

import torch
from torch.utils.data import DataLoader
import torchvision
import torchvision.transforms as transforms

# ===========================
# 1. Transform pipeline
# ===========================
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

# ===========================
# 2. Download & muat dataset
# ===========================
train_dataset = torchvision.datasets.MNIST(
    root='./data',
    train=True,        # Training set (60K)
    download=True,     # Download jika belum ada
    transform=transform
)

test_dataset = torchvision.datasets.MNIST(
    root='./data',
    train=False,       # Test set (10K)
    download=True,
    transform=transform
)

print(f"Training: {len(train_dataset)} gambar")
print(f"Test:     {len(test_dataset)} gambar")
# Training: 60000 gambar
# Test:     10000 gambar

# ===========================
# 3. Buat DataLoader
# ===========================
train_loader = DataLoader(
    train_dataset,
    batch_size=64,      # 64 gambar per batch
    shuffle=True         # Acak setiap epoch
)

test_loader = DataLoader(
    test_dataset,
    batch_size=64,
    shuffle=False        # Test: tidak perlu acak
)

# ===========================
# 4. Intip satu batch
# ===========================
images, labels = next(iter(train_loader))
print(f"Batch images: {images.shape}")
print(f"Batch labels: {labels.shape}")
# Batch images: torch.Size([64, 1, 28, 28])
#               ↑batch ↑channel ↑height ↑width
# Batch labels: torch.Size([64])
#               ↑64 angka (0-9)

🎓 Kenapa Pakai Batch?

Melatih 60.000 gambar sekaligus = terlalu berat untuk memory. Satu gambar saja = terlalu noisy (gradient tidak stabil). Mini-batch (64) = sweet spot: cukup stabil untuk gradient yang baik, cukup kecil untuk muat di memory. Model melihat 64 gambar, hitung rata-rata error, update parameter sekali. Ulangi 937 kali = 1 epoch (semua data terlihat sekali).

🧠

5. Membangun Digit Classifier

Neural network dengan 2 hidden layers — input 784, output 10 kelas

🧠 Arsitektur Neural Network — MNIST Classifier

07_mnist_classifier.py — Full Classifier

import torch
import torch.nn as nn

class MNISTClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()         # [1,28,28] → [784]
        self.layers = nn.Sequential(
            nn.Linear(784, 256),            # Hidden 1
            nn.ReLU(),                       # Aktivasi
            nn.Linear(256, 128),            # Hidden 2
            nn.ReLU(),                       # Aktivasi
            nn.Linear(128, 10)              # Output (10 kelas)
        )

    def forward(self, x):
        x = self.flatten(x)               # Flatten gambar
        x = self.layers(x)                # Forward through layers
        return x

model = MNISTClassifier()

# Hitung total parameters
total = sum(p.numel() for p in model.parameters())
print(f"Total parameters: {total:,}")
# Total parameters: 235,146

🎓 Apa Itu ReLU?

ReLU (Rectified Linear Unit) = max(0, x). Jika input positif → loloskan. Jika negatif → jadikan 0. Ini "fungsi aktivasi" yang membuat network bisa belajar pola non-linear (bukan cuma garis lurus). Tanpa ReLU, network sekompleks apapun hanya bisa menghitung fungsi linear — yang tidak cukup untuk mengenali gambar.

🏋️

6. Training Loop Lengkap

Train 10 epoch + evaluasi setiap epoch + track loss

08_training_loop.py — Train + Evaluate

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
import torchvision
import torchvision.transforms as transforms

# === Setup (dari section sebelumnya) ===
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])
train_dataset = torchvision.datasets.MNIST('./data', train=True, download=True, transform=transform)
test_dataset  = torchvision.datasets.MNIST('./data', train=False, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader  = DataLoader(test_dataset, batch_size=64)

# === Model, Loss, Optimizer ===
model     = MNISTClassifier()          # Model dari section 5
loss_fn   = nn.CrossEntropyLoss()      # Untuk klasifikasi multi-kelas
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# === Training Function ===
def train_one_epoch(model, loader, loss_fn, optimizer):
    model.train()                       # Mode training
    total_loss = 0

    for images, labels in loader:
        pred = model(images)             # Forward pass
        loss = loss_fn(pred, labels)     # Hitung loss

        optimizer.zero_grad()            # Reset gradient
        loss.backward()                  # Hitung gradient
        optimizer.step()                 # Update parameter

        total_loss += loss.item()

    return total_loss / len(loader)

# === Evaluation Function ===
def evaluate(model, loader):
    model.eval()                        # Mode evaluasi
    correct = 0
    total = 0

    with torch.no_grad():             # Matikan gradient (hemat memory)
        for images, labels in loader:
            pred = model(images)
            _, predicted = pred.max(1)  # Ambil kelas dengan skor tertinggi
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    return 100.0 * correct / total

# === TRAINING! 🔥 ===
for epoch in range(10):
    loss = train_one_epoch(model, train_loader, loss_fn, optimizer)
    acc  = evaluate(model, test_loader)
    print(f"Epoch {epoch+1:2d} | Loss: {loss:.4f} | Acc: {acc:.1f}%")

# Output:
# Epoch  1 | Loss: 0.3421 | Acc: 95.2%
# Epoch  2 | Loss: 0.1543 | Acc: 96.4%
# Epoch  3 | Loss: 0.1089 | Acc: 96.9%
# Epoch  4 | Loss: 0.0842 | Acc: 97.2%
# Epoch  5 | Loss: 0.0681 | Acc: 97.4%
# Epoch  6 | Loss: 0.0554 | Acc: 97.5%
# Epoch  7 | Loss: 0.0449 | Acc: 97.6%
# Epoch  8 | Loss: 0.0378 | Acc: 97.7%
# Epoch  9 | Loss: 0.0310 | Acc: 97.7%
# Epoch 10 | Loss: 0.0254 | Acc: 97.8%  🎉

📉 Training Loss & Accuracy — 10 Epochs

🎉 97.8% Akurasi! Dari 10.000 gambar test, model kita benar mengenali 9.780 gambar. Hanya salah 220 — dan ini hanya dengan 2 hidden layers sederhana. Di Part 3 kita akan naik ke 99%+ dengan CNN (Convolutional Neural Network).

🔍

7. Evaluasi & Prediksi

Simpan model + prediksi gambar baru

09_evaluate_predict.py — Prediksi & Save

# ===========================
# 1. Prediksi gambar individual
# ===========================

# Ambil satu gambar dari test set
image, true_label = test_dataset[0]

# Prediksi
model.eval()
with torch.no_grad():
    output = model(image.unsqueeze(0))     # Tambah batch dimension
    probs  = torch.nn.functional.softmax(output, dim=1)
    pred   = output.argmax(dim=1).item()
    conf   = probs[0][pred].item() * 100

print(f"True label: {true_label}")
print(f"Predicted:  {pred}")
print(f"Confidence: {conf:.1f}%")
# True label: 7
# Predicted:  7
# Confidence: 99.8%  ✅

# ===========================
# 2. Simpan model untuk nanti
# ===========================

torch.save(model.state_dict(), 'mnist_model.pth')
print("Model tersimpan! 💾")

# Muat kembali:
loaded_model = MNISTClassifier()
loaded_model.load_state_dict(torch.load('mnist_model.pth'))
loaded_model.eval()
print("Model dimuat kembali! ✅")

📝

8. Ringkasan Part 2

Konsep baru yang kita kuasai

Konsep	Apa Itu	Kode Kunci
Dataset	Koleksi data + label. MNIST: 70K gambar angka.	`datasets.MNIST(root, train, transform)`
Transform	Pipeline preprocessing: gambar → tensor → normalize	`transforms.Compose([ToTensor(), Normalize()])`
DataLoader	Bagi data ke batch, shuffle, parallel loading	`DataLoader(dataset, batch_size=64, shuffle=True)`
Flatten	Ubah gambar 2D → vektor 1D untuk masuk ke Linear	`nn.Flatten() # [1,28,28] → [784]`
CrossEntropyLoss	Loss untuk klasifikasi multi-kelas (10 angka)	`nn.CrossEntropyLoss()`
Adam Optimizer	Optimizer adaptif — lebih baik dari SGD untuk kebanyakan kasus	`optim.Adam(model.parameters(), lr=0.001)`
model.train()	Aktifkan mode training (dropout, batchnorm aktif)	`model.train()`
model.eval()	Mode evaluasi (dropout off, batchnorm freeze)	`model.eval()`
torch.save()	Simpan model ke file untuk dipakai nanti	`torch.save(model.state_dict(), 'model.pth')`
softmax	Konversi output raw → probabilitas (jumlah = 1.0)	`F.softmax(output, dim=1)`

📗

Coming Next: Part 3 — CNN: Convolutional Neural Network

Dari 97.8% ke 99%+! Belajar Conv2d, pooling, feature maps — bagaimana CNN "melihat" gambar secara spatial. Plus: augmentasi data, dropout untuk mengurangi overfitting, dan visualisasi filter yang dipelajari model.

🔥

Tech Review Desk — Seri Belajar PyTorch

Tutorial hands-on. Sumber: pytorch.org docs, PyTorch Foundation, DigitalOcean, GeeksforGeeks, Nextjournal. PyTorch v2.7+ (2026).

📧 rominur@gmail.com • ✈️ t.me/Jekardah_AI — For collaboration & discussion