📑 Daftar Isi — Part 7
- Discriminative vs Generative — Classify vs Create
- Autoencoder — Kompresi & rekonstruksi
- VAE — Variational Autoencoder untuk generasi
- GAN: Konsep — Generator vs Discriminator
- Kode: DCGAN — Generate MNIST digits dari noise
- Training Tips — GANs terkenal susah di-train
- Evolusi Generative Models
- Ringkasan & Preview Part 8
1. Discriminative vs Generative
Classify gambar kucing vs MEMBUAT gambar kucing baru📋 Discriminative (Part 1-5)
Input gambar → Output label. "Ini kucing atau anjing?" Model MENILAI. P(y|x). Contoh: CNN, LSTM, BERT.
🎨 Generative (Part 7)
Input noise → Output gambar BARU. "Buat gambar kucing yang belum pernah ada." Model MENCIPTAKAN. P(x). Contoh: GAN, VAE, Diffusion.
2. Autoencoder — Kompresi & Rekonstruksi
Compress gambar ke vektor kecil, lalu reconstruct kembali🔄 Autoencoder — Encoder (Compress) → Latent Space → Decoder (Reconstruct)
4. GAN — Generator vs Discriminator
Pemalsu vs Detektif: dua network saling "bertarung"⚔️ GAN — Adversarial Training: Generator vs Discriminator
💡 Analogi: Pemalsu vs Detektif
Generator = pemalsu uang yang belajar membuat uang palsu semakin mirip asli. Discriminator = detektif yang belajar membedakan uang asli dan palsu. Keduanya saling "bertarung" — dan seiring waktu, kedua pihak makin jago. Akhirnya, Generator menghasilkan gambar yang tidak bisa dibedakan dari gambar asli, bahkan oleh Discriminator.
5. Kode: DCGAN — Generate MNIST
Deep Convolutional GAN: generate angka dari random noise6. GAN Training Tips
GANs terkenal susah dan tidak stabil. Ini cara mengatasinya.| Masalah | Gejala | Solusi |
|---|---|---|
| Mode Collapse | Generator hanya produce 1-2 jenis gambar | Label smoothing, minibatch discrimination |
| Training Oscillation | Loss naik-turun terus, tidak converge | Two-Timescale Update Rule (TTUR) |
| Vanishing Gradients | G berhenti belajar | Wasserstein loss (WGAN) |
| D terlalu kuat | D selalu menang, G tidak bisa improve | Train D lebih jarang, learning rate rendah |
7. Evolusi Generative Models
Dari GAN → Diffusion → Foundation Models| Tahun | Model | Breakthrough | Quality |
|---|---|---|---|
| 2014 | GAN (Goodfellow) | Adversarial training concept | Blurry |
| 2016 | DCGAN | CNN-based GAN, stable training | Decent |
| 2018 | StyleGAN (NVIDIA) | Photorealistic faces | Excellent |
| 2020 | DDPM | Diffusion models | Excellent |
| 2022 | Stable Diffusion | Text-to-image, open source | Amazing |
| 2024 | FLUX, SD3 | Consistency, quality, speed | Near-perfect |
| 2025-26 | Video Gen (Sora, Kling) | Text-to-video generation | Revolutionary |
8. Ringkasan Part 7
Generative AI fundamentals| Konsep | Apa Itu | Kode Kunci |
|---|---|---|
| Autoencoder | Compress → latent → reconstruct | Encoder + Decoder + MSELoss |
| VAE | AE + sampling dari distribusi | μ, σ → reparameterization trick |
| Generator | Noise → fake image | ConvTranspose2d (upsampling) |
| Discriminator | Image → real/fake? | Conv2d → Sigmoid |
| BCELoss | Binary cross-entropy | nn.BCELoss() |
| Adversarial | G dan D saling "bertarung" | Alternating optimization |
Next: Part 8 — Transformer dari Nol
Build Transformer architecture from scratch: Self-Attention, Multi-Head Attention, Positional Encoding. Fondasi GPT, BERT, dan semua LLM modern.