๐ Daftar Isi โ Part 8
- Mengapa Transformer? โ Limitasi LSTM & birth of attention
- Self-Attention โ Q, K, V: "Kata mana yang harus diperhatikan?"
- Positional Encoding โ Berikan urutan ke parallelism
- Multi-Head Attention โ Perhatikan banyak aspek sekaligus
- Kode: Transformer Block โ Full implementation
- BERT vs GPT โ Encoder-only vs Decoder-only
- Ringkasan & Preview Part 9
1. Mengapa Transformer?
LSTM lambat & sequential. Transformer paralel & jauh lebih powerful.๐ LSTM (2015)
Sequential: 1 kata per step. Lambat untuk teks panjang. Sulit menangkap hubungan jarak jauh ("The cat, which sat on the mat, was..."). Tidak bisa diparalelkan โ training lambat.
โก Transformer (2017)
Parallel: SEMUA kata diproses sekaligus. Self-Attention menghubungkan SEMUA kata. Training massively parallel โ 100ร lebih cepat. Fondasi BERT, GPT, Claude.
2. Self-Attention โ "Siapa yang Harus Diperhatikan?"
Setiap kata bertanya: "Kata mana di kalimat ini yang relevan untuk memahami saya?"๐ฏ Self-Attention: "The cat sat on the mat"
๐ Formula: Attention(Q, K, V) = softmax(QKT / โdk) ยท V
QยทKT = seberapa "cocok" setiap pasangan kata (similarity score). Dibagi โdk untuk stabilitas numerik. Softmax mengubah skor jadi probabilitas (jumlah = 1). Dikalikan V untuk mendapat output akhir โ weighted average dari semua kata berdasarkan relevansi.
4. Multi-Head Attention
8 "kepala" attention melihat aspek berbeda secara paralel5. Full Transformer Block
Multi-Head Attention + Feed-Forward + LayerNorm + Residual6. BERT vs GPT โ Dua "Keturunan" Transformer
Encoder-only vs Decoder-only: dua paradigma berbeda| Aspek | BERT (Encoder) | GPT (Decoder) |
|---|---|---|
| Arsitektur | Encoder-only (bidirectional) | Decoder-only (autoregressive) |
| Attention | Melihat SEMUA kata (kiri+kanan) | Hanya melihat kata SEBELUMNYA |
| Training | Masked Language Model (isi kata yang dihapus) | Next Token Prediction (prediksi kata selanjutnya) |
| Best For | Classification, NER, QA, understanding | Text generation, chat, coding |
| Contoh | BERT, RoBERTa, DeBERTa | GPT-4, Claude, LLaMA, Gemini |
7. Ringkasan Part 8
Transformer fundamentals| Konsep | Apa Itu | Kode Kunci |
|---|---|---|
| Self-Attention | Setiap kata "memperhatikan" semua kata lain | softmax(QKT/โd) ยท V |
| Q, K, V | Query, Key, Value projections | W_q, W_k, W_v = nn.Linear |
| Multi-Head | Parallel attention dari perspektif berbeda | 8 heads ร 64 dim = 512 |
| Positional Encoding | Berikan info urutan kata | Sin/cos functions |
| LayerNorm + Residual | Stabilkan training, bantu gradient flow | x = x + dropout(sublayer(norm(x))) |
| Feed-Forward | Proses non-linear per posisi | Linear โ GELU โ Linear |
Next: Part 9 โ Advanced Training Techniques
Mixed Precision, Distributed Training, Gradient Accumulation, Learning Rate Scheduling, Hyperparameter Tuning, dan torch.compile. Optimasi untuk training yang lebih cepat dan efisien.