Daftar Isi — Part 2
- Overview: 3 Tahap Training — Pre-train, SFT, RLHF
- Pre-training — Belajar bahasa dari internet (unsupervised)
- Data Curation — Garbage in = garbage out
- Supervised Fine-Tuning (SFT) — Mengajari format dialog
- RLHF & DPO — Alignment dengan preferensi manusia
- RLVR & Constitutional AI — Paradigma baru 2025
- Scaling Laws — Chinchilla, data quality, over-training
- Cost Breakdown — Berapa biaya membuat LLM?
- Ringkasan & Preview Part 3
1. Tiga Tahap Training LLM
Raw model mentah → Smart model → Helpful, harmless, honest assistantLLM Training Pipeline — 3 Tahap Kritis
Analogi: Mendidik Anak Jenius
Pre-training = anak membaca seluruh perpustakaan dunia (tahu banyak, tapi belum tahu cara berinteraksi). SFT = masuk sekolah, belajar sopan santun dan cara menjawab pertanyaan. RLHF = magang di dunia nyata, mendapat feedback langsung dari manusia ("jawaban ini bagus, yang ini kurang"). Setelah ketiga tahap, "anak" ini menjadi assistant yang cerdas, sopan, dan helpful.
2. Pre-training: Belajar Bahasa dari Internet
Unsupervised: baca triliunan kata, prediksi kata berikutnya. Tahap termahal.Pre-training adalah tahap paling mahal dan paling fundamental. Model membaca triliunan token dari Common Crawl (internet), Wikipedia, buku (Books3, Pile), kode (GitHub, StackOverflow), paper ilmiah, dan sumber lain. Objective-nya sederhana: untuk setiap posisi dalam teks, prediksi token berikutnya. Ini disebut causal language modeling — model belajar P(token_t | token_1, ..., token_{t-1}).
Setelah pre-training, model sudah "tahu" banyak: grammar, fakta dunia, logika dasar, bahkan coding. Tapi model ini belum bisa berinteraksi dengan baik — jika diberi pertanyaan, ia mungkin melanjutkan teks alih-alih menjawab, atau memberikan jawaban tidak sopan karena ia hanya "meniru" teks internet (termasuk konten negatif).
| Data Source | Proportion | Apa Itu | Quality |
|---|---|---|---|
| Common Crawl | ~60% | Scrape seluruh web (miliaran halaman) | Bervariasi (perlu filtering) |
| Books / Literature | ~8% | Buku, novel, textbook | Tinggi (curated) |
| Wikipedia | ~3% | Ensiklopedia terstruktur | Sangat tinggi |
| Code (GitHub) | ~10% | Source code semua bahasa | Bervariasi |
| Scientific Papers | ~5% | ArXiv, PubMed, Semantic Scholar | Tinggi |
| Social Media / Forums | ~8% | Reddit, StackOverflow | Medium (perlu filtering) |
| Synthetic Data | ~6% | Data yang di-generate oleh LLM lain | Controlled |
3. Data Curation — Garbage In = Garbage Out
Data quality lebih penting dari quantity. Modern labs menghabiskan bulan untuk curate data.Insight kunci dari 2024-2025: data quality trumps quantity. Chinchilla paper (2022) menunjukkan bahwa model harus dilatih pada jumlah token yang proporsional dengan parameter count. Tapi penelitian selanjutnya (Phi, Qwen, LLaMA-3) menunjukkan bahwa model kecil yang dilatih pada data berkualitas tinggi bisa mengalahkan model besar dengan data biasa-biasa saja. Labs sekarang menghabiskan berbulan-bulan untuk filter, deduplicate, dan curate training data.
| Step | Apa yang Dilakukan | Tools |
|---|---|---|
| Deduplication | Hapus teks duplikat (bisa 30-50% internet!) | MinHash, SimHash, exact match |
| Quality Filtering | Hapus teks low-quality: spam, SEO, gibberish | Classifier (perplexity, n-gram) |
| Toxicity Removal | Filter konten hate speech, NSFW, harmful | Perspective API, classifier |
| PII Scrubbing | Hapus nama, email, nomor telepon, alamat | NER, regex patterns |
| Domain Mixing | Balance proporsi: code, science, chat, etc. | Manual curation + ablation |
| Synthetic Augmentation | Generate data tambahan via LLM yang lebih besar | GPT-4, Claude sebagai teacher |
4. Supervised Fine-Tuning (SFT)
Mengajari model format dialog: "Jika user bertanya X, jawab Y"Setelah pre-training, model perlu diajar bagaimana cara berinteraksi. SFT menggunakan dataset instruction-response pairs yang dibuat oleh manusia (atau generated oleh model lain). Model belajar: jika mendapat instruksi, berikan respons yang helpful. Ini mengubah "text completer" menjadi "instruction follower".
Data SFT Open-Source Populer
OpenAssistant (OASST), Alpaca-52K (Stanford), ShareGPT (community conversations), SlimOrca, UltraChat. Total: ratusan ribu instruction-response pairs gratis di Hugging Face.
Kualitas > Kuantitas untuk SFT
LIMA paper (2023) menunjukkan bahwa 1.000 data SFT berkualitas tinggi bisa mengalahkan 50.000 data biasa. Focus pada diversity, difficulty, dan correctness.
5. RLHF & DPO — Alignment dengan Preferensi Manusia
Manusia memilih jawaban terbaik, model belajar dari preferensi tersebutSFT mengajari model cara menjawab, tapi belum mengajari jawaban mana yang lebih baik. RLHF (Reinforcement Learning from Human Feedback) menyelesaikan ini: manusia diberi dua jawaban untuk pertanyaan yang sama, lalu memilih mana yang lebih baik. Data preferensi ini digunakan untuk train reward model, yang kemudian dipakai untuk optimize model utama via PPO (Proximal Policy Optimization).
RLHF Pipeline — 3 Sub-tahap
| Metode | Tahun | Cara Kerja | Pro | Con | Dipakai Oleh |
|---|---|---|---|---|---|
| RLHF + PPO | 2022 | Reward model + PPO RL | Proven, well-studied | Kompleks, mahal, unstable | ChatGPT, Claude awal |
| DPO | 2023 | Direct preference, tanpa RM | Simpler, cheaper, stable | Kurang ekspresif dari RLHF | LLaMA-3, Zephyr, Tulu |
| KTO | 2024 | Kahneman-Tversky optimization | Hanya butuh thumbs up/down | Lebih baru, less proven | Research |
| GRPO | 2024 | Group relative policy opt. | Efficient, scalable | Niche to reasoning | DeepSeek-R1 |
| RLVR | 2025 | RL with verifiable rewards | No human labels needed! | Hanya math/code domains | DeepSeek-R1, o-series |
| Constitutional AI | 2023+ | AI self-critique + principles | Scalable, principled | Requires good base model | Claude (Anthropic) |
6. RLVR & Constitutional AI — Paradigma Baru
2025: RL tanpa human labels (RLVR) dan AI yang mengawasi dirinya sendiri (CAI)RLVR (RL with Verifiable Rewards) adalah breakthrough dari DeepSeek-R1 (2025). Alih-alih butuh manusia menilai jawaban, RLVR menggunakan verifiable rewards: untuk soal matematika, bisa dicek apakah jawaban benar/salah secara otomatis. Untuk kode, bisa dijalankan unit test. Ini menghilangkan bottleneck human annotation dan memungkinkan training pada data yang jauh lebih banyak.
Constitutional AI (Anthropic/Claude) mengambil pendekatan berbeda: model dilatih dengan prinsip-prinsip (constitution) dan kemudian model AI lain mengevaluasi apakah respons sesuai prinsip. Ini mengurangi kebutuhan human labelers sambil tetap menjaga alignment.
Mengapa RLVR Game-Changer?
RLHF tradisional bottleneck di human labelers (mahal, lambat, subjektif). RLVR menghilangkan ini untuk domain yang bisa diverifikasi: math (jawaban benar/salah), code (pass/fail tests), logic puzzles. DeepSeek-R1 menunjukkan bahwa model yang di-train murni dengan RLVR bisa mengalahkan model RLHF di reasoning benchmarks. Prediksi 2026: RLVR akan expand ke domain lain seperti chemistry, biology, dan engineering.
7. Scaling Laws — Lebih Besar = Lebih Pintar?
Chinchilla, over-training, data quality, dan compute-optimal trainingScaling laws (Kaplan 2020, Chinchilla 2022) menunjukkan performa LLM mengikuti power law: naikkan parameters, data, atau compute secara proporsional, performa naik predictable. Chinchilla menemukan ratio optimal: untuk model N parameters, train pada ~20N tokens. Tapi di 2025-2026, labs menemukan bahwa over-training (jauh melebihi Chinchilla-optimal) pada data berkualitas tinggi menghasilkan model kecil yang luar biasa capable (Phi-4, Gemma-3, Qwen3-8B).
| Era | Paradigm | Fokus | Contoh |
|---|---|---|---|
| 2020-2022 | Scale Everything | Lebih banyak params + data + compute | GPT-3 (175B), PaLM (540B) |
| 2022-2023 | Chinchilla Optimal | Balance params vs data (20:1 ratio) | Chinchilla (70B, more data) |
| 2024 | Data Quality | Curate data, synthetic data, domain mix | LLaMA-3, Phi-3 |
| 2025-2026 | Over-training + Post-training | Small model + massive data + RLVR | DeepSeek-R1, Qwen3, Phi-4 |
8. Cost Breakdown — Berapa Biaya Membuat LLM?
Dari $50K (GPT-1) ke $1B+ (frontier 2026). Plus: biaya tersembunyi.| Model | Tahun | Compute Cost | GPU Used | Duration | Total Est. |
|---|---|---|---|---|---|
| GPT-2 | 2019 | ~$50K | ~32 TPUs | ~1 week | $256K (incl team) |
| GPT-3 | 2020 | ~$4.6M | ~10K V100s | ~2 weeks | $12M |
| LLaMA-2 70B | 2023 | ~$2.7M | 2,048 A100s | ~12 days | $20M |
| GPT-4 | 2023 | ~$63M | ~25K A100s | ~3 months | $100M+ |
| DeepSeek-V3 | 2025 | ~$5.5M | 2,048 H800s | ~2 months | $110M (total) |
| Frontier 2026 | 2026 | $100M+ | 16K+ H100/H200s | Months | $500M-$1B+ |
9. Ringkasan Part 2
Training pipeline essentials| Konsep | Key Takeaway |
|---|---|
| Pre-training | Triliunan token, next-token prediction, $10-100M+, menghasilkan base model |
| Data Curation | Quality > quantity. Dedup, filter toxicity, PII scrub, domain balance |
| SFT | 10K-100K instruction pairs, mengajari format dialog |
| RLHF/PPO | Human preferences, reward model, PPO optimization = aligned model |
| DPO | Simpler alternative: direct preference tanpa reward model |
| RLVR | Game-changer 2025: verifiable rewards tanpa human labels |
| Scaling Laws | Power law: more compute = better, tapi diminishing returns |
| Over-training | 2025 paradigm: small model + massive high-quality data = surprisingly good |
Next: Part 3 — Prompt Engineering
Seni berbicara dengan LLM. Zero-shot, Few-shot, Chain-of-Thought, System Prompts, ReAct, Tree-of-Thought — teknik yang membuat LLM 10x lebih berguna tanpa mengubah model.