📝 Artikel ini ditulis dalam Bahasa Indonesia
Seri Belajar LLM Part 2

Training Pipeline: Cara LLM Dibuat

Dari teks mentah internet ke assistant cerdas yang bisa coding, menjawab pertanyaan, dan menolak permintaan berbahaya. Part 2 membongkar tiga tahap training: Pre-training (triliunan token, $100M+), Supervised Fine-Tuning (mengajari format dialog), dan RLHF/DPO (alignment dengan preferensi manusia). Plus: scaling laws, data curation, dan mengapa DeepSeek-R1 mengubah paradigma dengan RLVR.

Maret 202635 menit bacaPre-training • SFT • RLHF • DPO • RLVR • Alignment
📚 Seri Belajar LLM:
1 2 3 4 5 6 7 8 9 10

Daftar Isi — Part 2

  1. Overview: 3 Tahap Training — Pre-train, SFT, RLHF
  2. Pre-training — Belajar bahasa dari internet (unsupervised)
  3. Data Curation — Garbage in = garbage out
  4. Supervised Fine-Tuning (SFT) — Mengajari format dialog
  5. RLHF & DPO — Alignment dengan preferensi manusia
  6. RLVR & Constitutional AI — Paradigma baru 2025
  7. Scaling Laws — Chinchilla, data quality, over-training
  8. Cost Breakdown — Berapa biaya membuat LLM?
  9. Ringkasan & Preview Part 3
🏭

1. Tiga Tahap Training LLM

Raw model mentah → Smart model → Helpful, harmless, honest assistant

LLM Training Pipeline — 3 Tahap Kritis

1. Pre-training Triliunan token dari internet Next-token prediction (unsupervised) Model belajar bahasa, fakta, logika $10-100M+ | Minggu-bulan | 1000s GPU Output: "base model" (melantur, tidak sopan) 2. SFT 10K-100K instruction-response pairs Belajar format: Question → Answer Supervised learning (labeled data) $1K-100K | Jam-hari | 8-64 GPU Output: "instruction model" (bisa dialog) 3. RLHF / DPO Human preference rankings Reward model + RL optimization Helpful, Harmless, Honest $10K-1M | Hari-minggu | 16-128 GPU Output: ChatGPT, Claude, Gemini

Analogi: Mendidik Anak Jenius

Pre-training = anak membaca seluruh perpustakaan dunia (tahu banyak, tapi belum tahu cara berinteraksi). SFT = masuk sekolah, belajar sopan santun dan cara menjawab pertanyaan. RLHF = magang di dunia nyata, mendapat feedback langsung dari manusia ("jawaban ini bagus, yang ini kurang"). Setelah ketiga tahap, "anak" ini menjadi assistant yang cerdas, sopan, dan helpful.

📚

2. Pre-training: Belajar Bahasa dari Internet

Unsupervised: baca triliunan kata, prediksi kata berikutnya. Tahap termahal.

Pre-training adalah tahap paling mahal dan paling fundamental. Model membaca triliunan token dari Common Crawl (internet), Wikipedia, buku (Books3, Pile), kode (GitHub, StackOverflow), paper ilmiah, dan sumber lain. Objective-nya sederhana: untuk setiap posisi dalam teks, prediksi token berikutnya. Ini disebut causal language modeling — model belajar P(token_t | token_1, ..., token_{t-1}).

Setelah pre-training, model sudah "tahu" banyak: grammar, fakta dunia, logika dasar, bahkan coding. Tapi model ini belum bisa berinteraksi dengan baik — jika diberi pertanyaan, ia mungkin melanjutkan teks alih-alih menjawab, atau memberikan jawaban tidak sopan karena ia hanya "meniru" teks internet (termasuk konten negatif).

03_pretraining_pseudocode.py
# Pseudocode: Pre-training loop (simplified) for batch in trillion_tokens_dataloader: # Input: "The cat sat on the" # Target: "cat sat on the mat" (shifted by 1) logits = model(batch.input_ids) # Forward pass loss = cross_entropy(logits, batch.labels) # How wrong? loss.backward() # Compute gradients optimizer.step() # Update weights # Repeat for WEEKS on THOUSANDS of GPUs # GPT-4: ~13 trillion tokens, ~25,000 A100 GPUs # Cost: estimated $63M compute alone # Result: "base model" that can complete text # but can't have conversations yet
Data SourceProportionApa ItuQuality
Common Crawl~60%Scrape seluruh web (miliaran halaman)Bervariasi (perlu filtering)
Books / Literature~8%Buku, novel, textbookTinggi (curated)
Wikipedia~3%Ensiklopedia terstrukturSangat tinggi
Code (GitHub)~10%Source code semua bahasaBervariasi
Scientific Papers~5%ArXiv, PubMed, Semantic ScholarTinggi
Social Media / Forums~8%Reddit, StackOverflowMedium (perlu filtering)
Synthetic Data~6%Data yang di-generate oleh LLM lainControlled
🧹

3. Data Curation — Garbage In = Garbage Out

Data quality lebih penting dari quantity. Modern labs menghabiskan bulan untuk curate data.

Insight kunci dari 2024-2025: data quality trumps quantity. Chinchilla paper (2022) menunjukkan bahwa model harus dilatih pada jumlah token yang proporsional dengan parameter count. Tapi penelitian selanjutnya (Phi, Qwen, LLaMA-3) menunjukkan bahwa model kecil yang dilatih pada data berkualitas tinggi bisa mengalahkan model besar dengan data biasa-biasa saja. Labs sekarang menghabiskan berbulan-bulan untuk filter, deduplicate, dan curate training data.

StepApa yang DilakukanTools
DeduplicationHapus teks duplikat (bisa 30-50% internet!)MinHash, SimHash, exact match
Quality FilteringHapus teks low-quality: spam, SEO, gibberishClassifier (perplexity, n-gram)
Toxicity RemovalFilter konten hate speech, NSFW, harmfulPerspective API, classifier
PII ScrubbingHapus nama, email, nomor telepon, alamatNER, regex patterns
Domain MixingBalance proporsi: code, science, chat, etc.Manual curation + ablation
Synthetic AugmentationGenerate data tambahan via LLM yang lebih besarGPT-4, Claude sebagai teacher
🎓

4. Supervised Fine-Tuning (SFT)

Mengajari model format dialog: "Jika user bertanya X, jawab Y"

Setelah pre-training, model perlu diajar bagaimana cara berinteraksi. SFT menggunakan dataset instruction-response pairs yang dibuat oleh manusia (atau generated oleh model lain). Model belajar: jika mendapat instruksi, berikan respons yang helpful. Ini mengubah "text completer" menjadi "instruction follower".

04_sft_data.jsonl — Contoh Data SFT
// ChatML format (dipakai Qwen, banyak model) {"messages": [ {"role": "system", "content": "Kamu adalah assistant yang helpful."}, {"role": "user", "content": "Apa ibukota Jepang?"}, {"role": "assistant", "content": "Ibukota Jepang adalah Tokyo."} ]} {"messages": [ {"role": "user", "content": "Tulis fungsi Python untuk fibonacci"}, {"role": "assistant", "content": "```python\ndef fib(n):\n if n <= 1: return n\n return fib(n-1) + fib(n-2)\n```"} ]} // 10K-100K pasangan seperti ini // Sumber: human annotators, atau distilled dari GPT-4/Claude

Data SFT Open-Source Populer

OpenAssistant (OASST), Alpaca-52K (Stanford), ShareGPT (community conversations), SlimOrca, UltraChat. Total: ratusan ribu instruction-response pairs gratis di Hugging Face.

Kualitas > Kuantitas untuk SFT

LIMA paper (2023) menunjukkan bahwa 1.000 data SFT berkualitas tinggi bisa mengalahkan 50.000 data biasa. Focus pada diversity, difficulty, dan correctness.

👥

5. RLHF & DPO — Alignment dengan Preferensi Manusia

Manusia memilih jawaban terbaik, model belajar dari preferensi tersebut

SFT mengajari model cara menjawab, tapi belum mengajari jawaban mana yang lebih baik. RLHF (Reinforcement Learning from Human Feedback) menyelesaikan ini: manusia diberi dua jawaban untuk pertanyaan yang sama, lalu memilih mana yang lebih baik. Data preferensi ini digunakan untuk train reward model, yang kemudian dipakai untuk optimize model utama via PPO (Proximal Policy Optimization).

RLHF Pipeline — 3 Sub-tahap

Step A: Collect Preferences Human melihat 2 jawaban: Response A vs Response B Pilih yang lebih baik 50K-500K comparisons Step B: Train Reward Model Model belajar: "jawaban A lebih disukai manusia daripada B" RM(x, y) = scalar score Trained on preference data Step C: RL Optimization LLM generates responses Reward model scores them PPO updates LLM weights to maximize reward score = Aligned model!
MetodeTahunCara KerjaProConDipakai Oleh
RLHF + PPO2022Reward model + PPO RLProven, well-studiedKompleks, mahal, unstableChatGPT, Claude awal
DPO2023Direct preference, tanpa RMSimpler, cheaper, stableKurang ekspresif dari RLHFLLaMA-3, Zephyr, Tulu
KTO2024Kahneman-Tversky optimizationHanya butuh thumbs up/downLebih baru, less provenResearch
GRPO2024Group relative policy opt.Efficient, scalableNiche to reasoningDeepSeek-R1
RLVR2025RL with verifiable rewardsNo human labels needed!Hanya math/code domainsDeepSeek-R1, o-series
Constitutional AI2023+AI self-critique + principlesScalable, principledRequires good base modelClaude (Anthropic)
💡

6. RLVR & Constitutional AI — Paradigma Baru

2025: RL tanpa human labels (RLVR) dan AI yang mengawasi dirinya sendiri (CAI)

RLVR (RL with Verifiable Rewards) adalah breakthrough dari DeepSeek-R1 (2025). Alih-alih butuh manusia menilai jawaban, RLVR menggunakan verifiable rewards: untuk soal matematika, bisa dicek apakah jawaban benar/salah secara otomatis. Untuk kode, bisa dijalankan unit test. Ini menghilangkan bottleneck human annotation dan memungkinkan training pada data yang jauh lebih banyak.

Constitutional AI (Anthropic/Claude) mengambil pendekatan berbeda: model dilatih dengan prinsip-prinsip (constitution) dan kemudian model AI lain mengevaluasi apakah respons sesuai prinsip. Ini mengurangi kebutuhan human labelers sambil tetap menjaga alignment.

Mengapa RLVR Game-Changer?

RLHF tradisional bottleneck di human labelers (mahal, lambat, subjektif). RLVR menghilangkan ini untuk domain yang bisa diverifikasi: math (jawaban benar/salah), code (pass/fail tests), logic puzzles. DeepSeek-R1 menunjukkan bahwa model yang di-train murni dengan RLVR bisa mengalahkan model RLHF di reasoning benchmarks. Prediksi 2026: RLVR akan expand ke domain lain seperti chemistry, biology, dan engineering.

📈

7. Scaling Laws — Lebih Besar = Lebih Pintar?

Chinchilla, over-training, data quality, dan compute-optimal training

Scaling laws (Kaplan 2020, Chinchilla 2022) menunjukkan performa LLM mengikuti power law: naikkan parameters, data, atau compute secara proporsional, performa naik predictable. Chinchilla menemukan ratio optimal: untuk model N parameters, train pada ~20N tokens. Tapi di 2025-2026, labs menemukan bahwa over-training (jauh melebihi Chinchilla-optimal) pada data berkualitas tinggi menghasilkan model kecil yang luar biasa capable (Phi-4, Gemma-3, Qwen3-8B).

EraParadigmFokusContoh
2020-2022Scale EverythingLebih banyak params + data + computeGPT-3 (175B), PaLM (540B)
2022-2023Chinchilla OptimalBalance params vs data (20:1 ratio)Chinchilla (70B, more data)
2024Data QualityCurate data, synthetic data, domain mixLLaMA-3, Phi-3
2025-2026Over-training + Post-trainingSmall model + massive data + RLVRDeepSeek-R1, Qwen3, Phi-4
💰

8. Cost Breakdown — Berapa Biaya Membuat LLM?

Dari $50K (GPT-1) ke $1B+ (frontier 2026). Plus: biaya tersembunyi.
ModelTahunCompute CostGPU UsedDurationTotal Est.
GPT-22019~$50K~32 TPUs~1 week$256K (incl team)
GPT-32020~$4.6M~10K V100s~2 weeks$12M
LLaMA-2 70B2023~$2.7M2,048 A100s~12 days$20M
GPT-42023~$63M~25K A100s~3 months$100M+
DeepSeek-V32025~$5.5M2,048 H800s~2 months$110M (total)
Frontier 20262026$100M+16K+ H100/H200sMonths$500M-$1B+
Biaya Tersembunyi: Compute hanya ~30-50% dari total cost. Sisanya: data curation ($5-20M), human annotation untuk RLHF ($2-10M), engineering team ($10-50M/year), infrastructure ($5-20M), dan failed experiments (bisa 2-3x cost karena banyak training run yang gagal sebelum berhasil).
📝

9. Ringkasan Part 2

Training pipeline essentials
KonsepKey Takeaway
Pre-trainingTriliunan token, next-token prediction, $10-100M+, menghasilkan base model
Data CurationQuality > quantity. Dedup, filter toxicity, PII scrub, domain balance
SFT10K-100K instruction pairs, mengajari format dialog
RLHF/PPOHuman preferences, reward model, PPO optimization = aligned model
DPOSimpler alternative: direct preference tanpa reward model
RLVRGame-changer 2025: verifiable rewards tanpa human labels
Scaling LawsPower law: more compute = better, tapi diminishing returns
Over-training2025 paradigm: small model + massive high-quality data = surprisingly good
LLM
Tech Review Desk — Seri Belajar LLM
Sumber: Sebastian Raschka "State of LLMs 2025", Anthropic Constitutional AI paper, DeepSeek-R1 technical report, Chinchilla paper (Hoffmann 2022), OpenRLHF docs.
rominur@gmail.com  •  t.me/Jekardah_AI