Seri Belajar LLM Part 2: Training Pipeline

📚 Seri Belajar LLM:

1 2 3 4 5 6 7 8 9 10

Daftar Isi — Part 2

Overview: 3 Tahap Training — Pre-train, SFT, RLHF
Pre-training — Belajar bahasa dari internet (unsupervised)
Data Curation — Garbage in = garbage out
Supervised Fine-Tuning (SFT) — Mengajari format dialog
RLHF & DPO — Alignment dengan preferensi manusia
RLVR & Constitutional AI — Paradigma baru 2025
Scaling Laws — Chinchilla, data quality, over-training
Cost Breakdown — Berapa biaya membuat LLM?
Ringkasan & Preview Part 3

🏭

1. Tiga Tahap Training LLM

Raw model mentah → Smart model → Helpful, harmless, honest assistant

LLM Training Pipeline — 3 Tahap Kritis

Analogi: Mendidik Anak Jenius

Pre-training = anak membaca seluruh perpustakaan dunia (tahu banyak, tapi belum tahu cara berinteraksi). SFT = masuk sekolah, belajar sopan santun dan cara menjawab pertanyaan. RLHF = magang di dunia nyata, mendapat feedback langsung dari manusia ("jawaban ini bagus, yang ini kurang"). Setelah ketiga tahap, "anak" ini menjadi assistant yang cerdas, sopan, dan helpful.

📚

2. Pre-training: Belajar Bahasa dari Internet

Unsupervised: baca triliunan kata, prediksi kata berikutnya. Tahap termahal.

Pre-training adalah tahap paling mahal dan paling fundamental. Model membaca triliunan token dari Common Crawl (internet), Wikipedia, buku (Books3, Pile), kode (GitHub, StackOverflow), paper ilmiah, dan sumber lain. Objective-nya sederhana: untuk setiap posisi dalam teks, prediksi token berikutnya. Ini disebut causal language modeling — model belajar P(token_t | token_1, ..., token_{t-1}).

Setelah pre-training, model sudah "tahu" banyak: grammar, fakta dunia, logika dasar, bahkan coding. Tapi model ini belum bisa berinteraksi dengan baik — jika diberi pertanyaan, ia mungkin melanjutkan teks alih-alih menjawab, atau memberikan jawaban tidak sopan karena ia hanya "meniru" teks internet (termasuk konten negatif).

03_pretraining_pseudocode.py

# Pseudocode: Pre-training loop (simplified)
for batch in trillion_tokens_dataloader:
    # Input: "The cat sat on the"
    # Target: "cat sat on the mat"  (shifted by 1)
    
    logits = model(batch.input_ids)          # Forward pass
    loss = cross_entropy(logits, batch.labels) # How wrong?
    loss.backward()                           # Compute gradients
    optimizer.step()                           # Update weights

# Repeat for WEEKS on THOUSANDS of GPUs
# GPT-4: ~13 trillion tokens, ~25,000 A100 GPUs
# Cost: estimated $63M compute alone
# Result: "base model" that can complete text
#   but can't have conversations yet

Data Source	Proportion	Apa Itu	Quality
Common Crawl	~60%	Scrape seluruh web (miliaran halaman)	Bervariasi (perlu filtering)
Books / Literature	~8%	Buku, novel, textbook	Tinggi (curated)
Wikipedia	~3%	Ensiklopedia terstruktur	Sangat tinggi
Code (GitHub)	~10%	Source code semua bahasa	Bervariasi
Scientific Papers	~5%	ArXiv, PubMed, Semantic Scholar	Tinggi
Social Media / Forums	~8%	Reddit, StackOverflow	Medium (perlu filtering)
Synthetic Data	~6%	Data yang di-generate oleh LLM lain	Controlled

🧹

3. Data Curation — Garbage In = Garbage Out

Data quality lebih penting dari quantity. Modern labs menghabiskan bulan untuk curate data.

Insight kunci dari 2024-2025: data quality trumps quantity. Chinchilla paper (2022) menunjukkan bahwa model harus dilatih pada jumlah token yang proporsional dengan parameter count. Tapi penelitian selanjutnya (Phi, Qwen, LLaMA-3) menunjukkan bahwa model kecil yang dilatih pada data berkualitas tinggi bisa mengalahkan model besar dengan data biasa-biasa saja. Labs sekarang menghabiskan berbulan-bulan untuk filter, deduplicate, dan curate training data.

Step	Apa yang Dilakukan	Tools
Deduplication	Hapus teks duplikat (bisa 30-50% internet!)	MinHash, SimHash, exact match
Quality Filtering	Hapus teks low-quality: spam, SEO, gibberish	Classifier (perplexity, n-gram)
Toxicity Removal	Filter konten hate speech, NSFW, harmful	Perspective API, classifier
PII Scrubbing	Hapus nama, email, nomor telepon, alamat	NER, regex patterns
Domain Mixing	Balance proporsi: code, science, chat, etc.	Manual curation + ablation
Synthetic Augmentation	Generate data tambahan via LLM yang lebih besar	GPT-4, Claude sebagai teacher

🎓

4. Supervised Fine-Tuning (SFT)

Mengajari model format dialog: "Jika user bertanya X, jawab Y"

Setelah pre-training, model perlu diajar bagaimana cara berinteraksi. SFT menggunakan dataset instruction-response pairs yang dibuat oleh manusia (atau generated oleh model lain). Model belajar: jika mendapat instruksi, berikan respons yang helpful. Ini mengubah "text completer" menjadi "instruction follower".

04_sft_data.jsonl — Contoh Data SFT

// ChatML format (dipakai Qwen, banyak model)
{"messages": [
  {"role": "system", "content": "Kamu adalah assistant yang helpful."},
  {"role": "user", "content": "Apa ibukota Jepang?"},
  {"role": "assistant", "content": "Ibukota Jepang adalah Tokyo."}
]}

{"messages": [
  {"role": "user", "content": "Tulis fungsi Python untuk fibonacci"},
  {"role": "assistant", "content": "```python\ndef fib(n):\n    if n <= 1: return n\n    return fib(n-1) + fib(n-2)\n```"}
]}

// 10K-100K pasangan seperti ini
// Sumber: human annotators, atau distilled dari GPT-4/Claude

Data SFT Open-Source Populer

OpenAssistant (OASST), Alpaca-52K (Stanford), ShareGPT (community conversations), SlimOrca, UltraChat. Total: ratusan ribu instruction-response pairs gratis di Hugging Face.

Kualitas > Kuantitas untuk SFT

LIMA paper (2023) menunjukkan bahwa 1.000 data SFT berkualitas tinggi bisa mengalahkan 50.000 data biasa. Focus pada diversity, difficulty, dan correctness.

👥

5. RLHF & DPO — Alignment dengan Preferensi Manusia

Manusia memilih jawaban terbaik, model belajar dari preferensi tersebut

SFT mengajari model cara menjawab, tapi belum mengajari jawaban mana yang lebih baik. RLHF (Reinforcement Learning from Human Feedback) menyelesaikan ini: manusia diberi dua jawaban untuk pertanyaan yang sama, lalu memilih mana yang lebih baik. Data preferensi ini digunakan untuk train reward model, yang kemudian dipakai untuk optimize model utama via PPO (Proximal Policy Optimization).

RLHF Pipeline — 3 Sub-tahap

Metode	Tahun	Cara Kerja	Pro	Con	Dipakai Oleh
RLHF + PPO	2022	Reward model + PPO RL	Proven, well-studied	Kompleks, mahal, unstable	ChatGPT, Claude awal
DPO	2023	Direct preference, tanpa RM	Simpler, cheaper, stable	Kurang ekspresif dari RLHF	LLaMA-3, Zephyr, Tulu
KTO	2024	Kahneman-Tversky optimization	Hanya butuh thumbs up/down	Lebih baru, less proven	Research
GRPO	2024	Group relative policy opt.	Efficient, scalable	Niche to reasoning	DeepSeek-R1
RLVR	2025	RL with verifiable rewards	No human labels needed!	Hanya math/code domains	DeepSeek-R1, o-series
Constitutional AI	2023+	AI self-critique + principles	Scalable, principled	Requires good base model	Claude (Anthropic)

💡

6. RLVR & Constitutional AI — Paradigma Baru

2025: RL tanpa human labels (RLVR) dan AI yang mengawasi dirinya sendiri (CAI)

RLVR (RL with Verifiable Rewards) adalah breakthrough dari DeepSeek-R1 (2025). Alih-alih butuh manusia menilai jawaban, RLVR menggunakan verifiable rewards: untuk soal matematika, bisa dicek apakah jawaban benar/salah secara otomatis. Untuk kode, bisa dijalankan unit test. Ini menghilangkan bottleneck human annotation dan memungkinkan training pada data yang jauh lebih banyak.

Constitutional AI (Anthropic/Claude) mengambil pendekatan berbeda: model dilatih dengan prinsip-prinsip (constitution) dan kemudian model AI lain mengevaluasi apakah respons sesuai prinsip. Ini mengurangi kebutuhan human labelers sambil tetap menjaga alignment.

Mengapa RLVR Game-Changer?

RLHF tradisional bottleneck di human labelers (mahal, lambat, subjektif). RLVR menghilangkan ini untuk domain yang bisa diverifikasi: math (jawaban benar/salah), code (pass/fail tests), logic puzzles. DeepSeek-R1 menunjukkan bahwa model yang di-train murni dengan RLVR bisa mengalahkan model RLHF di reasoning benchmarks. Prediksi 2026: RLVR akan expand ke domain lain seperti chemistry, biology, dan engineering.

📈

7. Scaling Laws — Lebih Besar = Lebih Pintar?

Chinchilla, over-training, data quality, dan compute-optimal training

Scaling laws (Kaplan 2020, Chinchilla 2022) menunjukkan performa LLM mengikuti power law: naikkan parameters, data, atau compute secara proporsional, performa naik predictable. Chinchilla menemukan ratio optimal: untuk model N parameters, train pada ~20N tokens. Tapi di 2025-2026, labs menemukan bahwa over-training (jauh melebihi Chinchilla-optimal) pada data berkualitas tinggi menghasilkan model kecil yang luar biasa capable (Phi-4, Gemma-3, Qwen3-8B).

Era	Paradigm	Fokus	Contoh
2020-2022	Scale Everything	Lebih banyak params + data + compute	GPT-3 (175B), PaLM (540B)
2022-2023	Chinchilla Optimal	Balance params vs data (20:1 ratio)	Chinchilla (70B, more data)
2024	Data Quality	Curate data, synthetic data, domain mix	LLaMA-3, Phi-3
2025-2026	Over-training + Post-training	Small model + massive data + RLVR	DeepSeek-R1, Qwen3, Phi-4

💰

8. Cost Breakdown — Berapa Biaya Membuat LLM?

Dari $50K (GPT-1) ke $1B+ (frontier 2026). Plus: biaya tersembunyi.

Model	Tahun	Compute Cost	GPU Used	Duration	Total Est.
GPT-2	2019	~$50K	~32 TPUs	~1 week	$256K (incl team)
GPT-3	2020	~$4.6M	~10K V100s	~2 weeks	$12M
LLaMA-2 70B	2023	~$2.7M	2,048 A100s	~12 days	$20M
GPT-4	2023	~$63M	~25K A100s	~3 months	$100M+
DeepSeek-V3	2025	~$5.5M	2,048 H800s	~2 months	$110M (total)
Frontier 2026	2026	$100M+	16K+ H100/H200s	Months	$500M-$1B+

Biaya Tersembunyi: Compute hanya ~30-50% dari total cost. Sisanya: data curation ($5-20M), human annotation untuk RLHF ($2-10M), engineering team ($10-50M/year), infrastructure ($5-20M), dan failed experiments (bisa 2-3x cost karena banyak training run yang gagal sebelum berhasil).

📝

9. Ringkasan Part 2

Training pipeline essentials

Konsep	Key Takeaway
Pre-training	Triliunan token, next-token prediction, $10-100M+, menghasilkan base model
Data Curation	Quality > quantity. Dedup, filter toxicity, PII scrub, domain balance
SFT	10K-100K instruction pairs, mengajari format dialog
RLHF/PPO	Human preferences, reward model, PPO optimization = aligned model
DPO	Simpler alternative: direct preference tanpa reward model
RLVR	Game-changer 2025: verifiable rewards tanpa human labels
Scaling Laws	Power law: more compute = better, tapi diminishing returns
Over-training	2025 paradigm: small model + massive high-quality data = surprisingly good

📙

Next: Part 3 — Prompt Engineering

Seni berbicara dengan LLM. Zero-shot, Few-shot, Chain-of-Thought, System Prompts, ReAct, Tree-of-Thought — teknik yang membuat LLM 10x lebih berguna tanpa mengubah model.

LLM

Tech Review Desk — Seri Belajar LLM

Sumber: Sebastian Raschka "State of LLMs 2025", Anthropic Constitutional AI paper, DeepSeek-R1 technical report, Chinchilla paper (Hoffmann 2022), OpenRLHF docs.

rominur@gmail.com • t.me/Jekardah_AI