Daftar Isi — Part 1
- Definisi LLM — Mesin prediksi kata berikutnya
- Next-Token Prediction — Satu tugas, ribuan kemampuan
- Tokenization (BPE) — Pecah teks jadi sub-kata
- Arsitektur Transformer — Decoder-Only stack
- Anatomy LLM — Parameters, layers, heads
- Evolusi: GPT-1 ke Frontier 2026
- Temperature & Sampling — Kreativitas vs akurasi
- Emerging Patterns 2026 — MoE, Reasoning, Agents
- Ringkasan & Preview Part 2
1. Definisi: Apa Itu Large Language Model?
Bukan "kecerdasan buatan" — ini mesin statistik yang sangat pintar menebak kataLarge Language Model (LLM) adalah neural network dengan miliaran parameter yang dilatih pada triliunan kata dari internet untuk satu tugas sederhana: memprediksi kata (token) berikutnya dalam urutan teks. Ketika tugas ini dilakukan pada skala masif — triliunan kata, miliaran parameters — kemampuan tak terduga muncul: model bisa menulis esai, menerjemahkan, coding, berdebat, memecahkan soal matematika. Semua dari satu objective.
Istilah "Large" merujuk ukuran model (miliaran parameter). "Language" karena input/output utama adalah teks. "Model" karena ini model statistik — bukan program dengan rules yang ditulis manusia. Di 2026, frontier models memiliki ratusan miliar hingga triliunan parameter, dilatih dengan biaya $100M+ selama berminggu-minggu di ribuan GPU.
LLM Bisa:
Menulis, merangkum, menerjemahkan, coding, menjawab pertanyaan, brainstorming, analisis data, tutoring, roleplay — semua dari satu model yang sama.
LLM Bukan:
Database fakta (bisa hallucinate), search engine (tidak browsing real-time), manusia (tidak "mengerti"), kalkulator (bisa salah hitung), atau AGI.
2. Next-Token Prediction — Rahasia Semua Kemampuan
"Given these words, what word comes next?" — diulang triliunan kali saat trainingNext-Token Prediction — Cara LLM Bekerja
Analogi: Autocomplete yang Membaca Seluruh Perpustakaan Dunia
Autocomplete HP Anda memprediksi kata berdasarkan ratusan ribu teks. Bayangkan autocomplete yang dilatih dari seluruh internet — triliunan kata. Saat cukup besar (miliaran parameter), ia bukan hanya menebak kata — ia bisa menulis esai koheren, menjelaskan quantum physics, menulis Python, berdebat filsafat. Fenomena ini disebut emergence — kemampuan kompleks dari aturan sederhana pada skala besar.
Autoregressive: Satu Token Per Langkah
LLM menghasilkan teks satu token per langkah (autoregressive). Setelah memprediksi "pasar", teks menjadi "Ibu pergi ke pasar" — lalu model memprediksi token berikutnya ("untuk"), lalu ("membeli"), dan seterusnya. Setiap prediksi mempertimbangkan SEMUA token sebelumnya via self-attention. Ini mengapa LLM menghasilkan paragraf koheren.
3. Tokenization — LLM Tidak Membaca "Kata"
BPE memecah teks jadi sub-kata: "playing" = ["play", "ing"]. Bahasa Indonesia butuh lebih banyak token.Teks dipecah menjadi token — potongan sub-kata oleh algoritma Byte-Pair Encoding (BPE). Kata umum ("the") = 1 token, kata langka ("dermatofibrosarcoma") = 5-7 token. Bahasa Indonesia butuh ~1.5-1.8x lebih banyak token dari English per kalimat setara — implikasi biaya API.
| Tokenizer | Vocab Size | Dipakai Oleh | ID Efficiency |
|---|---|---|---|
| cl100k_base | 100,256 | GPT-4, GPT-4o | ~1.8x token vs EN untuk ID |
| o200k_base | 200,000 | GPT-4o newer | ~1.5x (improved) |
| SentencePiece | 32K-128K | LLaMA, Gemma | Bervariasi |
| Qwen Tokenizer | 152,064 | Qwen 2.5/3 | ~1.2x (optimized Asia) |
4. Arsitektur: Transformer Decoder-Only
Semua LLM modern = stack Transformer decoder blocks. Satu arsitektur, ribuan model.Arsitektur LLM — Decoder-Only Transformer
Mengapa Decoder-Only Mendominasi?
Tiga arsitektur Transformer bersaing: Encoder-only (BERT), Encoder-Decoder (T5), Decoder-only (GPT). Di 2026, decoder-only jadi standar karena paling sederhana, paling mudah di-scale, dan ternyata bisa melakukan SEMUA tugas jika cukup besar. Simplicity wins at scale.
5. Anatomy LLM — Angka di Balik Model
Parameters, layers, hidden dim, attention heads, context window| Komponen | GPT-2 | LLaMA-3 8B | GPT-4 (Est.) | Penjelasan |
|---|---|---|---|---|
| Parameters | 117M | 8B | ~1.8T MoE | Jumlah angka yang dipelajari |
| Layers | 12 | 32 | ~120 | Kedalaman network |
| Hidden Dim | 768 | 4,096 | ~12,288 | Lebar representasi internal |
| Attn Heads | 12 | 32 | ~96 | Perspektif attention |
| Context | 1,024 | 128K | 128K+ | Token yang dibaca sekaligus |
| Vocab | 50,257 | 128,256 | ~100K | Token unik yang dikenal |
| Training Tokens | ~10B | ~15T | ~13T | Kata yang dibaca saat train |
| Cost | ~$50K | ~$10M | ~$100M+ | Biaya compute GPU |
Parameter = "Memori" Model
Setiap parameter = satu angka floating-point yang menyimpan sepotong pengetahuan. Model 8B = 8 miliar angka yang bersama mengkodekan grammar, fakta, logika. File size: ~2 bytes/param (FP16), jadi 8B model = ~16GB. Quantization Q4 mengecilkan ke ~4.5GB — bisa jalan di laptop!
6. Evolusi: GPT-1 ke Frontier Models 2026
8 tahun, dari 117M ke triliunan parameterTimeline LLM — 2018 sampai 2026
7. Temperature & Sampling — Kontrol Kreativitas
Temperature rendah = deterministic. Tinggi = kreatif tapi unpredictable.Setelah LLM menghitung probabilitas setiap token, kita perlu memilih token mana yang di-output. Temperature mengubah distribusi: rendah = model lebih "yakin" pada pilihan teratas, tinggi = meratakan distribusi sehingga token kurang probable punya kesempatan. Top-P (nucleus sampling) = ambil dari token yang total probabilitasnya mencapai P%.
| Temperature | Behavior | Use Case |
|---|---|---|
| 0.0 | 100% deterministic, selalu sama | Kode, fakta, data extraction, terjemahan |
| 0.1-0.3 | Near-greedy, sangat fokus | Summarization, structured output |
| 0.5-0.7 | Kreativitas terkontrol (DEFAULT) | Writing, email, general chat |
| 0.8-1.0 | Kreatif, kadang surprising | Brainstorming, story, poetry |
| 1.2+ | Unpredictable, kadang nonsensical | Experimental (hati-hati!) |
8. Emerging Patterns 2025-2026
MoE, Long Context, Reasoning, Multimodal, Small-but-Mighty, Agents| Pattern | Apa Itu | Contoh | Impact |
|---|---|---|---|
| Mixture of Experts (MoE) | Triliunan params, hanya subset aktif per token | GPT-4, DeepSeek-V3, Mixtral | Cost seperti 200B, kemampuan seperti 1.8T |
| Long Context | 128K-2M+ token context window | Claude (200K), Gemini (2M) | Baca buku utuh, codebase besar |
| Reasoning Models | "Berpikir" chain-of-thought sebelum jawab | o1, o3, DeepSeek-R1 | 95%+ math benchmarks (vs 50% sebelumnya) |
| Multimodal | Teks + gambar + audio + video | GPT-4o, Gemini 2, Claude vision | Satu model semua modalitas |
| Small-but-Mighty | Model kecil "over-trained" | Phi-4, Gemma-3, Qwen3-8B | 8B setara GPT-3.5 (175B)! |
| RLVR | RL with Verifiable Rewards | DeepSeek-R1, o-series | Reasoning tanpa human labels |
| Agentic AI | LLM + tools + browse + code | Claude Code, OpenAI Codex | Dari chatbot ke worker |
9. Ringkasan Part 1
Fondasi LLM yang harus dipahami| Konsep | Key Takeaway |
|---|---|
| LLM | Neural network miliaran params yang prediksi token berikutnya |
| Next-Token | Satu tugas sederhana yang pada skala besar menghasilkan emergence |
| Tokenization | Teks dipecah jadi sub-kata via BPE; non-Latin butuh lebih banyak token |
| Decoder-Only | Stack: Embedding + Causal Attention + FFN + LayerNorm |
| Parameters | 8B-1.8T+ floating-point numbers = "memori" model |
| Temperature | 0 = deterministic, 0.7 = balanced, 1.0+ = creative |
| Scaling Laws | Lebih besar = lebih pintar, tapi diminishing returns |
| MoE | Triliunan params tapi hanya subset aktif = efisiensi |
| Reasoning | o1/R1: "think then answer" = breakthrough math/code |
Next: Part 2 — Training Pipeline: Cara LLM Dibuat
Pre-training pada triliunan token, SFT dengan instruction data, dan RLHF/DPO untuk alignment. Plus: scaling laws, data curation, biaya $100M+, dan mengapa DeepSeek-R1 mengubah paradigma dengan RLVR.