📝 Artikel ini ditulis dalam Bahasa Indonesia
Seri Belajar LLM Part 1

Apa Itu LLM? Fondasi Large Language Model

ChatGPT, Claude, Gemini, LLaMA, DeepSeek — semua disebut "LLM". Tapi apa sebenarnya yang terjadi di dalam kotak hitam itu? Part 1 membongkar misteri: next-token prediction, tokenization, arsitektur Transformer decoder-only, temperature & sampling, dan perjalanan dari GPT-1 (117M params) ke frontier models 2026 (triliunan params). Fondasi yang harus dipahami sebelum masuk training, prompting, dan deployment.

Maret 202630 menit bacaLLM • Language Model • Transformer • Next-Token • Tokenization
📚 Seri Belajar LLM:
1 2 3 4 5 6 7 8 9 10

Daftar Isi — Part 1

  1. Definisi LLM — Mesin prediksi kata berikutnya
  2. Next-Token Prediction — Satu tugas, ribuan kemampuan
  3. Tokenization (BPE) — Pecah teks jadi sub-kata
  4. Arsitektur Transformer — Decoder-Only stack
  5. Anatomy LLM — Parameters, layers, heads
  6. Evolusi: GPT-1 ke Frontier 2026
  7. Temperature & Sampling — Kreativitas vs akurasi
  8. Emerging Patterns 2026 — MoE, Reasoning, Agents
  9. Ringkasan & Preview Part 2
🧠

1. Definisi: Apa Itu Large Language Model?

Bukan "kecerdasan buatan" — ini mesin statistik yang sangat pintar menebak kata

Large Language Model (LLM) adalah neural network dengan miliaran parameter yang dilatih pada triliunan kata dari internet untuk satu tugas sederhana: memprediksi kata (token) berikutnya dalam urutan teks. Ketika tugas ini dilakukan pada skala masif — triliunan kata, miliaran parameters — kemampuan tak terduga muncul: model bisa menulis esai, menerjemahkan, coding, berdebat, memecahkan soal matematika. Semua dari satu objective.

Istilah "Large" merujuk ukuran model (miliaran parameter). "Language" karena input/output utama adalah teks. "Model" karena ini model statistik — bukan program dengan rules yang ditulis manusia. Di 2026, frontier models memiliki ratusan miliar hingga triliunan parameter, dilatih dengan biaya $100M+ selama berminggu-minggu di ribuan GPU.

LLM Bisa:

Menulis, merangkum, menerjemahkan, coding, menjawab pertanyaan, brainstorming, analisis data, tutoring, roleplay — semua dari satu model yang sama.

LLM Bukan:

Database fakta (bisa hallucinate), search engine (tidak browsing real-time), manusia (tidak "mengerti"), kalkulator (bisa salah hitung), atau AGI.

🎯

2. Next-Token Prediction — Rahasia Semua Kemampuan

"Given these words, what word comes next?" — diulang triliunan kali saat training

Next-Token Prediction — Cara LLM Bekerja

INPUT TOKENS Ibu pergi ke ??? LLM (Transformer) 8B-1.8T params | 32-128 layers Probability Distribution (Softmax) "pasar" 0.35 | "rumah" 0.22 | "kantor" 0.18 Bagaimana Ini Bisa Jadi "Cerdas"? 1. Training: Baca Seluruh Internet Model membaca triliunan kata: Wikipedia, buku, kode, artikel, forum. Belajar pattern bahasa, fakta, logika secara implisit. 2. Prediksi: Probabilitas Statistik "Ibu pergi ke ___" = pasar 35%, rumah 22%, kantor 18%. Model tidak "mengerti" — menghitung pattern dari data. 3. Emergence: Kemampuan Muncul dari Skala Pada miliaran params, muncul reasoning, coding, translation.

Analogi: Autocomplete yang Membaca Seluruh Perpustakaan Dunia

Autocomplete HP Anda memprediksi kata berdasarkan ratusan ribu teks. Bayangkan autocomplete yang dilatih dari seluruh internet — triliunan kata. Saat cukup besar (miliaran parameter), ia bukan hanya menebak kata — ia bisa menulis esai koheren, menjelaskan quantum physics, menulis Python, berdebat filsafat. Fenomena ini disebut emergence — kemampuan kompleks dari aturan sederhana pada skala besar.

Autoregressive: Satu Token Per Langkah

LLM menghasilkan teks satu token per langkah (autoregressive). Setelah memprediksi "pasar", teks menjadi "Ibu pergi ke pasar" — lalu model memprediksi token berikutnya ("untuk"), lalu ("membeli"), dan seterusnya. Setiap prediksi mempertimbangkan SEMUA token sebelumnya via self-attention. Ini mengapa LLM menghasilkan paragraf koheren.

3. Tokenization — LLM Tidak Membaca "Kata"

BPE memecah teks jadi sub-kata: "playing" = ["play", "ing"]. Bahasa Indonesia butuh lebih banyak token.

Teks dipecah menjadi token — potongan sub-kata oleh algoritma Byte-Pair Encoding (BPE). Kata umum ("the") = 1 token, kata langka ("dermatofibrosarcoma") = 5-7 token. Bahasa Indonesia butuh ~1.5-1.8x lebih banyak token dari English per kalimat setara — implikasi biaya API.

01_tokenization.py
import tiktoken enc = tiktoken.encoding_for_model("gpt-4") text_en = "Large Language Models are amazing!" tokens_en = enc.encode(text_en) print(f"English: {len(tokens_en)} tokens") # English: 6 tokens text_id = "Model bahasa besar sangat menakjubkan!" tokens_id = enc.encode(text_id) print(f"Indonesian: {len(tokens_id)} tokens") # Indonesian: 11 tokens (hampir 2x!) for t in tokens_en: print(f" ID {t:6d} = '{enc.decode([t])}'") # ID 35353 = 'Large' # ID 11688 = ' Language' # ID 27972 = ' Models' # ID 527 = ' are' # ID 12764 = ' amazing' # ID 0 = '!'
TokenizerVocab SizeDipakai OlehID Efficiency
cl100k_base100,256GPT-4, GPT-4o~1.8x token vs EN untuk ID
o200k_base200,000GPT-4o newer~1.5x (improved)
SentencePiece32K-128KLLaMA, GemmaBervariasi
Qwen Tokenizer152,064Qwen 2.5/3~1.2x (optimized Asia)
Implikasi Biaya: Bahasa Indonesia ~1.5-1.8x lebih banyak token dari English. Qwen dan model Asia-focused cenderung lebih efisien untuk Bahasa Indonesia.
🏗

4. Arsitektur: Transformer Decoder-Only

Semua LLM modern = stack Transformer decoder blocks. Satu arsitektur, ribuan model.

Arsitektur LLM — Decoder-Only Transformer

"Ibu""pergi""ke" Token Embedding + Positional Encoding Transformer Block x N (N=32 for 8B, N=128 for frontier) 1. Causal Self-Attention (masked)2. LayerNorm + Residual + FFN Linear + Softmax = P(next token) Causal Self-Attention: Rahasia LLM Mengapa "Causal" (Masked)? Saat prediksi kata ke-4, model HANYA melihat kata 1-3. Tidak boleh "mengintip" kata setelahnya. Berbeda dari BERT. Q, K, V — Query, Key, Value Setiap token "bertanya" (Q): "Siapa yang relevan untuk saya?" Token lain menjawab dengan identitas (K) dan informasi (V). Multi-Head: 8-96 Perspektif Paralel Head 1: grammar. Head 2: semantik. Head 3: coreference. Head 4: sentiment. Semua diproses PARALEL (bukan sequential). Formula: Attention(Q,K,V) = softmax(QK^T / sqrt(d)) * V

Mengapa Decoder-Only Mendominasi?

Tiga arsitektur Transformer bersaing: Encoder-only (BERT), Encoder-Decoder (T5), Decoder-only (GPT). Di 2026, decoder-only jadi standar karena paling sederhana, paling mudah di-scale, dan ternyata bisa melakukan SEMUA tugas jika cukup besar. Simplicity wins at scale.

📐

5. Anatomy LLM — Angka di Balik Model

Parameters, layers, hidden dim, attention heads, context window
KomponenGPT-2LLaMA-3 8BGPT-4 (Est.)Penjelasan
Parameters117M8B~1.8T MoEJumlah angka yang dipelajari
Layers1232~120Kedalaman network
Hidden Dim7684,096~12,288Lebar representasi internal
Attn Heads1232~96Perspektif attention
Context1,024128K128K+Token yang dibaca sekaligus
Vocab50,257128,256~100KToken unik yang dikenal
Training Tokens~10B~15T~13TKata yang dibaca saat train
Cost~$50K~$10M~$100M+Biaya compute GPU

Parameter = "Memori" Model

Setiap parameter = satu angka floating-point yang menyimpan sepotong pengetahuan. Model 8B = 8 miliar angka yang bersama mengkodekan grammar, fakta, logika. File size: ~2 bytes/param (FP16), jadi 8B model = ~16GB. Quantization Q4 mengecilkan ke ~4.5GB — bisa jalan di laptop!

🚀

6. Evolusi: GPT-1 ke Frontier Models 2026

8 tahun, dari 117M ke triliunan parameter

Timeline LLM — 2018 sampai 2026

2018GPT-1117M 2019GPT-21.5B 2020GPT-3175B 2022ChatGPT+RLHF, 100M users 2023GPT-4~1.8T MoE, Multimodal 2025Claude 4, o3, R1Reasoning era 2026FrontierAgents + RLVR Cost: $50K (2018) → $3.3M (2020) → $100M+ (2024) → estimated $1B+ (2026)
🌡

7. Temperature & Sampling — Kontrol Kreativitas

Temperature rendah = deterministic. Tinggi = kreatif tapi unpredictable.

Setelah LLM menghitung probabilitas setiap token, kita perlu memilih token mana yang di-output. Temperature mengubah distribusi: rendah = model lebih "yakin" pada pilihan teratas, tinggi = meratakan distribusi sehingga token kurang probable punya kesempatan. Top-P (nucleus sampling) = ambil dari token yang total probabilitasnya mencapai P%.

02_temperature.py
from openai import OpenAI client = OpenAI() prompt = "Describe the moon in one sentence." # Temperature 0: SELALU output sama r1 = client.chat.completions.create( model="gpt-4", temperature=0, messages=[{"role": "user", "content": prompt}] ) # "The moon is Earth's only natural satellite..." # (deterministic, selalu sama) # Temperature 1.0: Kreatif, berbeda tiap kali r2 = client.chat.completions.create( model="gpt-4", temperature=1.0, messages=[{"role": "user", "content": prompt}] ) # "A pale guardian whispering across the night sky..." # (kreatif, puitis, berbeda tiap run)
TemperatureBehaviorUse Case
0.0100% deterministic, selalu samaKode, fakta, data extraction, terjemahan
0.1-0.3Near-greedy, sangat fokusSummarization, structured output
0.5-0.7Kreativitas terkontrol (DEFAULT)Writing, email, general chat
0.8-1.0Kreatif, kadang surprisingBrainstorming, story, poetry
1.2+Unpredictable, kadang nonsensicalExperimental (hati-hati!)
🔮

8. Emerging Patterns 2025-2026

MoE, Long Context, Reasoning, Multimodal, Small-but-Mighty, Agents
PatternApa ItuContohImpact
Mixture of Experts (MoE)Triliunan params, hanya subset aktif per tokenGPT-4, DeepSeek-V3, MixtralCost seperti 200B, kemampuan seperti 1.8T
Long Context128K-2M+ token context windowClaude (200K), Gemini (2M)Baca buku utuh, codebase besar
Reasoning Models"Berpikir" chain-of-thought sebelum jawabo1, o3, DeepSeek-R195%+ math benchmarks (vs 50% sebelumnya)
MultimodalTeks + gambar + audio + videoGPT-4o, Gemini 2, Claude visionSatu model semua modalitas
Small-but-MightyModel kecil "over-trained"Phi-4, Gemma-3, Qwen3-8B8B setara GPT-3.5 (175B)!
RLVRRL with Verifiable RewardsDeepSeek-R1, o-seriesReasoning tanpa human labels
Agentic AILLM + tools + browse + codeClaude Code, OpenAI CodexDari chatbot ke worker
📝

9. Ringkasan Part 1

Fondasi LLM yang harus dipahami
KonsepKey Takeaway
LLMNeural network miliaran params yang prediksi token berikutnya
Next-TokenSatu tugas sederhana yang pada skala besar menghasilkan emergence
TokenizationTeks dipecah jadi sub-kata via BPE; non-Latin butuh lebih banyak token
Decoder-OnlyStack: Embedding + Causal Attention + FFN + LayerNorm
Parameters8B-1.8T+ floating-point numbers = "memori" model
Temperature0 = deterministic, 0.7 = balanced, 1.0+ = creative
Scaling LawsLebih besar = lebih pintar, tapi diminishing returns
MoETriliunan params tapi hanya subset aktif = efisiensi
Reasoningo1/R1: "think then answer" = breakthrough math/code
LLM
Tech Review Desk — Seri Belajar LLM
Sumber: Sebastian Raschka "State of LLMs 2025", Vaswani et al. 2017, OpenAI GPT papers, LLMOrbit taxonomy, Keymakr Guide 2026, Anthropic Constitutional AI.
rominur@gmail.com  •  t.me/Jekardah_AI — For collaboration & discussion