Seri Belajar LLM Part 1: Apa Itu LLM? — Fondasi Large Language Model

📚 Seri Belajar LLM:

Daftar Isi — Part 1

Definisi LLM — Mesin prediksi kata berikutnya
Next-Token Prediction — Satu tugas, ribuan kemampuan
Tokenization (BPE) — Pecah teks jadi sub-kata
Arsitektur Transformer — Decoder-Only stack
Anatomy LLM — Parameters, layers, heads
Evolusi: GPT-1 ke Frontier 2026
Temperature & Sampling — Kreativitas vs akurasi
Emerging Patterns 2026 — MoE, Reasoning, Agents
Ringkasan & Preview Part 2

🧠

1. Definisi: Apa Itu Large Language Model?

Bukan "kecerdasan buatan" — ini mesin statistik yang sangat pintar menebak kata

Large Language Model (LLM) adalah neural network dengan miliaran parameter yang dilatih pada triliunan kata dari internet untuk satu tugas sederhana: memprediksi kata (token) berikutnya dalam urutan teks. Ketika tugas ini dilakukan pada skala masif — triliunan kata, miliaran parameters — kemampuan tak terduga muncul: model bisa menulis esai, menerjemahkan, coding, berdebat, memecahkan soal matematika. Semua dari satu objective.

Istilah "Large" merujuk ukuran model (miliaran parameter). "Language" karena input/output utama adalah teks. "Model" karena ini model statistik — bukan program dengan rules yang ditulis manusia. Di 2026, frontier models memiliki ratusan miliar hingga triliunan parameter, dilatih dengan biaya $100M+ selama berminggu-minggu di ribuan GPU.

LLM Bisa:

Menulis, merangkum, menerjemahkan, coding, menjawab pertanyaan, brainstorming, analisis data, tutoring, roleplay — semua dari satu model yang sama.

LLM Bukan:

Database fakta (bisa hallucinate), search engine (tidak browsing real-time), manusia (tidak "mengerti"), kalkulator (bisa salah hitung), atau AGI.

🎯

2. Next-Token Prediction — Rahasia Semua Kemampuan

"Given these words, what word comes next?" — diulang triliunan kali saat training

Next-Token Prediction — Cara LLM Bekerja

Analogi: Autocomplete yang Membaca Seluruh Perpustakaan Dunia

Autocomplete HP Anda memprediksi kata berdasarkan ratusan ribu teks. Bayangkan autocomplete yang dilatih dari seluruh internet — triliunan kata. Saat cukup besar (miliaran parameter), ia bukan hanya menebak kata — ia bisa menulis esai koheren, menjelaskan quantum physics, menulis Python, berdebat filsafat. Fenomena ini disebut emergence — kemampuan kompleks dari aturan sederhana pada skala besar.

Autoregressive: Satu Token Per Langkah

LLM menghasilkan teks satu token per langkah (autoregressive). Setelah memprediksi "pasar", teks menjadi "Ibu pergi ke pasar" — lalu model memprediksi token berikutnya ("untuk"), lalu ("membeli"), dan seterusnya. Setiap prediksi mempertimbangkan SEMUA token sebelumnya via self-attention. Ini mengapa LLM menghasilkan paragraf koheren.

✂

3. Tokenization — LLM Tidak Membaca "Kata"

BPE memecah teks jadi sub-kata: "playing" = ["play", "ing"]. Bahasa Indonesia butuh lebih banyak token.

Teks dipecah menjadi token — potongan sub-kata oleh algoritma Byte-Pair Encoding (BPE). Kata umum ("the") = 1 token, kata langka ("dermatofibrosarcoma") = 5-7 token. Bahasa Indonesia butuh ~1.5-1.8x lebih banyak token dari English per kalimat setara — implikasi biaya API.

01_tokenization.py

import tiktoken

enc = tiktoken.encoding_for_model("gpt-4")

text_en = "Large Language Models are amazing!"
tokens_en = enc.encode(text_en)
print(f"English: {len(tokens_en)} tokens")
# English: 6 tokens

text_id = "Model bahasa besar sangat menakjubkan!"
tokens_id = enc.encode(text_id)
print(f"Indonesian: {len(tokens_id)} tokens")
# Indonesian: 11 tokens (hampir 2x!)

for t in tokens_en:
    print(f"  ID {t:6d} = '{enc.decode([t])}'")
#   ID  35353 = 'Large'
#   ID  11688 = ' Language'
#   ID  27972 = ' Models'
#   ID    527 = ' are'
#   ID  12764 = ' amazing'
#   ID      0 = '!'

Tokenizer	Vocab Size	Dipakai Oleh	ID Efficiency
cl100k_base	100,256	GPT-4, GPT-4o	~1.8x token vs EN untuk ID
o200k_base	200,000	GPT-4o newer	~1.5x (improved)
SentencePiece	32K-128K	LLaMA, Gemma	Bervariasi
Qwen Tokenizer	152,064	Qwen 2.5/3	~1.2x (optimized Asia)

Implikasi Biaya: Bahasa Indonesia ~1.5-1.8x lebih banyak token dari English. Qwen dan model Asia-focused cenderung lebih efisien untuk Bahasa Indonesia.

🏗

4. Arsitektur: Transformer Decoder-Only

Semua LLM modern = stack Transformer decoder blocks. Satu arsitektur, ribuan model.

Arsitektur LLM — Decoder-Only Transformer

Mengapa Decoder-Only Mendominasi?

Tiga arsitektur Transformer bersaing: Encoder-only (BERT), Encoder-Decoder (T5), Decoder-only (GPT). Di 2026, decoder-only jadi standar karena paling sederhana, paling mudah di-scale, dan ternyata bisa melakukan SEMUA tugas jika cukup besar. Simplicity wins at scale.

📐

5. Anatomy LLM — Angka di Balik Model

Parameters, layers, hidden dim, attention heads, context window

Komponen	GPT-2	LLaMA-3 8B	GPT-4 (Est.)	Penjelasan
Parameters	117M	8B	~1.8T MoE	Jumlah angka yang dipelajari
Layers	12	32	~120	Kedalaman network
Hidden Dim	768	4,096	~12,288	Lebar representasi internal
Attn Heads	12	32	~96	Perspektif attention
Context	1,024	128K	128K+	Token yang dibaca sekaligus
Vocab	50,257	128,256	~100K	Token unik yang dikenal
Training Tokens	~10B	~15T	~13T	Kata yang dibaca saat train
Cost	~$50K	~$10M	~$100M+	Biaya compute GPU

Parameter = "Memori" Model

Setiap parameter = satu angka floating-point yang menyimpan sepotong pengetahuan. Model 8B = 8 miliar angka yang bersama mengkodekan grammar, fakta, logika. File size: ~2 bytes/param (FP16), jadi 8B model = ~16GB. Quantization Q4 mengecilkan ke ~4.5GB — bisa jalan di laptop!

🚀

6. Evolusi: GPT-1 ke Frontier Models 2026

8 tahun, dari 117M ke triliunan parameter

Timeline LLM — 2018 sampai 2026

🌡

7. Temperature & Sampling — Kontrol Kreativitas

Temperature rendah = deterministic. Tinggi = kreatif tapi unpredictable.

Setelah LLM menghitung probabilitas setiap token, kita perlu memilih token mana yang di-output. Temperature mengubah distribusi: rendah = model lebih "yakin" pada pilihan teratas, tinggi = meratakan distribusi sehingga token kurang probable punya kesempatan. Top-P (nucleus sampling) = ambil dari token yang total probabilitasnya mencapai P%.

02_temperature.py

from openai import OpenAI
client = OpenAI()
prompt = "Describe the moon in one sentence."

# Temperature 0: SELALU output sama
r1 = client.chat.completions.create(
    model="gpt-4", temperature=0,
    messages=[{"role": "user", "content": prompt}]
)
# "The moon is Earth's only natural satellite..."
# (deterministic, selalu sama)

# Temperature 1.0: Kreatif, berbeda tiap kali
r2 = client.chat.completions.create(
    model="gpt-4", temperature=1.0,
    messages=[{"role": "user", "content": prompt}]
)
# "A pale guardian whispering across the night sky..."
# (kreatif, puitis, berbeda tiap run)

Temperature	Behavior	Use Case
0.0	100% deterministic, selalu sama	Kode, fakta, data extraction, terjemahan
0.1-0.3	Near-greedy, sangat fokus	Summarization, structured output
0.5-0.7	Kreativitas terkontrol (DEFAULT)	Writing, email, general chat
0.8-1.0	Kreatif, kadang surprising	Brainstorming, story, poetry
1.2+	Unpredictable, kadang nonsensical	Experimental (hati-hati!)

🔮

8. Emerging Patterns 2025-2026

MoE, Long Context, Reasoning, Multimodal, Small-but-Mighty, Agents

Pattern	Apa Itu	Contoh	Impact
Mixture of Experts (MoE)	Triliunan params, hanya subset aktif per token	GPT-4, DeepSeek-V3, Mixtral	Cost seperti 200B, kemampuan seperti 1.8T
Long Context	128K-2M+ token context window	Claude (200K), Gemini (2M)	Baca buku utuh, codebase besar
Reasoning Models	"Berpikir" chain-of-thought sebelum jawab	o1, o3, DeepSeek-R1	95%+ math benchmarks (vs 50% sebelumnya)
Multimodal	Teks + gambar + audio + video	GPT-4o, Gemini 2, Claude vision	Satu model semua modalitas
Small-but-Mighty	Model kecil "over-trained"	Phi-4, Gemma-3, Qwen3-8B	8B setara GPT-3.5 (175B)!
RLVR	RL with Verifiable Rewards	DeepSeek-R1, o-series	Reasoning tanpa human labels
Agentic AI	LLM + tools + browse + code	Claude Code, OpenAI Codex	Dari chatbot ke worker

📝

9. Ringkasan Part 1

Fondasi LLM yang harus dipahami

Konsep	Key Takeaway
LLM	Neural network miliaran params yang prediksi token berikutnya
Next-Token	Satu tugas sederhana yang pada skala besar menghasilkan emergence
Tokenization	Teks dipecah jadi sub-kata via BPE; non-Latin butuh lebih banyak token
Decoder-Only	Stack: Embedding + Causal Attention + FFN + LayerNorm
Parameters	8B-1.8T+ floating-point numbers = "memori" model
Temperature	0 = deterministic, 0.7 = balanced, 1.0+ = creative
Scaling Laws	Lebih besar = lebih pintar, tapi diminishing returns
MoE	Triliunan params tapi hanya subset aktif = efisiensi
Reasoning	o1/R1: "think then answer" = breakthrough math/code

📘

Next: Part 2 — Training Pipeline: Cara LLM Dibuat

Pre-training pada triliunan token, SFT dengan instruction data, dan RLHF/DPO untuk alignment. Plus: scaling laws, data curation, biaya $100M+, dan mengapa DeepSeek-R1 mengubah paradigma dengan RLVR.

LLM

Tech Review Desk — Seri Belajar LLM

Sumber: Sebastian Raschka "State of LLMs 2025", Vaswani et al. 2017, OpenAI GPT papers, LLMOrbit taxonomy, Keymakr Guide 2026, Anthropic Constitutional AI.

rominur@gmail.com • t.me/Jekardah_AI — For collaboration & discussion