📝 Artikel ini ditulis dalam Bahasa Indonesia
Seri Belajar LLM Part 6

Local LLMs — Run AI di Laptop Anda

Ollama, llama.cpp, quantization (GGUF/GPTQ/AWQ). Privacy 100%, gratis, offline, tanpa cloud. Part 6 mengajarkan cara menjalankan model 8B-70B di hardware consumer: dari install Ollama (2 commands) sampai memahami quantization levels dan memilih model terbaik untuk hardware Anda.

Maret 202630 menit bacaOllama • llama.cpp • GGUF • Quantization • Local AI
📚 Seri Belajar LLM:
1 2 3 4 5 6 7 8 9 10

Daftar Isi

  1. Mengapa Local LLM? — Privacy, cost, speed, offline
  2. Ollama — Install dan run dalam 2 commands
  3. Model Populer 2026 — Qwen3, DeepSeek-R1, LLaMA4, Gemma3
  4. Quantization — FP16, Q8, Q5, Q4, Q3, Q2 — trade-offs
  5. Hardware Guide — RAM, GPU, CPU requirements
  6. Python Integration — Ollama API + LangChain
  7. Perbandingan Local vs Cloud — Kapan pakai mana
  8. Ringkasan
💻

1. Mengapa Local LLM?

Privacy 100%, gratis, instant, offline. 4 alasan utama.

Cloud LLM APIs (GPT-4, Claude) powerful tapi memiliki trade-offs: data dikirim ke server pihak ketiga (privacy concern), biaya per-token yang bisa mahal untuk volume tinggi, latency network, dan ketergantungan pada internet. Local LLM menjalankan model langsung di hardware Anda — data tidak pernah keluar, gratis setelah download, latency minimal, dan bisa offline. Di 2026, model 8B parameter yang di-quantize bisa berjalan lancar di laptop dengan 8GB RAM.

AspekCloud API (GPT-4/Claude)Local LLM (Ollama)
PrivacyData dikirim ke serverData tidak pernah keluar
Cost$0.01-0.06 per 1K tokensGratis setelah download
Latency200-2000ms (network)50-200ms (local)
OfflineButuh internetWorks offline 100%
QualityFrontier-levelGood (8B) to Great (70B)
SetupAPI key, doneInstall Ollama, download model
🦙

2. Ollama — LLM in 2 Commands

Install dan run semudah Docker
Terminal — Ollama
# Install Ollama (Mac/Linux/Windows) $ curl -fsSL https://ollama.ai/install.sh | sh # Download dan run model — SATU COMMAND! $ ollama run llama3.2 >>> Apa itu machine learning? Machine learning adalah cabang AI yang memungkinkan... # Model populer Maret 2026 $ ollama run qwen3:8b # Alibaba, bagus untuk Asia $ ollama run deepseek-r1:8b # Reasoning model $ ollama run llama4-scout # Meta latest $ ollama run gemma3:12b # Google, compact $ ollama run codestral # Mistral, coding $ ollama run phi4 # Microsoft, small but mighty # API compatible dengan OpenAI! $ curl http://localhost:11434/v1/chat/completions \ -d '{"model":"qwen3:8b","messages":[{"role":"user","content":"Halo!"}]}'
📐

3. Quantization — Model Lebih Kecil

Float16 ke Int4: 4x lebih kecil, bisa jalan di laptop
Quant LevelBitsSize (8B model)QualityMin RAMRecommended
FP1616-bit~16 GBFull quality20+ GBServer/GPU
Q8_08-bit~8.5 GBNear-perfect (99%)12 GBDesktop GPU
Q5_K_M5-bit~5.7 GBVery good (97%)8 GBGood laptop
Q4_K_M4-bit~4.9 GBGood (95%)8 GBRECOMMENDED
Q3_K_M3-bit~3.5 GBAcceptable (90%)6 GBLow-end laptop
Q2_K2-bit~2.7 GBDegraded (80%)4 GBDesperate only
💻

4. Hardware Guide

Berapa RAM dan GPU yang dibutuhkan
Model SizeMin RAMRecommended GPUSpeed (tok/s)Use Case
1-3B4 GBCPU only20-40Simple tasks, edge devices
7-8B8 GBCPU or 8GB GPU15-30General purpose, coding
13-14B16 GB12-16GB GPU10-20Better quality, analysis
32-34B32 GB24GB GPU (RTX 4090)5-15Near-frontier quality
70B48-64 GB2x 24GB GPUs3-8Best open-source quality
LLM
Tech Review Desk — Seri Belajar LLM
Sumber: Sebastian Raschka, Anthropic, OpenAI, Hugging Face, LLMOrbit, DeepSeek technical reports.
rominur@gmail.com  •  t.me/Jekardah_AI