Seri Belajar LLM Part 4

RAG — Retrieval-Augmented Generation

Berikan LLM akses ke dokumen Anda: Vector DB, Embeddings, Chunking, Hybrid Search. Part 4 mengajarkan cara membangun RAG pipeline dari nol: embed dokumen, simpan di vector database, retrieve chunks relevan, dan augment prompt — sehingga LLM menjawab BERDASARKAN data Anda, bukan hallucination.

Maret 202630 menit bacaRAG • Vector DB • Embeddings • ChromaDB • Chunking

📚 Seri Belajar LLM:

1 2 3 4 5 6 7 8 9 10

Daftar Isi

Masalah — LLM tidak tahu data Anda
RAG Pipeline — Retrieve, Augment, Generate
Embeddings — Kata sebagai vektor
Vector Databases — ChromaDB, Pinecone, Qdrant
Chunking — Cara memotong dokumen
Kode: RAG Pipeline — 30 baris Python
Advanced RAG — Reranking, Hybrid Search, Agentic RAG
Evaluasi RAG — Faithfulness, Relevance, Answer Quality
Ringkasan —

🔍

1. Masalah: LLM Tidak Tahu Data Internal Anda

LLM tahu internet, tapi tidak tahu dokumen HR, SOP, atau data terbaru perusahaan Anda

LLM dilatih pada data internet sampai cutoff date tertentu. Mereka tidak tahu: dokumen internal perusahaan, data setelah cutoff, informasi privat, atau konteks spesifik bisnis Anda. RAG (Retrieval-Augmented Generation) menyelesaikan ini: sebelum LLM menjawab, sistem mencari dokumen relevan dari database Anda dan menyertakannya sebagai konteks dalam prompt. Hasilnya: LLM menjawab berdasarkan dokumen Anda, bukan dari training data yang mungkin outdated atau tidak relevan.

RAG Pipeline — Dari Query ke Grounded Answer

💻

2. Kode: RAG Pipeline Lengkap

ChromaDB + OpenAI dalam 30 baris

09_rag_pipeline.py

# pip install chromadb openai
import chromadb
from openai import OpenAI

client = OpenAI()
db = chromadb.Client()
collection = db.get_or_create_collection("company_docs")

# 1. INGEST: masukkan dokumen (sekali saja)
docs = [
    "Kebijakan cuti: karyawan tetap mendapat 12 hari cuti per tahun.",
    "Proses reimburse: submit via app HR dalam 7 hari kerja.",
    "Jam kerja: Senin-Jumat 09:00-17:00, WFH Jumat.",
]
collection.add(documents=docs, ids=["d1","d2","d3"])

# 2. RETRIEVE: cari dokumen relevan
results = collection.query(
    query_texts=["berapa hari cuti karyawan?"],
    n_results=3
)

# 3. GENERATE: augment prompt + LLM
context = "\n".join(results["documents"][0])
response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "Jawab HANYA berdasarkan konteks."},
        {"role": "user", "content": f"Konteks:\n{context}\n\nPertanyaan: berapa hari cuti?"}
    ]
)
print(response.choices[0].message.content)
# "Karyawan tetap mendapat 12 hari cuti per tahun."

📊

3. Vector Databases — Tempat Menyimpan Embeddings

Pilih yang tepat untuk use case Anda

Database	Type	Best For	Pricing	Scalability
ChromaDB	Open-source, local	Prototype, small projects	Free	Single machine
Pinecone	Managed cloud	Production, zero-ops	$$$	Auto-scale
Weaviate	Open-source, hybrid	Hybrid search (vector+keyword)	Free/$	Kubernetes
Qdrant	Open-source, Rust	High performance	Free/$	Distributed
pgvector	PostgreSQL extension	Already using Postgres	Free	With PG

✂

4. Chunking Strategies — Cara Memotong Dokumen

Chunk size sangat mempengaruhi kualitas retrieval

Strategy	Chunk Size	Pro	Con	Best For
Fixed Size	500-1000 chars	Simple, konsisten	Bisa potong tengah kalimat	Quick prototype
Sentence-based	3-5 sentences	Natural boundaries	Ukuran bervariasi	Articles, reports
Recursive	Adaptive	Respect document structure	Lebih kompleks	Long documents
Semantic	By topic	Best relevance	Butuh embedding model	Production RAG
Parent-Child	Section + subsection	Retrieves context hierarchy	Complex setup	Enterprise docs

🔧

5. Advanced RAG Techniques

Reranking, Hybrid Search, Query Expansion, Agentic RAG

Technique	Apa Itu	Impact
Reranking	Sort retrieved chunks by relevance (cross-encoder)	+ 10-20% relevance
Hybrid Search	Vector search + keyword search (BM25) combined	Better for exact terms
Query Expansion	Rephrase query into multiple variations	Better recall
HyDE	Generate hypothetical answer, then search for similar docs	Creative retrieval
Agentic RAG	LLM decides what to search, iterates if needed	Best quality, slower

📘

Next: Part 5 — LLM Agents & Tool Use

Dari chatbot ke autonomous agent. Function Calling, ReAct, MCP protocol, multi-agent systems.

LLM

Tech Review Desk — Seri Belajar LLM

Sumber: Sebastian Raschka, Anthropic, OpenAI, Hugging Face, LLMOrbit, DeepSeek technical reports.

rominur@gmail.com • t.me/Jekardah_AI