Seri Belajar PyTorch Part 5: NLP — Text Classification & Sentiment Analysis

📚 Seri Belajar PyTorch:

1 2 3 4 5 6 7 8 9 10

📑 Daftar Isi — Part 5

Dari Pixel ke Kata — Perbedaan fundamental CV vs NLP
NLP Pipeline — Teks → Token → Angka → Embedding → Model
Tokenization — Pecah teks jadi potongan yang bisa dihitung
Word Embeddings — Kata sebagai vektor dalam ruang makna
LSTM — Network yang "ingat" urutan kata
Kode: Sentiment Classifier — Positif atau Negatif?
Transformer & Hugging Face — Masa depan NLP
Ringkasan & Preview Part 6

📝

1. Dari Pixel ke Kata

Computer Vision = pixel grid. NLP = urutan kata dengan makna dan konteks.

Di Part 1-4, input model adalah gambar — grid 2D angka (pixel) yang bisa langsung dimasukkan ke tensor. Teks sangat berbeda: kata-kata tidak bisa langsung jadi angka, urutannya penting ("anjing mengejar kucing" ≠ "kucing mengejar anjing"), dan panjangnya bervariasi.

🖼️ Computer Vision

Input: grid pixel (28×28 atau 224×224). Panjang fixed. Spatial structure (2D). Operasi: konvolusi. Model: CNN, ResNet.

📝 NLP

Input: urutan kata (bervariasi panjang). Sequential structure (1D). Konteks dan makna penting. Model: LSTM, Transformer.

🔄

2. NLP Pipeline — Teks ke Prediksi

5 langkah: Raw Text → Token → Integer → Embedding → Model → Prediction

🔄 NLP Pipeline — Dari Kalimat Mentah ke Prediksi

✂️

3. Tokenization — Pecah Teks Jadi Token

Dari kalimat → list kata → list angka

16_tokenization.py — Dari Teks ke Angka

import re
from collections import Counter

# ===========================
# 1. Tokenisasi sederhana
# ===========================

def tokenize(text):
    """Pecah teks jadi list kata (lowercase, no punctuation)"""
    text = text.lower()                      # lowercase
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # hapus punctuation
    return text.split()                       # pecah by spasi

review = "This movie was absolutely amazing! Best film of 2026."
tokens = tokenize(review)
print(tokens)
# ['this', 'movie', 'was', 'absolutely', 'amazing',
#  'best', 'film', 'of', '']

# ===========================
# 2. Bangun Vocabulary
# ===========================

# Kumpulkan semua kata dari seluruh dataset
all_reviews = [
    "This movie was great",
    "Terrible film, waste of time",
    "Amazing acting and story",
    "Boring and predictable",
]

# Hitung frekuensi setiap kata
word_counts = Counter()
for review in all_reviews:
    word_counts.update(tokenize(review))

# Buat mapping: kata → angka
vocab = {'<PAD>': 0, '<UNK>': 1}  # Token khusus
for word, count in word_counts.most_common(5000):
    vocab[word] = len(vocab)

print(f"Vocabulary size: {len(vocab)}")
# Vocabulary size: 16

# ===========================
# 3. Encode: kata → angka
# ===========================

def encode(text, vocab, max_len=50):
    tokens = tokenize(text)
    ids = [vocab.get(t, vocab['<UNK>']) for t in tokens]
    # Padding: pastikan panjang sama
    ids = ids[:max_len]                      # truncate jika terlalu panjang
    ids += [0] * (max_len - len(ids))         # pad dengan 0 jika terlalu pendek
    return ids

encoded = encode("This movie was great", vocab)
print(encoded[:10])
# [5, 3, 6, 7, 0, 0, 0, 0, 0, 0]
# ↑this ↑movie ↑was ↑great  ↑...padding...

🎓 Special Tokens

<PAD> (ID 0): padding — mengisi tempat kosong agar semua input panjang sama. Neural network butuh input fixed-size.
<UNK> (ID 1): unknown — kata yang tidak ada di vocabulary. Muncul saat inference dengan kata baru yang belum pernah dilihat saat training.

🌐

4. Word Embeddings — Kata dalam Ruang Makna

Setiap kata = vektor. Kata mirip → vektor dekat.

Integer ID (42, 89, 156) tidak mengandung informasi tentang makna kata. Angka 42 tidak lebih "mirip" dengan 43 daripada dengan 1000. Word Embedding menyelesaikan ini: setiap kata direpresentasikan sebagai vektor padat (50-300 dimensi) di mana kata-kata dengan makna mirip memiliki vektor yang dekat satu sama lain.

🌐 Word Embedding Space — Kata Mirip = Posisi Dekat

17_embedding.py — nn.Embedding

import torch
import torch.nn as nn

# Embedding layer: lookup table kata → vektor
vocab_size = 5000      # Ukuran vocabulary
embed_dim  = 100       # Dimensi embedding per kata

embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
# ↑ padding_idx=0 → vektor untuk <PAD> selalu nol

# Input: batch of token IDs
input_ids = torch.tensor([[42, 7, 156, 89, 0],    # review 1
                           [23, 45, 0, 0, 0]])     # review 2 (shorter, padded)

# Output: setiap ID → vektor 100-dimensi
embedded = embedding(input_ids)
print(embedded.shape)
# torch.Size([2, 5, 100])
# ↑batch=2  ↑seq_len=5  ↑embed_dim=100
# Setiap kata sekarang punya "alamat" di ruang 100-dimensi!

🔄

5. LSTM — Network yang "Ingat" Urutan

Long Short-Term Memory: membaca kata per kata, ingat konteks

LSTM (Long Short-Term Memory) membaca teks satu kata per langkah, sambil menyimpan "memori" tentang kata-kata sebelumnya. Ini memungkinkan LSTM memahami konteks: "not good" → negatif (bukan positif meskipun ada "good").

🔄 LSTM Unrolled — Membaca Kata per Kata dengan Memori

💻

6. Kode: Sentiment Classifier (LSTM)

Positif atau Negatif — dari IMDb movie reviews

18_sentiment_lstm.py — Full Sentiment Classifier

import torch
import torch.nn as nn

class SentimentLSTM(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_classes):
        super().__init__()

        # Layer 1: Embedding (kata → vektor)
        self.embedding = nn.Embedding(
            vocab_size,
            embed_dim,
            padding_idx=0
        )

        # Layer 2: LSTM (proses urutan kata)
        self.lstm = nn.LSTM(
            input_size=embed_dim,     # Ukuran embedding
            hidden_size=hidden_dim,   # Ukuran hidden state
            num_layers=2,             # 2 layer LSTM (stacked)
            batch_first=True,         # Input shape: [batch, seq, feature]
            bidirectional=True,       # Baca maju DAN mundur
            dropout=0.3               # Dropout antar layer LSTM
        )

        # Layer 3: Classifier head
        self.dropout = nn.Dropout(0.5)
        self.fc = nn.Linear(hidden_dim * 2, num_classes)
        # ↑ ×2 karena bidirectional (forward + backward)

    def forward(self, x):
        # x shape: [batch, seq_len] (token IDs)

        embedded = self.embedding(x)
        # → [batch, seq_len, embed_dim]

        lstm_out, (hidden, cell) = self.lstm(embedded)
        # hidden shape: [num_layers*2, batch, hidden_dim]

        # Ambil hidden state terakhir (forward + backward)
        hidden_fwd = hidden[-2]   # Last forward layer
        hidden_bwd = hidden[-1]   # Last backward layer
        hidden_cat = torch.cat([hidden_fwd, hidden_bwd], dim=1)
        # → [batch, hidden_dim * 2]

        output = self.dropout(hidden_cat)
        output = self.fc(output)
        # → [batch, num_classes]

        return output

# Inisialisasi model
model = SentimentLSTM(
    vocab_size=25000,    # 25K kata paling sering
    embed_dim=100,       # Embedding 100-dimensi
    hidden_dim=256,      # LSTM hidden 256
    num_classes=2        # Positif atau Negatif
)

total = sum(p.numel() for p in model.parameters())
print(f"Parameters: {total:,}")
# Parameters: 3,456,002

# Training (sama pattern seperti Part 2-4!)
loss_fn   = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# Hasil setelah 5 epoch pada IMDb dataset:
# Epoch 1 | Loss: 0.6234 | Acc: 72.4%
# Epoch 3 | Loss: 0.3821 | Acc: 84.1%
# Epoch 5 | Loss: 0.2456 | Acc: 87.3%

# Prediksi:
# "This movie was absolutely terrible" → Negatif (96.2%)
# "Best film I've seen this year!"    → Positif (93.8%)

🎓 Bidirectional LSTM

LSTM biasa membaca kiri → kanan saja. Bidirectional LSTM membaca dua arah: maju DAN mundur. Ini penting karena makna kata bisa bergantung pada kata setelahnya. Contoh: "The food was not bad" — kata "bad" berubah makna karena "not" di sebelumnya. Tapi "food" juga penting dan ada sebelum "not". Bidirectional menangkap kedua konteks.

🤖

7. Transformer & Hugging Face — Masa Depan NLP

Dari LSTM ke Attention: fondasi GPT, BERT, Claude, dan semua LLM modern

LSTM bagus, tapi lambat (sequential, satu kata per langkah) dan susah menangkap hubungan jarak jauh. Transformer (2017) menyelesaikan kedua masalah ini dengan Self-Attention: setiap kata bisa langsung "memperhatikan" semua kata lain secara paralel. Ini fondasi semua LLM modern: GPT, BERT, Claude, Gemini, LLaMA.

🐌 LSTM

Sequential: satu kata per langkah. Lambat untuk teks panjang. Sulit menangkap hubungan kata yang jauh. Akurasi: ~87% (IMDb). Training: lambat.

⚡ Transformer (BERT)

Parallel: semua kata diproses sekaligus. Cepat. Self-Attention menghubungkan semua kata. Akurasi: ~95% (IMDb). Training: cepat (GPU).

19_huggingface_bert.py — Sentiment dengan BERT (5 baris!)

# pip install transformers
from transformers import pipeline

# Load pre-trained sentiment classifier — SATU BARIS!
classifier = pipeline("sentiment-analysis")

# Prediksi langsung — tanpa training!
result = classifier("This movie was absolutely fantastic!")
print(result)
# [{'label': 'POSITIVE', 'score': 0.9998}]

result = classifier("Terrible acting, boring plot.")
print(result)
# [{'label': 'NEGATIVE', 'score': 0.9994}]

# Batch prediction
results = classifier([
    "I loved every minute of this film",
    "Waste of time and money",
    "Decent movie, nothing special"
])
for r in results:
    print(f"{r['label']:8s} ({r['score']:.2%})")
# POSITIVE (99.98%)
# NEGATIVE (99.89%)
# POSITIVE (74.32%)

🤯 5 Baris Kode! Hugging Face pipeline memberikan akses ke ribuan model pre-trained. Tidak perlu tokenization manual, training, atau apapun — langsung prediksi. Ini kekuatan ekosistem: seseorang sudah melatih model pada jutaan review, dan Anda tinggal pakai. Untuk fine-tune ke domain Anda sendiri, Hugging Face juga menyediakan Trainer API.

20_finetune_bert.py — Fine-tune BERT untuk Data Anda

from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments
)

# Load pre-trained BERT + tokenizer
model_name = "bert-base-uncased"
tokenizer  = AutoTokenizer.from_pretrained(model_name)
model      = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    num_labels=2    # Positif / Negatif
)

# Tokenize dataset Anda
def tokenize_fn(examples):
    return tokenizer(
        examples["text"],
        padding="max_length",
        truncation=True,
        max_length=256
    )

# Training arguments
args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
    learning_rate=2e-5,          # LR kecil untuk fine-tune!
    evaluation_strategy="epoch",
)

# Train!
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,   # Dataset Anda
    eval_dataset=eval_dataset,
)
trainer.train()

# Hasil: 93-95% akurasi setelah fine-tune 3 epoch!
# Jauh lebih baik dari LSTM (87%) dengan effort minimal.

⚠️ LSTM vs Transformer — Kapan Pakai Mana? Gunakan LSTM jika: resource terbatas (CPU), dataset kecil, atau perlu memahami arsitektur dari dasar. Gunakan Transformer/BERT jika: butuh akurasi terbaik, punya GPU, dan dataset cukup besar. Di 2026, Transformer adalah default choice untuk production NLP.

📝

8. Ringkasan Part 5

Konsep NLP yang kita kuasai

Konsep	Apa Itu	Kode Kunci
Tokenization	Pecah teks → list kata/sub-kata	`text.lower().split()`
Vocabulary	Mapping kata → integer ID	`{"word": 42, ...}`
Padding	Buat semua input panjang sama	`ids += [0] * (max_len - len)`
nn.Embedding	Lookup table: ID → dense vector	`nn.Embedding(vocab, dim)`
nn.LSTM	Sequential model yang ingat konteks	`nn.LSTM(input, hidden, layers)`
Bidirectional	Baca maju DAN mundur	`bidirectional=True`
Hidden State	"Memori" LSTM — ringkasan urutan	`_, (hidden, cell) = lstm(x)`
Transformer	Self-Attention: semua kata paralel	Fondasi GPT, BERT, Claude
Hugging Face	Hub 100K+ pre-trained models	`pipeline("sentiment-analysis")`
Fine-tune BERT	Adaptasi BERT ke domain Anda	`Trainer(model, args, dataset)`

🔥 Perjalanan Kita: Part 1 → Part 5

📘

Coming Next: Part 6 — Deployment: Model ke Production

Model sudah bagus, sekarang bagaimana deploy? Belajar TorchScript, ONNX export, FastAPI serving, Docker containerization, dan deployment ke cloud. Plus: optimasi model untuk mobile dengan quantization dan pruning.

🔥

Tech Review Desk — Seri Belajar PyTorch

Tutorial hands-on. Sumber: pytorch.org, Hugging Face docs, bentrevett/pytorch-sentiment-analysis, Analytics Vidhya. PyTorch v2.7+ (2026).

📧 rominur@gmail.com • ✈️ t.me/Jekardah_AI — For collaboration & discussion