Oentoro

13 jam ago

Cara Kerja LLM dari Token Sampai Jawaban: Visual Breakdown untuk Non-AI Engineer

ChatGPT kelihatan ngerti tiap lo ngomong. Tapi di balik layar — cuma mesin prediksi kata berikutnya di scale absurd. Artikel ini jelasin cara kerja LLM dari nol, pake analogi yang gak butuh ijazah matematika.

Lo ketik pertanyaan ke ChatGPT. Dalam hitungan detik, jawaban yang koheren muncul. Kadang bener, kadang ngaco — tapi kelihatan “ngerti”. Pertanyaannya: LLM itu beneran ngerti, atau cuma nembak kata berikutnya pake probabilitas?

Jawaban singkat: cuma nembak kata berikutnya. Tapi cara kerjanya jauh lebih kompleks dari autocomplete di keyboard lo. Artikel ini breakdown tiap langkah — dari huruf pertama yang lo ketik sampe jawaban yang muncul di layar.

Step 1: Tokenizer — Lo Gak Ngetik Kata, Lo Ngetik Token

Ketika lo ketik “Machine learning itu seru”, LLM gak liat itu sebagai 4 kata. LLM liat sebagai 4 token: “Machine”, ” learn”, “ing”, ” itu”, ” ser”, “u”. Kenapa? Karena kata “learning” kepanjangan — gak bisa langsung diproses. Jadi lo potong jadi potongan kecil (subword).

Ini mirip cara kerja LEGO. Lo punya ribuan blok kecil (token). Setiap kalimat yang lo tulis di-reset jadi kombinasi blok-blok ini. Setiap model punya vocabulary-nya sendiri — GPT-4 punya sekitar 100.000 token, termasuk huruf, angka, simbol, dan kata bahasa Inggris umum.

Yang menarik: token bahasa Indonesia sering lebih banyak daripada bahasa Inggris karena vocabulary kebanyakan model di-training dominan bahasa Inggris. “Pengembangan” jadi 3 token. “Development” cuma 1 token.

Step 2: Embedding — Token Berubah Jadi Titik di Ruang Multi-Dimensi

Lo harus ngubah tiap token jadi angka dulu sebelum bisa diproses. Bukan angka biasa — tapi vektor. Lo bisa bayangin sebagai kordinat di ruang 3D: setiap kata punya posisi unik.

Misalnya:

“Raja” ada di posisi dekat “Ratu” dan “Kerajaan”
“Kucing” ada di posisi dekat “Anjing” dan “Hewan peliharaan”
“Python” ada di posisi dekat “JavaScript” dan “Rust”

Semakin dekat dua titik di ruang ini, semakin mirip makna mereka. Inilah yang bikin LLM bisa nangkep konteks — bukan lewat pemahaman bahasa, tapi lewat kedekatan geometris antar kata.

Proses embedding mengubah token vektor jadi vektor dimensi tinggi — umumnya 12.288 dimensi untuk GPT-4. Lo gak perlu bayangin 12.288 dimensi. Cukup pahami: makin tinggi dimensi, makin detail representasi makna tiap token.

Step 3: Attention — “Kata Ini Penting di Konteks Ini”

Ini jantung dari arsitektur transformer yang bikin LLM modern. Self-attention bikin tiap token “melirik” semua token lain di dalam kalimat dan nentuin mana yang relevan.

Analoginya: lo baca kalimat ini:

“Budi beli buku di toko. Dia baca di kamar.”

Kalau lo tanya “Dia” merujuk ke siapa? Lo langsung tau jawabannya: Budi. Otak lo udah nge-scan semua kata di kalimat pertama, nemu “Budi” sebagai satu-satunya orang, dan nge-connect ke “Dia”. Self-attention bikin LLM ngalamin proses mirip — tapi secara matematis.

Mekanismenya: tiap token punya 3 vektor — Query (pertanyaan: “apa informasi yang lo butuh?”), Key (kunci: “lo punya informasi ini?”), dan Value (nilai: “kalau match, ini yang lo kasih”).

Query token “baca” nyari tahu: konteks apa yang lo butuhin?
Key token “Budi” nunjukin: lo adalah subjek
Saat Query dan Key match → token “baca” ngambil informasi dari “Budi” lewat Value

Step 4: Multi-Head Attention — Bukan Cuma Sekali

Gak cukup sekali lirik. Transformer ngejalanin self-attention berkali-kali — tiap “head” punya fokus berbeda:

Head 1: Fokus ke grammar — mana subjek, mana objek
Head 2: Fokus ke semantik — kata apa yang punya makna mirip
Head 3: Fokus ke dependensi jarak jauh — kata yang jauh tapi saling relate

GPT-4 punya 96 head per layer. Setiap head baca ulang kalimat dengan sudut pandang berbeda. Hasil-hasil itu lo gabung dan kirim ke layer berikutnya.

Step 5: Feed-Forward Network — “Keputusan Berat”

Setelah attention selesai, tiap token masuk ke feed-forward network (FFN) — jaringan saraf yang berat yang bikin keputusan. Di sinilah LLM “memproses” informasi yang udah di-attend tadi.

FFN punya 2 layer dengan biasanya 4x lipat ukuran dari embedding asli. Untuk GPT-4, itu artinya sekitar 49.000 unit per layer. Mereka punya 316 miliar parameter di dalamnya.

Sebagai perbandingan: otak manusia punya sekitar 86 miliar neuron. Tapi neuron otak jauh lebih kompleks — satu neuron otak bisa punya hingga 10.000 koneksi. Jadi jangan anggap LLM udah “setara” otak manusia dari segi kapasitas. Tapi untuk tugas prediksi kata berikutnya, 316 miliar parameter ini udah lebih dari cukup.

Step 6: Probability Distribution — Lo Dapet Bukan Jawaban, Tapi Peluang

Lo kira LLM ngasih jawaban? Gak. LLM ngasih probabilitas setiap kata sebagai kandidat berikutnya.

Misalnya lo ketik: “Ibu kota Indonesia adalah”

“Jakarta” → 89.2%
“jakarta” → 4.1%
“Ibukota” → 2.3%
“Negara” → 0.8%
“Bogor” → 0.03%

LLM gak “tahu” jawabannya. Dia cuma punya distribusi probabilitas. Untuk bikin jawaban final, lo pakai strategi sampling — yang paling umum: temperature.

Temperature = 0: Selalu pilih token dengan probabilitas tertinggi. Hasilnya konsisten tapi kadang repetitif.

Temperature = 1.0: Sesuai distribusi asli. Lebih kreatif tapi kadang aneh.

Temperature = 0.7: Kompromi — sebagian besar token tetep diambil dari yang tinggi probabilitasnya, tapi ada sedikit randomness. Ini default kebanyakan model.

Step 7: Iterasi — Loop yang Gak Lo Lihat

Lo ngira LLM jawab sekaligus? Gak. Lo ngira LLM tahu seluruh jawaban dari awal? Juga gak.

LLM jawab satu kata per iterasi. Setiap kali lo “baca” jawaban muncul, yang sebenernya terjadi:

Input:  "Ibu kota Indonesia adalah"
Iter 1: "Jakarta" → kalimat sekarang: "Ibu kota Indonesia adalah Jakarta"
Iter 2: "adalah" → kalimat sekarang: "Ibu kota Indonesia adalah Jakarta adalah"
Iter 3: "jakarta" → kalimat sekarang: "Ibu kota Indonesia adalah Jakarta adalah jakarta"

Ini kenapa kalimat LLM kadang repetitif atau ngelantur — setiap langkah cuma nebak satu kata berikutnya tanpa “rencana” keseluruhan.

Step 8: Context Window — Batas Ingatan LLM

LLM gak ingat seluruh internet. LLM cuma ingat token di dalam context window — batas ingatan yang bisa diproses sekaligus.

GPT-3.5: 4.096 token (~3.000 kata)
GPT-4: 8.192 token (~6.000 kata) atau 32.000 token
GPT-4 Turbo: 128.000 token (~96.000 kata)
Claude 3.5: 200.000 token (~150.000 kata)

Lo kira LLM “ngerti” novel 500 halaman? Gak. Lo harus bagi jadi beberapa chunk. Kalau lo nyimpen 100.000 kata sekaligus — 80% pasti lo lupa.

Kesimpulan: LLM Adalah Mesin Prediksi yang Sangat Canggih, Bkan Makhluk yang Ngerti

LLM bukan otak digital. LLM bukan jurnal yang nyimpen pengetahuan. LLM adalah mesin prediksi yang sangat kompleks yang belajar nembak kata berikutnya dari miliaran contoh kalimat.

Yang bikin lo terkecoh: output-nya kelihatan koheren dan konsisten. Lo baca kalimatnya, lo rasain maknanya, dan lo ngerasa “dia ngerti”. Tapi itu cuma efek dari probabilitas yang udah di-tune dari miliaran contoh kalimat manusia.

Fakta yang sering developer lupa: LLM itu juga sering ngarang (hallucination). LLM tahu cara merangkai kata yang terdengar meyakinkan — tapi gak bisa ngebedain fakta dan fiksi. Inilah kenapa lo harus selalu verifikasi jawaban LLM dari sumber terpercaya.

Sekarang lo udah paham cara kerjanya: tokenisasi → embedding → attention → feed-forward → probabilitas → iterasi. Lo gak perlu jadi PhD buat nge-desain prompt yang lebih efektif. Yang lo butuh cuma paham: LLM cuma nembak kata berikutnya. Kalau lo bisa bikin konteksnya jelas, hasilnya juga jelas.

Cara Kerja LLM dari Token Sampai Jawaban: Visual Breakdown untuk Non-AI Engineer

« Kebijakan Privasi Al-Quran Digital

Categories: Teknologi

Tags: aiDeep LearningLLMmachine learningTransformer

Oentoro: