savefile: RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

Ilustrasi evaluasi RAG dan AI knowledge base

Banyak tim membuat chatbot dokumen dengan RAG, mencoba tiga pertanyaan, lalu merasa sistemnya siap. Seminggu kemudian user bertanya hal yang sedikit berbeda dan jawabannya ngawur dengan percaya diri.

RAG atau Retrieval-Augmented Generation bukan hanya soal menyambungkan LLM ke dokumen. Kualitasnya sangat bergantung pada retrieval, chunking, ranking, prompt, dan evaluasi.

Kesalahan Umum Saat Membuat RAG

Chunk terlalu besar: retrieval membawa konteks berisik.
Chunk terlalu kecil: jawaban kehilangan konteks penting.
Tidak ada source citation: user tidak bisa memverifikasi jawaban.
Dokumen lama tetap aktif: AI menjawab dari kebijakan yang sudah kadaluarsa.
Evaluasi manual terlalu sedikit: hanya diuji dengan pertanyaan yang mudah.

Metrik yang Lebih Berguna

Jangan hanya menilai jawaban akhir. Pisahkan evaluasi menjadi beberapa lapisan:

Retrieval recall: apakah dokumen yang benar masuk ke konteks?
Answer faithfulness: apakah jawaban didukung oleh sumber?
Answer relevance: apakah jawaban menjawab pertanyaan user?
Citation accuracy: apakah link sumber benar-benar relevan?
Refusal quality: apakah model mau berkata tidak tahu saat sumber tidak ada?

Buat Dataset Pertanyaan Nyata

Ambil 50-200 pertanyaan dari support ticket, Slack, email customer, atau search log. Kelompokkan menjadi pertanyaan mudah, ambigu, multi-hop, dan pertanyaan yang seharusnya ditolak.

{
  "question": "Bagaimana cara reset MFA untuk user yang kehilangan HP?",
  "expected_sources": ["docs/security/mfa-recovery.md"],
  "must_include": ["verifikasi identitas", "admin approval"],
  "must_not_include": ["minta OTP lama"],
  "answerable": true
}

Pattern Jawaban yang Lebih Aman

Untuk knowledge base internal, minta model menjawab dengan batasan ketat:

Jawab hanya berdasarkan konteks yang diberikan.
Jika konteks tidak cukup, katakan "Saya tidak menemukan jawabannya di dokumen".
Sertakan sumber untuk setiap klaim penting.
Jangan membuat kebijakan baru.

RAG yang Bagus Itu Membosankan

RAG yang baik tidak selalu menjawab panjang. Ia menjawab tepat, menyebut sumber, dan berani menolak saat dokumen tidak cukup. Untuk aplikasi bisnis, jawaban "tidak tahu" yang benar lebih murah daripada jawaban palsu yang terdengar pintar.

RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

Kesalahan Umum Saat Membuat RAG

Metrik yang Lebih Berguna

Buat Dataset Pertanyaan Nyata

Pattern Jawaban yang Lebih Aman

RAG yang Bagus Itu Membosankan

Artikel Populer

Kategori

Kategori

Info

Ikuti Kami

RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base

Kesalahan Umum Saat Membuat RAG

Metrik yang Lebih Berguna

Buat Dataset Pertanyaan Nyata

Pattern Jawaban yang Lebih Aman

RAG yang Bagus Itu Membosankan

Artikel Terkait

Artikel Populer

Kategori

Kategori

Info

Ikuti Kami