RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base
RAG Tidak Cukup "Bisa Jawab": Cara Mengevaluasi AI Knowledge Base
Banyak tim membuat chatbot dokumen dengan RAG, mencoba tiga pertanyaan, lalu merasa sistemnya siap. Seminggu kemudian user bertanya hal yang sedikit berbeda dan jawabannya ngawur dengan percaya diri.
RAG atau Retrieval-Augmented Generation bukan hanya soal menyambungkan LLM ke dokumen. Kualitasnya sangat bergantung pada retrieval, chunking, ranking, prompt, dan evaluasi.
Kesalahan Umum Saat Membuat RAG
- Chunk terlalu besar: retrieval membawa konteks berisik.
- Chunk terlalu kecil: jawaban kehilangan konteks penting.
- Tidak ada source citation: user tidak bisa memverifikasi jawaban.
- Dokumen lama tetap aktif: AI menjawab dari kebijakan yang sudah kadaluarsa.
- Evaluasi manual terlalu sedikit: hanya diuji dengan pertanyaan yang mudah.
Metrik yang Lebih Berguna
Jangan hanya menilai jawaban akhir. Pisahkan evaluasi menjadi beberapa lapisan:
- Retrieval recall: apakah dokumen yang benar masuk ke konteks?
- Answer faithfulness: apakah jawaban didukung oleh sumber?
- Answer relevance: apakah jawaban menjawab pertanyaan user?
- Citation accuracy: apakah link sumber benar-benar relevan?
- Refusal quality: apakah model mau berkata tidak tahu saat sumber tidak ada?
Buat Dataset Pertanyaan Nyata
Ambil 50-200 pertanyaan dari support ticket, Slack, email customer, atau search log. Kelompokkan menjadi pertanyaan mudah, ambigu, multi-hop, dan pertanyaan yang seharusnya ditolak.
{
"question": "Bagaimana cara reset MFA untuk user yang kehilangan HP?",
"expected_sources": ["docs/security/mfa-recovery.md"],
"must_include": ["verifikasi identitas", "admin approval"],
"must_not_include": ["minta OTP lama"],
"answerable": true
}
Pattern Jawaban yang Lebih Aman
Untuk knowledge base internal, minta model menjawab dengan batasan ketat:
Jawab hanya berdasarkan konteks yang diberikan.
Jika konteks tidak cukup, katakan "Saya tidak menemukan jawabannya di dokumen".
Sertakan sumber untuk setiap klaim penting.
Jangan membuat kebijakan baru.
RAG yang Bagus Itu Membosankan
RAG yang baik tidak selalu menjawab panjang. Ia menjawab tepat, menyebut sumber, dan berani menolak saat dokumen tidak cukup. Untuk aplikasi bisnis, jawaban "tidak tahu" yang benar lebih murah daripada jawaban palsu yang terdengar pintar.