Yapay Zeka ve Altyapi
Semantic Cache ile RAG Maliyetlerini Dusurmek - Bolum 2: Test Ortami Hakkinda
Bir önceki yazıda AI projelerinde token maliyetlerini kontrol altına almak için neden Semantic Cache'e ihtiyaç duyduğumuzu yazmıştım. Teorik tarafı bir kenara bırakıp şimdi işin mutfağına giriyoruz. Ölçüm noktalarımı belirliyor ve "cache var" / "cache yok" senaryolarını yan yana koyacağım bir test düzeneği hazırlıyorum.
Yazının sonunda, ilerleyen bölümlerde paylaşacağım gerçek ölçüm sonuçlarının altyapısı ortaya çıkmış olacak.
Donanım ve Genel Yaklaşım
Test ortamı için MacPro M5 Max 48 GB RAM'li bir cihaz kullanıyorum. Tüm embedding işlemleri lokalde, MPS (Apple Silicon GPU) üzerinden yapılacak. Böylece OpenRouter kredisi yalnızca LLM çağrılarına gidecek; bu da maliyet ölçümünü temiz tutmamı sağlayacak.
Test verisi olarak World Economic Forum raporlarını seçtim. Üç nedeni var: halka açık ve global olarak tanınan kaynaklar olması, içeriğin hem teknik hem politika ağırlıklı olup soru çeşitliliği sunması, ve Türkçe sorularla İngilizce belge üzerinde RAG yapmanın başlı başına özgün bir test senaryosu olması.
Hedef, aynı RAG yapısını cache'siz ve cache'li çalıştırıp token tüketimi, gecikme ve cevap kalitesi üzerindeki etkiyi ölçmek.
Mimari 1 — Baseline RAG (Cache Yok)
Her soru için embedding, vector search ve LLM çağrısı çalışıyor. Yani her soru en az bir kez para ödüyor, en az bir kez de bekleme yaratıyor.
Mimari 2 — Semantic Cache'li RAG
Buradaki kritik nokta şu: cache, kelimesi kelimesine eşleşmeye değil, anlamsal benzerliğe bakıyor.
"Küresel ısınmanın ekonomik etkileri nelerdir?" ve "İklim değişikliğinin küresel ekonomiye etkisi nedir?" sorusu baseline'da iki ayrı LLM çağrısı; semantic cache'te ikincisi muhtemelen birincinin cevabını cache'ten alır.
Beklentilerim
Beklenti 1 — Token: Semantic cache aktifken toplam LLM token tüketimi baseline'a göre en az %40 azalacak.
Beklenti 2 — Gecikme: Cache HIT'lerinde ortalama yanıt süresi baseline ortalamasından %80'den fazla düşecek.
Beklenti 3 — Threshold hassasiyeti: Sweet spot 0.85 civarında olacak.
Beklenti 4 — Domain etkisi: Politika ve tanım soruları daha yüksek cache hit oranı verecek.
Sonraki Adım
Bir sonraki yazıda test ortamı kurulum adımlarını paylaşacağım.