7 KPIs That Tell You If Your AI Chatbot Is Actually WorkingAI Chatbot'unuzun Gerçekten Çalışıp Çalışmadığını Gösteren 7 KPI
"The bot is up" and "the bot is working" are very different things. This post covers the seven KPIs every team should track once a chatbot is live, deflection rate, resolution rate, CSAT, fallback, handoff, conversion lift, and a couple more, with the benchmarks that separate a working bot from one that's quietly underperforming. If your dashboard only shows deflection rate, you're flying blind."Bot ayakta" ile "bot çalışıyor" çok farklı şeylerdir. Bu yazı, bir Chatbot canlıya alındıktan sonra her ekibin takip etmesi gereken yedi KPI'yı kapsıyor, saptırma oranı, çözüm oranı, CSAT, geri dönüş, devir, dönüşüm artışı ve birkaç tane daha, çalışan bir botu sessizce performans göstermeyenden ayıran kıyaslamalarla birlikte. Panonuz yalnızca saptırma oranını gösteriyorsa, gözü kapalı uçuyorsunuz demektir.
Once a chatbot is live, the temptation is to declare victory and move on. Conversations are happening, support tickets feel a little lighter, and the executive team stops asking about it. But "the bot is up" and "the bot is working" are very different things.
The chatbots that quietly underperform almost always do so for the same reason: nobody is watching the right numbers. Below are the seven KPIs every team should track, what they actually mean, and the benchmarks that separate a chatbot from a useful chatbot.
1. Deflection Rate
What it measures: the percentage of incoming questions resolved by the chatbot without escalating to a human.
Formula: (Tickets resolved by bot ÷ Total tickets) × 100.
Benchmark: Top performers hit 70–80%. Average bots sit at 30–40%. Below 30%, something is structurally wrong, usually weak grounding or poor retrieval.
The trap: deflection rate alone can be gamed. A bot that ends conversations because users gave up is "deflecting" tickets that didn't get resolved. Always pair deflection with the next metric.
2. Resolution Rate (a.k.a. Containment with CSAT)
What it measures: the percentage of bot-handled conversations that actually solved the user's problem, not just ended.
How to measure: combine deflection with a post-conversation thumbs-up/thumbs-down or a 1–5 satisfaction prompt. A resolution counts if the user marks it positive and doesn't open a follow-up ticket within 48 hours.
Benchmark: 60%+ resolution rate is good. 80%+ is exceptional.
This is the metric that should drive most decisions. Resolution rate connects directly to ROI in a way that raw deflection doesn't, see the chatbot ROI breakdown.
3. CSAT on Bot Conversations
What it measures: user satisfaction specifically with the chatbot interaction.
How to measure: post-conversation rating (1–5 or thumbs).
Benchmark: average CSAT of 4.0/5 or higher on bot-only conversations. Compare against your human-agent CSAT to spot gaps.
A chatbot with 80% deflection but 3.1 CSAT is a problem in disguise. Users are getting answers, but bad ones. They're just exhausted enough not to escalate.
4. Fallback Rate
What it measures: how often the bot fails to find an answer and either says "I don't know" or escalates.
Benchmark: under 15% is healthy. Over 25% means your knowledge base has gaps the bot can't fill, or your retrieval is failing.
A low fallback rate isn't automatically good either. If the bot never falls back, it's almost certainly hallucinating, confidently inventing answers it shouldn't have. We cover that failure mode in why AI chatbots hallucinate.
5. First-Response Time
What it measures: how fast users get an initial response.
Benchmark: under 3 seconds for an AI chatbot. Anything slower than 5 seconds is a UX problem.
This isn't really a chatbot capability metric, modern bots all answer instantly. It's an integration metric. Slow first-response times usually mean a slow front-end widget, not a slow model.
6. Handoff Rate (and Handoff Quality)
What it measures: how often the bot escalates to a human, and what happens after.
Why it matters: the bot's job is to handle what it can and cleanly hand off what it can't. A high handoff rate isn't bad if those handoffs go smoothly. A low handoff rate paired with poor CSAT is bad, users are bouncing instead of being escalated.
Benchmark: target a handoff rate that matches your "complex question" volume. Track average human-agent CSAT after handoff to ensure the transition isn't damaging the experience. The agent should arrive with full conversation context, anything else and you're forcing users to repeat themselves.
7. Conversion Lift (for customer-facing bots)
What it measures: the incremental conversion rate among visitors who engaged the chatbot vs. visitors who didn't.
Formula: (Conversion rate of chat-engaged sessions − Conversion rate of non-engaged sessions) ÷ Conversion rate of non-engaged sessions.
Benchmark: a 10–25% conversion lift on engaged sessions is realistic. Some ecommerce deployments see double that, see AI chatbot for ecommerce.
This is the metric that turns the chatbot conversation from "support cost center" to "revenue contributor," which is usually how the business case finally lands with finance.
Two More You Should Watch
Average Handle Time on bot conversations. A bot that takes 12 messages to resolve a simple question isn't actually saving time. Watch median message count and look for opportunities to compress.
User repeat rate. What percent of users come back to the bot within 30 days? Repeat usage is a strong signal that the bot is genuinely useful. If users only ever try it once, you have a trust problem.
Putting It All Together
The single most useful dashboard for a chatbot isn't a fancy AI-specific tool, it's a simple weekly view showing:
- Deflection % and resolution % (paired)
- CSAT trend on bot conversations
- Fallback rate broken down by topic (so you can see where the knowledge gaps are)
- Handoff rate + post-handoff CSAT
- Conversion lift (if applicable)
Looking at these together tells you the truth. Looking at any one of them in isolation will mislead you.
Why This Matters for Vendor Selection
Most chatbot vendors will report deflection rate prominently and quietly bury everything else. When evaluating a platform, ask explicitly:
- Can I see resolution rate, not just deflection?
- Can I segment fallback rate by topic?
- Do I get conversation logs with user feedback so my team can tune answers?
- How does the bot detect low confidence, and what does it do then?
If a vendor doesn't have crisp answers, they probably don't have the metrics either.
Why Solvara's Approach Surfaces the Right Numbers
The reason most chatbots quietly underperform their original promise is that nobody is watching the right metrics, and most platforms are designed to make sure you can't. They surface deflection rate (which always looks good) and bury everything that contradicts it.
Solvara's approach inverts this. Because we deploy and continuously tune the chatbot ourselves, we have to look at the metrics that actually matter, resolution rate paired with CSAT, fallback rate broken down by topic, post-handoff CSAT, and the conversation logs that show why a particular answer fell short. We share that view with you, not a sanitized version of it.
That's not a UI feature. It's a structural difference. When a vendor's job is to maintain the chatbot and keep deflection real, they need the full picture. When a vendor's job is to renew your contract, they only need the dashboard to look good. The chatbots that stay accurate over years are the ones in the first category.
The other reason this matters: the metrics also tell us where to improve the bot. Fallback rate spiking on a specific topic is a signal that there's a content gap. Low CSAT on a category of question means the prompt or retrieval needs adjustment. We fix those week over week. That's how the bot gets sharper, not staler, and how the ROI you projected at month one is still true at month twelve.
Learn more on the how it works page, or request a free demo to see what your real metrics dashboard would look like.
A chatbot that nobody measures eventually drifts into uselessness. The good ones get watched, and that's why they keep working.
Bir Chatbot canlıya alındığında, zafer ilan edip yola devam etme dürtüsü güçlüdür. Konuşmalar oluyor, destek talepleri biraz hafiflemiş hissettiriyor ve yönetim ekibi sormayı bırakıyor. Ama "bot ayakta" ile "bot çalışıyor" çok farklı şeylerdir.
Sessizce performans göstermeyen Chatbot'lar bunu neredeyse her zaman aynı sebeple yapar: kimse doğru rakamlara bakmıyordur. Aşağıda her ekibin izlemesi gereken yedi KPI, bu KPI'ların gerçekte ne anlama geldiği ve bir Chatbot'u yararlı bir Chatbot'tan ayıran kıyaslamalar yer alıyor.
1. Saptırma Oranı
Ne ölçer: Chatbot'un bir insana eskalasyon yapmadan çözdüğü gelen soruların yüzdesi.
Formül: (Bot tarafından çözülen talepler ÷ Toplam talepler) × 100.
Kıyaslama: En iyi performans gösterenler %70–80'e ulaşır. Ortalama botlar %30–40 bandında kalır. %30'un altında yapısal bir sorun var demektir, genellikle zayıf sabitleme ya da kötü getirme.
Tuzak: tek başına saptırma oranı manipüle edilebilir. Kullanıcılar pes ettiği için konuşmayı bitiren bir bot, çözülmemiş talepleri "saptırmış" sayılıyordur. Saptırmayı her zaman bir sonraki metrikle eşleştirin.
2. Çözüm Oranı (CSAT ile İçerme)
Ne ölçer: botun ele aldığı konuşmaların gerçekten kullanıcının sorununu çözen, yalnızca bitirmeyen, yüzdesi.
Nasıl ölçülür: saptırmayı, konuşma sonrası bir beğen/beğenme ya da 1–5 memnuniyet sorusuyla birleştirin. Kullanıcı pozitif işaretler ve 48 saat içinde takip talebi açmazsa bir çözüm olarak sayılır.
Kıyaslama: %60 ve üzeri çözüm oranı iyidir. %80 ve üzeri olağanüstüdür.
Çoğu kararı yönlendirmesi gereken metrik budur. Çözüm oranı, ham saptırmanın yapamadığı biçimde ROI ile doğrudan bağlantılıdır, bkz. Chatbot ROI analizi.
3. Bot Konuşmalarında CSAT
Ne ölçer: kullanıcının özellikle Chatbot etkileşiminden duyduğu memnuniyet.
Nasıl ölçülür: konuşma sonrası puanlama (1–5 ya da başparmak).
Kıyaslama: sadece bot konuşmalarında 4,0/5 ve üzeri ortalama CSAT. Boşlukları görmek için insan temsilcisi CSAT'ınızla karşılaştırın.
%80 saptırma ama 3,1 CSAT olan bir Chatbot, kılık değiştirmiş bir sorundur. Kullanıcılar yanıt alıyor, ama kötü yanıtlar. Sadece eskalasyona girecek enerjileri kalmamış oluyor.
4. Geri Dönüş Oranı
Ne ölçer: botun bir cevap bulamayıp ne sıklıkla "Bilmiyorum" dediği ya da eskalasyon yaptığı.
Kıyaslama: %15'in altı sağlıklıdır. %25'in üzerinde, bilgi tabanınızın botun dolduramadığı boşlukları var ya da getirmeniz başarısız oluyor demektir.
Düşük bir geri dönüş oranı da otomatik olarak iyi değildir. Bot hiç geri dönüş yapmıyorsa, neredeyse kesinlikle halüsinasyon görüyordur, üretmemesi gereken cevapları kendinden emin biçimde uyduruyordur. Bu başarısızlık modunu AI Chatbot'lar neden halüsinasyon görür yazımızda ele alıyoruz.
5. İlk Yanıt Süresi
Ne ölçer: kullanıcıların ilk yanıtı ne kadar hızlı aldığı.
Kıyaslama: bir AI Chatbot için 3 saniyenin altı. 5 saniyeden yavaş herhangi bir şey UX problemidir.
Bu aslında bir Chatbot kabiliyet metriği değildir, modern botlar zaten anında yanıt verir. Bir entegrasyon metriğidir. Yavaş ilk yanıt süreleri genellikle yavaş bir model değil, yavaş bir önyüz widget'ı anlamına gelir.
6. Devir Oranı (ve Devir Kalitesi)
Ne ölçer: botun bir insana ne sıklıkta eskalasyon yaptığı ve devamında ne olduğu.
Neden önemli: botun işi, halledebildiğini halletmek ve halledemediğini temiz bir şekilde devretmektir. Bu devirler düzgün gidiyorsa yüksek bir devir oranı kötü değildir. Düşük bir devir oranı ile düşük bir CSAT'ın eşleşmesi kötüdür, kullanıcılar eskalasyona alınmak yerine siteden çıkıyordur.
Kıyaslama: "karmaşık soru" hacminizle eşleşen bir devir oranını hedefleyin. Geçişin deneyime zarar vermediğinden emin olmak için devir sonrası ortalama insan temsilcisi CSAT'ını izleyin. Temsilcinin tüm konuşma bağlamıyla gelmesi gerekir, aksi durumda kullanıcıları kendilerini tekrarlamaya zorluyorsunuz demektir.
7. Dönüşüm Artışı (müşteriye dönük botlar için)
Ne ölçer: Chatbot ile etkileşime giren ziyaretçiler ile girmeyenler arasındaki ek dönüşüm oranı.
Formül: (Sohbete giren oturumların dönüşüm oranı − Etkileşime girmeyen oturumların dönüşüm oranı) ÷ Etkileşime girmeyen oturumların dönüşüm oranı.
Kıyaslama: etkileşime giren oturumlarda %10–25 dönüşüm artışı gerçekçidir. Bazı e-ticaret devreye almaları bunun iki katını görür, bkz. E-ticaret için AI Chatbot.
Bu, Chatbot konuşmasını "destek maliyet merkezi"nden "gelir katkısı sağlayan" bir konuma taşıyan metriktir; ki iş gerekçesi finansa genellikle son olarak bu noktada oturur.
İzlemeniz Gereken İki Metrik Daha
Bot konuşmalarında ortalama işleme süresi. Basit bir soruyu çözmek için 12 mesaj harcayan bir bot aslında zaman tasarrufu sağlamıyordur. Medyan mesaj sayısını izleyin ve sıkıştırma fırsatları arayın.
Kullanıcı tekrar oranı. Kullanıcıların yüzde kaçı 30 gün içinde bota geri dönüyor? Tekrar kullanım, botun gerçekten yararlı olduğunun güçlü bir sinyalidir. Kullanıcılar bir kez deneyip bir daha denemiyorsa, bir güven probleminiz var demektir.
Hepsini Bir Araya Getirmek
Bir Chatbot için en faydalı pano süslü bir AI'ya özel araç değildir, basit, haftalık bir görüntülemedir:
- Saptırma % ve çözüm % (eşleştirilmiş)
- Bot konuşmalarında CSAT eğilimi
- Konuya göre kırılmış geri dönüş oranı (bilgi boşluklarının nerede olduğunu görmek için)
- Devir oranı + devir sonrası CSAT
- Dönüşüm artışı (uygulanabilirse)
Bunlara birlikte bakmak size gerçeği söyler. Herhangi birine tek başına bakmak sizi yanıltır.
Bunun Sağlayıcı Seçimi İçin Önemi
Çoğu Chatbot sağlayıcısı saptırma oranını öne çıkarır ve geri kalan her şeyi sessizce gömer. Bir platformu değerlendirirken açıkça sorun:
- Yalnızca saptırmayı değil, çözüm oranını da görebilir miyim?
- Geri dönüş oranını konuya göre segmentleyebilir miyim?
- Ekibimin yanıtları ayarlayabilmesi için kullanıcı geri bildirimini içeren konuşma kayıtları alıyor muyum?
- Bot düşük güveni nasıl tespit ediyor ve ardından ne yapıyor?
Bir sağlayıcının net cevapları yoksa, muhtemelen metrikleri de yoktur.
Solvara'nın Yaklaşımı Doğru Rakamları Neden Yüzeye Çıkarır
Çoğu Chatbot'un ilk vaadinin altında sessizce kalmasının nedeni, kimsenin doğru metriklere bakmamasıdır, ve çoğu platform bunu yapamayacak şekilde tasarlanmıştır. Saptırma oranını (her zaman iyi görünür) yüzeye çıkarır ve onu çürüten her şeyi gömerler.
Solvara'nın yaklaşımı bunu tersine çevirir. Chatbot'u biz devreye alıp sürekli olarak biz ince ayarladığımız için, gerçekten önemli olan metriklere bakmak zorundayız, CSAT ile eşleştirilmiş çözüm oranı, konuya göre kırılmış geri dönüş oranı, devir sonrası CSAT ve belirli bir yanıtın neden yetersiz kaldığını gösteren konuşma kayıtları. Bu görüntüyü temizlenmiş bir versiyonu değil, olduğu gibi sizinle paylaşırız.
Bu bir UI özelliği değil. Yapısal bir farktır. Bir sağlayıcının işi Chatbot'u çalışır halde tutmak ve saptırmayı gerçek tutmak olduğunda, tüm tabloya ihtiyaç duyar. Bir sağlayıcının işi kontratınızı yenilemek olduğunda, sadece panonun iyi görünmesine ihtiyaç duyar. Yıllar içinde doğru kalan Chatbot'lar, birinci kategoridekilerdir.
Bunun önemli olmasının diğer nedeni: metrikler aynı zamanda botu nerede iyileştireceğimizi de söyler. Belirli bir konuda artan geri dönüş oranı, bir içerik boşluğu olduğunun sinyalidir. Bir soru kategorisinde düşük CSAT, prompt'un veya getirmenin ayar gerektirdiği anlamına gelir. Bunları haftadan haftaya düzeltiriz. Botun bayatlamak yerine keskinleşmesinin yolu budur, ve birinci ayda öngördüğünüz ROI'nin on ikinci ayda hâlâ doğru olmasının yolu da.
Daha fazlası için nasıl çalışır sayfasını inceleyin ya da gerçek metrik panonuzun nasıl görüneceğini görmek için ücretsiz bir demo talep edin.
Kimsenin ölçmediği bir Chatbot, eninde sonunda kullanışsızlığa doğru kayar. İyi olanlar izlenir, ve çalışmaya devam etmelerinin nedeni de budur.
See it on your own contentKendi içeriğinizde görün
We'll show you what Solvara looks like trained on your real documents and data.Solvara'nın kendi belgeleriniz ve verilerinizle nasıl çalıştığını gösterelim.
Book a DemoDemo İste