WAI — Watcher AI.
Uygulamanızın hatasını uygulamanız yönetmek zorunda değil.
Hatayı sen yönetmeyeceksin. WAI yönetecek.
Olay → fingerprint → AI doctor → playbook → çözüm. Uygulamanız sadece olayı yollar; gerisini WAI hatırlar, sınıflar, çözer.
WAI, üretim sistemlerinizdeki her exception'ı, slow query'yi, cost spike'ı, hata trace'ini tek bir yerde toplar. AI tabanlı doktorlar olayı sınıflar, geçmiş çözüm bilgisini hatırlar, bilinen sorunlara otomatik playbook uygular. Çözülemeyeni Plane'e ticket olarak yükseltir veya Slack/Telegram'dan operatöre bildirir — çözüm bilgisi tek bir merkezde birikir, tek tek uygulamalarda dağılmaz.
Problem
Çözüm — 4 cümlede WAI
SDK gönderir
Python/TypeScript paketle uygulamaya entegre; FastAPI middleware, SQLAlchemy hook, React ErrorBoundary, fetch interceptor otomatik olay yakalar.
WAI yutar
REST + OTLP (OpenTelemetry gRPC/HTTP) ingest. NATS JetStream üzerinden 6 consumer paralel persist + classify.
Doktor düşünür
Anthropic Claude tabanlı uzman doctor'lar (network, db, auth, llm, infra, frontend, queue, runtime, cost, triage). RAG ile geçmiş çözüm bilgisinden öğrenir; lifecycle: shadow → advisory → acting.
Aksiyon alır
Bilinen playbook (kanonik JSON) otomatik çalışır (pod restart, scale, notify); çözülemeyeni Plane'e ticket olarak yükseltir veya Slack/Telegram'dan operatöre push'lar.
Anahtar yetenekler
OpenTelemetry first-class
Endüstri standardı OTLP receiver (gRPC :4317 + HTTP :4318). Mevcut OTEL SDK'nız kuruluysa WAIClient.from_otel(tracer_provider) ile çift instrumentasyon olmadan WAI'ye bağlanır. Semantic conventions (HTTP/DB/GenAI/K8s/messaging) birinci sınıf.
Enterprise multi-tenancy
PostgreSQL Row-Level Security zorunlu; tenant başına 3 isolation modu (shared / schema / database). SOC 2 / ISO 27001 hazırlığında olan ekipler için audit log immutable, scope-aware admin yetkileri (super-admin ayrı), tenant suspend + soft delete.
Cost intelligence (FinOps)
LLM token tüketimi, Kubernetes CPU/RAM/GPU, R2/S3 storage, Anthropic + OpenRouter + Cloudflare billing — hepsi tek hypertable'da. 3-sigma anomaly detection ile 'bu deploy maliyet spike'ı yarattı' otomatik tespit. GPU burn detection (DCGM). Per-tenant aylık bütçe + aşımda alarm.
AI doctor lifecycle
10 uzman doctor (network/db/auth/llm/infra/frontend/queue/runtime/triage/cost). Her doctor 3 olgunluk seviyesinde: shadow (sadece log) → advisory (UI'da öneri) → acting (otomatik playbook). Promosyon ve demosyon judge skoruna göre otomatik. Cevap JSON şeması zorunlu; evidence_event_id DB'de doğrulanır (anti-hallüsinasyon).
ChatOps & ticket entegrasyonu
Slack + Telegram (TR primary) + Microsoft Teams (Incoming Webhook) — inline button + slash command. Plane'e otomatik issue eskalasyonu, çift yönlü sync (Plane close → incident resolved). Çözüm yorumu otomatik knowledge base'e geçer; doctor bir sonraki incident'ta öğrenmiş olarak gelir.
Mimari
↓ Outputs
Kim için?
| Profil | Neden WAI? |
|---|---|
| Startup CTO | 5+ servisi var, tek operatör yok, çözümleri her yere dağılıyor. WAI çözüm hafızasını merkeze alır. |
| DevOps / SRE ekibi | Pager fatigue. Bilinen sorunlar otomatik çözülsün, sadece gerçek ihtiyaç durumda uyandırılsın. |
| AI / LLM odaklı şirketler | Token maliyeti ve rate limit hataları yönetilmiyor. WAI cost-doctor + llm-doctor bunlar için özel. |
| Enterprise IT | Multi-tenant SaaS sunuyorsunuz, her müşterinin verisi izole olmalı. RLS + schema/database isolation hazır. |
| Düzenleyici uyumluluk (KVKK, SOC 2) | Audit log immutable, scope-aware admin, super-admin ayrı — denetim raporu zorlanmadan üretilir. |
Teknoloji highlights
Neden Sentry/Datadog/Grafana değil?
WAI bir gözlem aracı değil; bir çözüm orchestrator'ı.
| Araç | Yapar | Yapmaz |
|---|---|---|
| Sentry | Exception yakalar, stack trace gösterir | Çözüm uygulamaz, ticket açmaz |
| Datadog | Metric + log + APM toplar | AI ile çözüm önermiyor, çözüm bilgisi birikmez |
| Grafana / Prometheus | Dashboard + alert | Sadece görsel, aksiyon yok |
| PagerDuty | Alarm routing + on-call | Çözümü kendisi denemez |
| WAI | Tüm yukarısı + AI doctor + playbook executor + kurum hafızası | Mevcut araçlarınızı değiştirmek istemez — yanına eklenir, OTLP ile bağlanır |
Neredeyiz, nereye gidiyoruz?
Bugün (2026 H1)
- ✓Round 2: Studio bağı kopar, jenerik kütüphane, doctor lifecycle, Plane bridge
- ✓Round 3: OpenTelemetry first-class, multi-tenancy hardening (RLS + schema/database isolation), cost intelligence (FinOps + cost-doctor), ChatOps (Slack + Telegram + Teams)
Faz 1.5 (2026 H2)
- →Mattermost / Rocket.Chat / Zulip ChatOps adapter
- →Microsoft Teams iki yönlü bot framework
- →Cost forecasting (ML model, 'önümüzdeki ay $X bekleniyor')
- →Spot instance / pricing optimization önerileri
- →AWS Cost Explorer + GCP BigQuery billing + Azure Cost Management
Faz 2 (2027)
- ◦Hot-path Go port (sadece ingest gateway — Python diğer her şeyde kalır)
- ◦Logs OTLP signal desteği (şu an traces + metrics)
- ◦Multi-region deployment
- ◦Marketplace UI (playbook + doctor sharing topluluğu)
Sıkça sorulanlar
WAI'yi self-host edebilir miyim?+
Hangi LLM'i kullanır?+
Verim?+
Sentry'mi atayım mı?+
Hangi exception/log tiplerini destekler?+
Multi-tenant SaaS sunuyorum, müşterilerimi nasıl izole ederim?+
WAI'yi denemenin yolları
Solo geliştirici tarafından üretiliyor, UAIS ekosistemi içinde test ediliyor. Production-ready Helm chart + 730+ test. Açık iletişim, hızlı iterasyon.
