UAIS

WAI — Watcher AI.

Uygulamanızın hatasını uygulamanız yönetmek zorunda değil.

Hatayı sen yönetmeyeceksin. WAI yönetecek.

Olay → fingerprint → AI doctor → playbook → çözüm. Uygulamanız sadece olayı yollar; gerisini WAI hatırlar, sınıflar, çözer.

WAI, üretim sistemlerinizdeki her exception'ı, slow query'yi, cost spike'ı, hata trace'ini tek bir yerde toplar. AI tabanlı doktorlar olayı sınıflar, geçmiş çözüm bilgisini hatırlar, bilinen sorunlara otomatik playbook uygular. Çözülemeyeni Plane'e ticket olarak yükseltir veya Slack/Telegram'dan operatöre bildirir — çözüm bilgisi tek bir merkezde birikir, tek tek uygulamalarda dağılmaz.

Problem

Bugün her ürün ekip kendi hatasını kendi yönetiyor. Aynı timeout 5 farklı serviste 5 farklı şekilde yakalanıyor, 5 farklı log'a düşüyor, 5 farklı operatör aynı sorunu 5. kez çözüyor. Kurum hafıza biriktirmiyor; ekipler birbirinin tecrübesinden öğrenmiyor.
Sentry exception toplar ama düzeltmez. Datadog metric biriktirir ama playbook çalıştırmaz. Grafana dashboard'da kırmızı yanar ama incident'ı kim ne zaman çözmeli bilemez. Mevcut araçlar bilgi yığarken çözüm akışını yönetmez.
WAI tam burayı doldurur. Olay → fingerprint → benzeri vakaları bul → bilinen çözümü uygula → uygulanamıyorsa doktora sor → doktor çözemiyorsa ticket aç. Çözüm bilgisi tek merkezde birikir; aynı sorun ikinci kez yaşandığında otomatik halledilir.

Çözüm — 4 cümlede WAI

1

SDK gönderir

Python/TypeScript paketle uygulamaya entegre; FastAPI middleware, SQLAlchemy hook, React ErrorBoundary, fetch interceptor otomatik olay yakalar.

2

WAI yutar

REST + OTLP (OpenTelemetry gRPC/HTTP) ingest. NATS JetStream üzerinden 6 consumer paralel persist + classify.

3

Doktor düşünür

Anthropic Claude tabanlı uzman doctor'lar (network, db, auth, llm, infra, frontend, queue, runtime, cost, triage). RAG ile geçmiş çözüm bilgisinden öğrenir; lifecycle: shadow → advisory → acting.

4

Aksiyon alır

Bilinen playbook (kanonik JSON) otomatik çalışır (pod restart, scale, notify); çözülemeyeni Plane'e ticket olarak yükseltir veya Slack/Telegram'dan operatöre push'lar.

Anahtar yetenekler

🔭

OpenTelemetry first-class

Endüstri standardı OTLP receiver (gRPC :4317 + HTTP :4318). Mevcut OTEL SDK'nız kuruluysa WAIClient.from_otel(tracer_provider) ile çift instrumentasyon olmadan WAI'ye bağlanır. Semantic conventions (HTTP/DB/GenAI/K8s/messaging) birinci sınıf.

🛡

Enterprise multi-tenancy

PostgreSQL Row-Level Security zorunlu; tenant başına 3 isolation modu (shared / schema / database). SOC 2 / ISO 27001 hazırlığında olan ekipler için audit log immutable, scope-aware admin yetkileri (super-admin ayrı), tenant suspend + soft delete.

💰

Cost intelligence (FinOps)

LLM token tüketimi, Kubernetes CPU/RAM/GPU, R2/S3 storage, Anthropic + OpenRouter + Cloudflare billing — hepsi tek hypertable'da. 3-sigma anomaly detection ile 'bu deploy maliyet spike'ı yarattı' otomatik tespit. GPU burn detection (DCGM). Per-tenant aylık bütçe + aşımda alarm.

🤖

AI doctor lifecycle

10 uzman doctor (network/db/auth/llm/infra/frontend/queue/runtime/triage/cost). Her doctor 3 olgunluk seviyesinde: shadow (sadece log) → advisory (UI'da öneri) → acting (otomatik playbook). Promosyon ve demosyon judge skoruna göre otomatik. Cevap JSON şeması zorunlu; evidence_event_id DB'de doğrulanır (anti-hallüsinasyon).

💬

ChatOps & ticket entegrasyonu

Slack + Telegram (TR primary) + Microsoft Teams (Incoming Webhook) — inline button + slash command. Plane'e otomatik issue eskalasyonu, çift yönlü sync (Plane close → incident resolved). Çözüm yorumu otomatik knowledge base'e geçer; doctor bir sonraki incident'ta öğrenmiş olarak gelir.

Mimari

Layer 6 — CLI + Operatör Paneli (wai-cli, wai-ui)
Layer 5 — UI — React + Mantine + Recharts
Layer 4 — Classifier + Doctor Pool + Playbook Executor
Layer 3 — Data — PostgreSQL + TimescaleDB + pgvector
Layer 2 — Event Bus — NATS JetStream
Layer 1 — SDKs — Python (uais-wai) + TypeScript (@uais/wai)

↓ Outputs

PlaneSlackTelegramGrafanaEmail

Kim için?

ProfilNeden WAI?
Startup CTO5+ servisi var, tek operatör yok, çözümleri her yere dağılıyor. WAI çözüm hafızasını merkeze alır.
DevOps / SRE ekibiPager fatigue. Bilinen sorunlar otomatik çözülsün, sadece gerçek ihtiyaç durumda uyandırılsın.
AI / LLM odaklı şirketlerToken maliyeti ve rate limit hataları yönetilmiyor. WAI cost-doctor + llm-doctor bunlar için özel.
Enterprise ITMulti-tenant SaaS sunuyorsunuz, her müşterinin verisi izole olmalı. RLS + schema/database isolation hazır.
Düzenleyici uyumluluk (KVKK, SOC 2)Audit log immutable, scope-aware admin, super-admin ayrı — denetim raporu zorlanmadan üretilir.

Teknoloji highlights

Python 3.12 + FastAPINATS JetStreamPostgreSQL 16 + TimescaleDB + pgvectorOpenTelemetry OTLP gRPC + HTTPAnthropic Claude (Opus 4.6 + Sonnet 4.5)Kubernetes-native + Helm + KEDAPlane entegrasyonuSlack / Telegram / TeamsAdditive-only SDK sözleşmesi

Neden Sentry/Datadog/Grafana değil?

WAI bir gözlem aracı değil; bir çözüm orchestrator'ı.

AraçYaparYapmaz
SentryException yakalar, stack trace gösterirÇözüm uygulamaz, ticket açmaz
DatadogMetric + log + APM toplarAI ile çözüm önermiyor, çözüm bilgisi birikmez
Grafana / PrometheusDashboard + alertSadece görsel, aksiyon yok
PagerDutyAlarm routing + on-callÇözümü kendisi denemez
WAITüm yukarısı + AI doctor + playbook executor + kurum hafızasıMevcut araçlarınızı değiştirmek istemez — yanına eklenir, OTLP ile bağlanır

Neredeyiz, nereye gidiyoruz?

Bugün (2026 H1)

  • Round 2: Studio bağı kopar, jenerik kütüphane, doctor lifecycle, Plane bridge
  • Round 3: OpenTelemetry first-class, multi-tenancy hardening (RLS + schema/database isolation), cost intelligence (FinOps + cost-doctor), ChatOps (Slack + Telegram + Teams)

Faz 1.5 (2026 H2)

  • Mattermost / Rocket.Chat / Zulip ChatOps adapter
  • Microsoft Teams iki yönlü bot framework
  • Cost forecasting (ML model, 'önümüzdeki ay $X bekleniyor')
  • Spot instance / pricing optimization önerileri
  • AWS Cost Explorer + GCP BigQuery billing + Azure Cost Management

Faz 2 (2027)

  • Hot-path Go port (sadece ingest gateway — Python diğer her şeyde kalır)
  • Logs OTLP signal desteği (şu an traces + metrics)
  • Multi-region deployment
  • Marketplace UI (playbook + doctor sharing topluluğu)

Sıkça sorulanlar

WAI'yi self-host edebilir miyim?+
Evet. Helm chart açık (github.com/mehmetulutug/uais-wai/infra/helm/wai), tek komut deploy: make deploy-r3 TAG=<sha>. Kubernetes 1.27+ + CNPG operator + NATS JetStream gerekir.
Hangi LLM'i kullanır?+
Anthropic Claude (Opus + Sonnet) varsayılan; OpenRouter routing ile başka model'lere geçilebilir. Doctor başına ayrı model seçilebilir (örn. triage-doctor Haiku, cost-doctor Opus).
Verim?+
Doctor lifecycle shadow modunda LLM çağrısı yok — operasyonel maliyet sıfır. Acting moduna geçince model maliyeti tenant'ın cost-doctor'ı tarafından izlenir (kendi maliyetini kendi gözler).
Sentry'mi atayım mı?+
Hayır. WAI Sentry'yi tüketebilir (Sentry'nin webhook'unu WAI'ye yönlendirin); ya da SDK'mızla doğrudan WAI'ye gönderin. WAI gözlemi yapan değil, çözümü orchestrate eden katmandır.
Hangi exception/log tiplerini destekler?+
Hepsi. SDK custom event API (source, severity, category, payload); ayrıca OTLP üzerinden standart Tracing + Metrics. Semantic conventions birinci sınıf (HTTP, DB, GenAI, Messaging, K8s).
Multi-tenant SaaS sunuyorum, müşterilerimi nasıl izole ederim?+
Tenant başına isolation_mode: shared (default — RLS) / schema (her tenant ayrı PG schema) / database (her tenant ayrı PG database). UI'dan yükseltebilirsin; veri migration script otomatik taşır.

WAI'yi denemenin yolları

Solo geliştirici tarafından üretiliyor, UAIS ekosistemi içinde test ediliyor. Production-ready Helm chart + 730+ test. Açık iletişim, hızlı iterasyon.