IRCNF

OpenTelemetry hat Produktionsreife erreicht – jetzt lernen Teams, was Observabilität wirklich kostet

Teilen:
OpenTelemetry hat Produktionsreife erreicht – jetzt lernen Teams, was Observabilität wirklich kostet

Die Tracing-Spezifikation von OpenTelemetry erreichte 2021 den stabilen Status. Die Metrik-Spezifikation folgte 2023. Anfang 2025 ist OTel das zweitaktivste CNCF-Projekt nach Anzahl der Mitwirkenden, hinter Kubernetes. Jedes große Observability-Backend — Datadog, New Relic, Honeycomb, Grafana, Dynatrace und AWS CloudWatch — akzeptiert jetzt OTel-Daten nativ. Die CNCF-Umfrage von 2024 ergab, dass 44 % der Organisationen OTel in der Produktion einsetzen, gegenüber 27 % im Vorjahr. Das ist echte Einführungsgeschwindigkeit, kein Umfrage-Rauschen.

Was diese Zahlen verschleiern, ist die operationelle Realität, auf die Teams stoßen, wenn sie OTel in einer ernsthaften Produktionsumgebung einschalten: Die Datenmenge ist enorm, und die Kosten für Speicherung, Abfrage und Alarmierung wachsen schneller als das System selbst.

Das Kardinalitätsproblem konkret

Kardinalität bezeichnet im Kontext von Observability die Anzahl der eindeutigen Zeitreihen, die Ihr Metriksystem verfolgen muss. Ein einzelner HTTP-Endpunkt, der mit OTel instrumentiert ist, könnte für jede Anfrage ein Span mit Attributen wie http.method, http.status_code, http.route, http.target und einem benutzerdefinierten user_id-Tag, das der Entwickler hinzugefügt hat, erzeugen. Sobald Sie user_id in eine Metrik einbeziehen (nicht nur in einen Trace), explodiert Ihre Kardinalität: Statt einer Handvoll Zeitreihen für diesen Endpunkt haben Sie nun eine Zeitreihe pro Benutzer, der diesen Endpunkt jemals aufgerufen hat.

Dies ist keine theoretische Sorge. Prometheus, das am weitesten verbreitete Open-Source-Metrik-Backend, beginnt bei etwa 10 Millionen aktiven Zeitreihen ernsthafte Leistungseinbußen zu erleiden. Teams, die beiläufig anfragebezogene Benutzer-IDs, Sitzungstoken oder IP-Adressen in ihre Metriken instrumentieren, können dieses Limit mit einem einzigen mäßig frequentierten Dienst erreichen. Thanos und VictoriaMetrics, beide entwickelt, um Prometheus in großem Maßstab zu erweitern, können diese Grenze deutlich nach oben verschieben, aber keines löst die zugrunde liegende Ökonomie: Jede Zeitreihe verursacht Speicher- und Abfrageberechnungskosten proportional zu ihrer Kardinalität.

Teilen:
OpenTelemetry hat Produktionsreife erreicht – jetzt lernen Teams, was Observabilität wirklich kostet | IRCNF - Intelligent Reliable Custom Next-gen Frameworks