跳过正文

Kubernetes

平台工程实践:构建 Internal Developer Platform

平台工程实践:构建 Internal Developer Platform

·1055 字·5 分钟
平台工程不是给 DevOps 换个名字,而是把基础设施能力产品化——让开发者像用 SaaS 一样消费平台能力。这篇文章记录我们团队从 0 到 MVP 的六个月实践,包括 Backstage 落地、黄金路径设计、以及用 DORA 指标验证平台价值。
SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

SLO/SLI/Error Budget 从理论到落地:SRE 可靠性工程实战

·1096 字·6 分钟
从 SLI 指标选取到 Error Budget 消耗速率告警,系统讲解 SRE 可靠性工程体系的落地实践,包括 Prometheus recording rules 计算 SLI、多窗口 burn rate 告警规则配置、SLO 违规复盘流程,以及与开发团队的协作策略。
Kubernetes NetworkPolicy 网络隔离实战

Kubernetes NetworkPolicy 网络隔离实战

·2505 字·12 分钟
系统讲解 Kubernetes NetworkPolicy 的工作机制与生产实战配置,覆盖 deny-all 基础模板、常见隔离场景、Cilium 扩展、多租户设计、测试验证方法及常见陷阱。
Helm 工程化实践:从 Chart 设计到多环境管理

Helm 工程化实践:从 Chart 设计到多环境管理

·1169 字·6 分钟
基于生产踩坑经验,系统梳理 Helm Chart 结构设计、_helpers.tpl 复用技巧、多环境 values 管理策略、私有 Harbor 仓库推送流程,以及 –atomic 升级与回滚的正确姿势。
Karpenter 深度解析:下一代 K8s 节点自动扩缩

Karpenter 深度解析:下一代 K8s 节点自动扩缩

·842 字·4 分钟
从 Cluster Autoscaler 迁移到 Karpenter 之后,集群扩容速度和节点利用率都有明显提升。本文详细拆解 Karpenter 的核心机制、关键配置项,以及在多套生产集群运行中踩过的坑。
Istio Service Mesh 落地实战:从 Sidecar 注入到灰度发布

Istio Service Mesh 落地实战:从 Sidecar 注入到灰度发布

·973 字·5 分钟
记录 Istio Service Mesh 从零落地的完整过程,包括 sidecar 注入原理、VirtualService 灰度发布流量切分、DestinationRule 熔断与负载均衡配置、PeerAuthentication mTLS 加固,以及用 istioctl analyze 排查常见问题。
GitOps 落地实战:ArgoCD + Kustomize 多环境管理

GitOps 落地实战:ArgoCD + Kustomize 多环境管理

·730 字·4 分钟
GitOps 不只是「把配置放 Git 里」,真正落地需要解决 overlay 结构设计、ApplicationSet 管理多集群、image updater 自动化,以及 sync wave、resource hook 这些细节。这篇文章记录我们团队从传统 CI/CD 迁移到 GitOps 的实际过程。
多集群 Kubernetes 运维:跨集群管理与统一可观测

多集群 Kubernetes 运维:跨集群管理与统一可观测

·1202 字·6 分钟
从单集群到多集群,运维复杂度不是线性增加,而是指数级。这篇文章总结了我们管理跨地域、跨环境多套 K8s 集群的实际经验:如何用 ArgoCD ApplicationSet 统一部署、如何用 Thanos 聚合多集群指标、以及一次真实的跨集群迁移过程。
Kubernetes 集群升级策略:零停机升级的完整实践指南

Kubernetes 集群升级策略:零停机升级的完整实践指南

·855 字·5 分钟
K8s 集群升级听起来简单,实际操作中坑很多:API 弃用导致的 Helm 失败、Admission Webhook 拦截升级流量、PDB 配置不当导致服务中断。这篇文章从真实的升级经验出发,给出一套可复用的零停机升级方案。