跳过正文

Kubernetes

Kubernetes 核心架构全景

·2451 字·12 分钟
深入理解 Kubernetes 控制面与工作节点各组件的职责与交互关系,结合生产环境实际经验,梳理核心资源对象与调度原理。
Kubernetes Operator 开发实战:Go + controller-runtime 完全指南

Kubernetes Operator 开发实战:Go + controller-runtime 完全指南

·2251 字·11 分钟
用 Go + controller-runtime 开发生产级 Kubernetes Operator 的完整实战指南。以 DatabaseCluster Operator 为例,深入讲解 CRD 设计、Reconcile 模式、Status Conditions、Finalizer 防孤儿资源、Leader Election、指标暴露、Webhook 验证,以及 envtest + Kind 测试策略。
Kubernetes 多租户方案深度对比:vCluster vs Capsule vs HNC

Kubernetes 多租户方案深度对比:vCluster vs Capsule vs HNC

·1374 字·7 分钟
Namespace 级隔离远不够用。本文深入剖析 vCluster、Capsule、HNC 三种主流多租户方案的架构差异,给出完整的部署配置示例、隔离能力横向对比,以及 SaaS 平台、内部平台、开发环境三种场景下的选型建议。
如何设计一个好的告警体系

如何设计一个好的告警体系

·570 字·3 分钟
从真实的告警噪音泛滥经历出发,分享如何用 SLI/SLO 重新设计告警体系,包括告警分级、规则设计原则、路由策略和复盘机制。
Kubernetes GPU 调度实战:AI 训练与推理基础设施

Kubernetes GPU 调度实战:AI 训练与推理基础设施

·1926 字·10 分钟
GPU 是 AI 基础设施的核心资源,如何在 Kubernetes 上高效调度和管理 GPU 直接影响训练效率和推理成本。本文从底层驱动安装到上层调度策略,完整覆盖 K8s GPU 基础设施的搭建、监控和优化实践。
CoreDNS 深度排障:K8s DNS 问题完全指南

CoreDNS 深度排障:K8s DNS 问题完全指南

·1064 字·5 分钟
DNS 问题是 K8s 中最难定位的问题之一,因为它的失败往往是间歇性的、有延迟的,看起来像网络问题,实际上是 DNS 超时。本文记录了我在生产环境排查过的多类 DNS 故障,附详细的抓包分析和调优配置。
混沌工程实战:Chaos Mesh 在 K8s 中注入故障

混沌工程实战:Chaos Mesh 在 K8s 中注入故障

·809 字·4 分钟
混沌工程不是破坏系统,而是在可控环境中提前暴露脆弱点。本文记录了我用 Chaos Mesh 在生产级 K8s 集群中设计并执行混沌演练的完整过程,包括安装、实验配置、Workflow 编排和游戏日流程设计。
OPA/Kyverno:K8s 准入控制策略实战

OPA/Kyverno:K8s 准入控制策略实战

·895 字·5 分钟
没有准入控制的 K8s 集群就像一个没有门卫的机房——任何人都能随意进出。本文记录了我在多个生产集群部署 Kyverno 策略的实战经验,涵盖资源限制强制、镜像来源白名单、标签规范、以及与 OPA Gatekeeper 的对比选型思路。
Kubernetes 成本优化实战:系统性降本的四条路径

Kubernetes 成本优化实战:系统性降本的四条路径

·1066 字·6 分钟
真实的降本案例:从发现成本异常到分析根因,通过 Karpenter 节点弹性伸缩、资源请求规格治理、大机型收敛等手段,系统性降低 AWS EC2 成本。包含具体配置和执行思路。