一个链接到与Kubernets相关的公共失败故事的汇编列表。最新的出版物在最前面。
我们如何未能将Istio集成到我们的平台-Exponea-2019年的博客帖子。
A Kubernetes Failure Story(DEX)-匿名Fullstaq客户端-荷兰Kubernetes Meetup幻灯片2019-06影响:由于身份验证系统损坏,生产中的控制平面损坏,无法访问o11y,没有实际业务影响。
简单的入场网络挂钩如何导致群集中断-Jetstack-2019年博客帖子。
Kubernetes失败故事,或:如何崩溃您的群集-Zalando-ContainerDays EU 2019。
与Kubernetes擦肩而过的10种方法,#9将让您大吃一惊-Datadog-KubeCon巴塞罗那2019涉及:CoreDNS,ndots:5,IPVS ConnecTrack,imagePullPolicy:Always,DaemonSet,NAT Instance,Latest Tag,API服务器OOM Kill,kube2iam,cluster-autoscaler,PodPriority,审核日志,spec.plicas,AWS ASG重新平衡,CronJob,Pod容忍度。
Spotify如何在不影响用户的情况下意外删除所有Kube群集-Spotify-KubeCon巴塞罗那2019。
GKE集群升级的沉船事故-LOVEVIDAY-BLOG POST 2019年的影响:吊舱可用性严重下降,失去入口,持续7小时的2小时维护
突破库伯内斯:我们如何打破和修复我们的K8集群-Civis Analytics-2019年的博客文章。
让我们谈谈Kubernetes-Zalando-Hamburg Meetup 2019涉及的故障:AWS、NotReady节点、ELB动态IP、Inress、API服务器、CronJob、CoreDNS、OOM Kill、kubelet内存泄漏、CPU节流。
Kubernetes负载均衡器配置-排空节点时要小心-DevOps Hof-2019年的博客帖子。
论规模的基础设施:分布式系统的级联故障-目标-中等,2019年1月后。
如何不做Kubernetes-Sr.SRE Medya Ghazizadeh-Google-Cloud Native Meetup 2018年9月。
在生产中运行Kubernetes:2018年让你的集群崩溃的一百万种方式-Zalando-DevOpsCon慕尼黑。
库伯内斯和威胁ELB,停电的故事-Turnitin-2018年博客帖子。
在一年内将整个堆栈移动到K8-吸取的教训-ThredUP-DevOpsStage 2018
101种中断和恢复Kubernetes Cluster-Oath/Yahoo-KubeCon Europe 2018的方法涉及:内部部署、名称空间删除、域名冲突、未就绪节点、etcd空目录、TLS证书刷新、DNS问题、OOM。
导致群集崩溃的101种方式-Nordstrom-KubeCon北美2017涉及:AWS、NotReady节点、OOM、驱逐阈值、ELB动态IP、kubelet、群集自动缩放器、拆分等。
用Kubernetes对AWS-Zalando-AWS用户组汉堡2017年10月进行分布式计算的谬误。
Kubernetes是一个相当复杂的系统,有很多活动部分。它的生态系统在不断地演变和增加更多的层(服务网状网,.)。考虑到这种环境,我们没有听到足够多的真实世界的恐怖故事可以相互学习!这个失败故事的汇编应该会让与Kubernetes运营(SRE、运营、平台/基础设施团队)打交道的人更容易向他人学习,并减少在生产中运行Kubernetes的未知未知因素。有关更多信息,请参见博客帖子。
请帮助社区,并通过打开拉取请求来分享您的失败故事的链接!失败故事可以是博客帖子、会议/Meetup谈话、事件事后检查、推特风暴等任何内容。
我也很高兴听到你在推特上的失败故事:我的账号是@try_Expect_