库伯内斯的失败故事

2020-05-13 08:57:43

一个链接到与Kubernets相关的公共失败故事的汇编列表。最新的出版物在最前面。

我们如何未能将Istio集成到我们的平台-Exponea-2019年的博客帖子。

A Kubernetes Failure Story(DEX)-匿名Fullstaq客户端-荷兰Kubernetes Meetup幻灯片2019-06影响：由于身份验证系统损坏，生产中的控制平面损坏，无法访问o11y，没有实际业务影响。

简单的入场网络挂钩如何导致群集中断-Jetstack-2019年博客帖子。

Kubernetes失败故事，或：如何崩溃您的群集-Zalando-ContainerDays EU 2019。

与Kubernetes擦肩而过的10种方法，#9将让您大吃一惊-Datadog-KubeCon巴塞罗那2019涉及：CoreDNS，ndots：5，IPVS ConnecTrack，imagePullPolicy：Always，DaemonSet，NAT Instance，Latest Tag，API服务器OOM Kill，kube2iam，cluster-autoscaler，PodPriority，审核日志，spec.plicas，AWS ASG重新平衡，CronJob，Pod容忍度。

Spotify如何在不影响用户的情况下意外删除所有Kube群集-Spotify-KubeCon巴塞罗那2019。

GKE集群升级的沉船事故-LOVEVIDAY-BLOG POST 2019年的影响：吊舱可用性严重下降，失去入口，持续7小时的2小时维护

突破库伯内斯：我们如何打破和修复我们的K8集群-Civis Analytics-2019年的博客文章。

让我们谈谈Kubernetes-Zalando-Hamburg Meetup 2019涉及的故障：AWS、NotReady节点、ELB动态IP、Inress、API服务器、CronJob、CoreDNS、OOM Kill、kubelet内存泄漏、CPU节流。

Kubernetes负载均衡器配置-排空节点时要小心-DevOps Hof-2019年的博客帖子。

论规模的基础设施：分布式系统的级联故障-目标-中等，2019年1月后。

如何不做Kubernetes-Sr.SRE Medya Ghazizadeh-Google-Cloud Native Meetup 2018年9月。

在生产中运行Kubernetes：2018年让你的集群崩溃的一百万种方式-Zalando-DevOpsCon慕尼黑。

库伯内斯和威胁ELB，停电的故事-Turnitin-2018年博客帖子。

在一年内将整个堆栈移动到K8-吸取的教训-ThredUP-DevOpsStage 2018

101种中断和恢复Kubernetes Cluster-Oath/Yahoo-KubeCon Europe 2018的方法涉及：内部部署、名称空间删除、域名冲突、未就绪节点、etcd空目录、TLS证书刷新、DNS问题、OOM。

导致群集崩溃的101种方式-Nordstrom-KubeCon北美2017涉及：AWS、NotReady节点、OOM、驱逐阈值、ELB动态IP、kubelet、群集自动缩放器、拆分等。

用Kubernetes对AWS-Zalando-AWS用户组汉堡2017年10月进行分布式计算的谬误。

Kubernetes是一个相当复杂的系统，有很多活动部分。它的生态系统在不断地演变和增加更多的层(服务网状网，.)。考虑到这种环境，我们没有听到足够多的真实世界的恐怖故事可以相互学习！这个失败故事的汇编应该会让与Kubernetes运营(SRE、运营、平台/基础设施团队)打交道的人更容易向他人学习，并减少在生产中运行Kubernetes的未知未知因素。有关更多信息，请参见博客帖子。

请帮助社区，并通过打开拉取请求来分享您的失败故事的链接！失败故事可以是博客帖子、会议/Meetup谈话、事件事后检查、推特风暴等任何内容。

我也很高兴听到你在推特上的失败故事：我的账号是@try_Expect_

https://k8s.af/

tags users