解决 -
在2024年5月21日,在11:40 UTC和19:06 UTC之间,由于上游云提供商的配置更改,各种服务经历了延迟增加。
GitHub Copilot Chat的P50延迟高达2.5s, P95延迟高达6s。GitHub Actions在工作流运行更新时延迟了20 - 60分钟。由于GitHub Actions延迟,GitHub Enterprise Importer客户经历了更长的迁移运行时间。此外,预算通知和UI报告的计费相关指标被延迟,导致计费详细信息过时。事故发生后,没有数据丢失,系统恢复正常。
在12:31 UTC,我们检测到云主机延迟增加。在14:09 UTC,非关键流量暂停,这没有导致恢复服务。在UTC时间14:27,我们在一个网络网关集群中发现了高CPU负载,这是由一个预定的操作系统升级引起的,这导致了集群内意外的、不均匀的流量分布。我们在UTC时间16:35开始部署额外的主机。在17:58 UTC完成再平衡,在18:03 UTC观察到系统恢复,并在19:06 UTC完成。
我们已经确定了对负载阈值的监视和警报中的漏洞。我们对这些修复程序进行了优先级排序,以缩短检测和缓解此类问题的时间。
五月21,19:06 UTC
更新 -
Actions运行正常。
五月21,18:14 UTC
更新 -
我们开始看到对操作工作流运行、工作流作业运行和检查步骤的任何延迟的恢复。仍然遇到似乎卡住的作业的客户可以重新运行工作流以查看已完成的状态。我们也看到了GitHub企业导入器迁移的复苏。我们将继续监测恢复情况。
五月21,18:03 UTC
更新 -
我们将继续调查操作工作流运行、工作流作业运行和检查步骤状态更新的延迟。这影响了100%使用这些功能的客户,平均延迟20分钟,P99延迟1小时。客户可能会看到他们的Actions工作流可能已经完成,但是运行可能会出现挂起,等待其状态更新。这也影响了GitHub企业导入器的迁移。迁移可能需要更长的时间才能完成。我们正在与我们的供应商合作解决这个问题,并将继续提供更新,因为我们了解更多。
五月21,17:41 UTC
更新 -
我们将继续调查操作工作流运行、工作流作业运行和检查步骤状态更新的延迟。客户可能会看到他们的Actions工作流可能已经完成,但是运行可能会出现挂起,等待其状态更新。这也影响了GitHub企业导入器的迁移。迁移可能需要更长的时间才能完成。我们正在与我们的供应商合作解决这个问题,并将继续提供更新,因为我们了解更多。
五月21,17:14 UTC
更新 -
我们正在继续调查操作工作流运行、工作流作业运行和检查步骤的延迟,并将在我们了解更多信息时提供进一步的更新。
五月21,16:02 UTC
更新 -
我们已经确定了第三方网络配置的变化,并正在与提供商合作解决这个问题。当我们了解更多信息时,我们将继续提供最新消息。
五月21,15:00 UTC
更新 -
我们已经确定了导致操作工作流运行、工作流作业运行和检查步骤延迟的网络连接问题。我们正在继续调查。
五月21,14:34 UTC
更新 -
我们正在调查Actions作业状态的延迟更新。
五月21,13:58 UTC
调查 -
我们正在调查Actions性能下降的报告
五月21,12:45 UTC