Llegamos a ustedes gracias a:



Noticias

GitHub admite problemas de servicio y múltiples interrupciones

[23/05/2023] GitHub, propiedad de Microsoft, que proporciona una plataforma de alojamiento de código para el control de versiones y la colaboración, se enfrentó a tres interrupciones en sus servicios la semana pasada, tras 13 incidentes de este tipo en los últimos tres meses.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

"La semana pasada, GitHub experimentó varios incidentes de disponibilidad, tanto de larga como de corta duración. Desde entonces, hemos mitigado estos incidentes y todos los sistemas funcionan ahora con normalidad", señaló Mike Hanley, jefe de seguridad de GitHub, en una entrada de blog.

"Las causas de estos incidentes no estaban relacionadas entre sí, pero en conjunto afectaron negativamente a los servicios que las organizaciones y los desarrolladores confían en GitHub. Esto no es aceptable ni el estándar al que nos atenemos", añadió Hanley.

Los tres incidentes, que se produjeron los días 9, 10 y 11 de mayo, afectaron a la mayoría de los servicios críticos que presta GitHub, según informó la empresa.

Los incidentes dejan fuera de servicio servicios críticos de GitHub

El incidente ocurrido el 9 de mayo interrumpió las bases de datos de GitHub debido a un cambio de configuración, según la empresa.

"El 9 de mayo, tuvimos un incidente que provocó que 8 de los 10 servicios del portal de estado se vieran afectados por una interrupción importante (de estado rojo). La mayor parte del tiempo de inactividad duró poco más de una hora", anotó Hanley en la entrada del blog.

En el momento de la interrupción, muchos servicios no podían leer los datos Git recién escritos, lo que provocaba fallas generalizadas, explicó Hanley, quien añadió que, tras la interrupción, se prolongó el plazo de recuperación de algunos datos pull request y push.

La interrupción, según Hanley, fue provocada por un cambio de configuración en el servicio interno que sirve datos Git.

"El cambio tenía por objeto evitar la saturación de las conexiones y ya se había introducido con éxito en otras partes del backend de Git. Poco después de iniciarse el despliegue, el clúster experimentó una falla. Revertimos el cambio de configuración e intentamos revertirlo a los pocos minutos, pero la reversión falló debido a un error interno de la infraestructura", explicó Hanley.

El incidente del 10 de mayo, que se produjo debido a la degradación de la capacidad de emisión de tokens de autenticación de Apps de GitHub, también vio afectados seis de los diez servicios críticos de GitHub.

"El 10 de mayo, el clúster de base de datos que sirve los tokens de autenticación de GitHub App experimentó un aumento de siete veces en la latencia de escritura para los permisos de GitHub App (estado amarillo). La tasa de fallas de estas solicitudes de autentificación fue del 8-15% durante la mayor parte del incidente, pero alcanzó un máximo del 76% durante un breve periodo de tiempo", explicó Hanley en la entrada del blog.

El problema con la emisión de tokens fue el resultado de una "implementación ineficiente" de una API para gestionar los permisos de GitHub App, explicó el jefe de seguridad, añadiendo que la compañía estaba actualizando la API para comprobar el cambio en el estado de la instalación.

La base de datos de GitHub se vio afectada de nuevo el 11 de mayo debido a una pérdida de réplicas de lectura, dijo la compañía.

"En los incidentes de la base de datos de Git, las lecturas y escrituras de Git son el núcleo de muchos escenarios de GitHub, por lo que el aumento de la latencia y las fallas provocaron que los flujos de trabajo de GitHub Actions no pudieran extraer datos, o que las solicitudes de extracción no se actualizaran", sostuvo Hanley en la entrada del blog.

GitHub trabaja para evitar incidentes similares en el futuro

Para evitar incidentes similares en el futuro, Hanley dijo que la compañía estaba trabajando en varios aspectos, como revisar cuidadosamente sus procesos internos y hacer ajustes para garantizar que los cambios se desplieguen siempre de forma más segura en el futuro.

"Además del análisis y revisión estándar tras los incidentes, estamos analizando la amplitud del impacto que estos incidentes tuvieron en todos los servicios para identificar dónde podemos reducir el impacto de futuras fallas similares", indicó Hanley, añadiendo que GitHub estaba trabajando para mejorar la observabilidad de los patrones de consulta de alto costo y bajo volumen, y la capacidad general para diagnosticar y mitigar esta clase de problemas rápidamente.

Otras medidas incluyen abordar los problemas de conmutación por error de la base de datos para garantizar que la conmutación por error siempre se recupere completamente sin intervención y comprender los múltiples incidentes de caída de la base de datos Git.

Aunque la empresa afirma estar trabajando para solucionar las caídas, GitHub ha seguido sufriendo interrupciones en los últimos cuatro meses, con cuatro incidentes en abril, seis incidentes en marzo y tres en febrero.