Incident 2020-12-03

Zhrnutie

Po prepnutí úrovne PES neprišlo ku korektnému zobrazovaniu údajov. To malo za následok zníženú kredibilitu webu. Problém s aktualizáciou dát bol používateľom oznámený pomocou notifikačnej lišty navrchu stránky.

Detekcia

Obsahový tím chybu detekoval približne 40 minút po nasadení zmien (tj ihneď ako sa zmeny začali zobrazovať na živom webe). Po hodine bola zvýšená priorita úlohy detekovaním ďalších kritických nezrovnalostí.

Riešenie

Vzhľadom na predchádzajúce problémy podobného charakteru boli približne 4 hodiny od prvého nahlásenia incitentu vyprázdnené cache v Drupale. To bolo následne vyhodnotené ako neúčinné. Bolo overené, že API produkuje nesprávne dáta, čím prišlo ku bližšej lokalizácii problému na Drupal. Analýzou dát v systéme a analýzou zodpovedajúceho kódu bola ako príčina určená na viacero súbežne aktívnych úrovní PES. Po porade s obsahovým tímom prišlo k realizácii dvoch nezávislých riešení - obsahový tím zredukoval počet aktívnych úrovní PES na jednu a upravil obsah, ktorý sa mal nachádzať v odstránenej úrovni PES, Drupal tím spracoval zmeny kódu tak, aby bolo možné mať viacero aktívnych úrovní PES.

Timeline

00:39 - Nahlásený problém s nekorektným zobrazovaním opatrení, kotrým skončila platnosť a nič na ne nenadväzuje

01:54 - Zvýšenie priority úlohy kvôli zobrazovaniu neaktuálnych dát v životných situáciách.

04:48 - Zmazanie cache Drupalu

08:57 - Vyhodnotenie neefektívnosti riešenia

09:11 - Určenie rozdielov medzi doterajším stavom a novým stavom (viacero aktívnych úrovní PES)

09:18 - Začiatok obsahových úprav

09:37 - Otvorenie pull requestu s hotfixom pre životné situácie

09:57 - Potvrdenie zobrazovania správnych údajov v Drupale

10:47 - Otvorenie pull requestu s hotfixom pre opatrenia

11:05 - Indikácia neprebehnutého deployu na produkciu

11:31 - Kontaktovanie NAKITu o skontrolovanie behu deploy pipeline

11:57 - Potvrdenie správneho zobrazovania webu

Opatrenia

  • Dôkladné ošetrenie používateľského vstupu - v tomto prípade by to znamenalo nemožnosť zadať viacero aktívnych úrovní PES
  • Požiadavka na adhoc spúšťanie deploy pipeline a zobrazovanie stavu pipeline - v tomto prípade by to umožnilo rýchlejšie obnovenie normálnej prevádzky webu
  • Požiadavka na lepšie testovacie prostredie - v tomto prípade by editori mali možnosť prezrieť si web v stave po prepnutí a tým by sa prispelo k skoršiemu odhaleniu problému