Incident 2020-12-03
Zhrnutie
Po prepnutí úrovne PES neprišlo ku korektnému zobrazovaniu údajov. To malo za následok zníženú kredibilitu webu. Problém s aktualizáciou dát bol používateľom oznámený pomocou notifikačnej lišty navrchu stránky.
Detekcia
Obsahový tím chybu detekoval približne 40 minút po nasadení zmien (tj ihneď ako sa zmeny začali zobrazovať na živom webe). Po hodine bola zvýšená priorita úlohy detekovaním ďalších kritických nezrovnalostí.
Riešenie
Vzhľadom na predchádzajúce problémy podobného charakteru boli približne 4 hodiny od prvého nahlásenia incitentu vyprázdnené cache v Drupale. To bolo následne vyhodnotené ako neúčinné. Bolo overené, že API produkuje nesprávne dáta, čím prišlo ku bližšej lokalizácii problému na Drupal. Analýzou dát v systéme a analýzou zodpovedajúceho kódu bola ako príčina určená na viacero súbežne aktívnych úrovní PES. Po porade s obsahovým tímom prišlo k realizácii dvoch nezávislých riešení - obsahový tím zredukoval počet aktívnych úrovní PES na jednu a upravil obsah, ktorý sa mal nachádzať v odstránenej úrovni PES, Drupal tím spracoval zmeny kódu tak, aby bolo možné mať viacero aktívnych úrovní PES.
Timeline
00:39 - Nahlásený problém s nekorektným zobrazovaním opatrení, kotrým skončila platnosť a nič na ne nenadväzuje
01:54 - Zvýšenie priority úlohy kvôli zobrazovaniu neaktuálnych dát v životných situáciách.
04:48 - Zmazanie cache Drupalu
08:57 - Vyhodnotenie neefektívnosti riešenia
09:11 - Určenie rozdielov medzi doterajším stavom a novým stavom (viacero aktívnych úrovní PES)
09:18 - Začiatok obsahových úprav
09:37 - Otvorenie pull requestu s hotfixom pre životné situácie
09:57 - Potvrdenie zobrazovania správnych údajov v Drupale
10:47 - Otvorenie pull requestu s hotfixom pre opatrenia
11:05 - Indikácia neprebehnutého deployu na produkciu
11:31 - Kontaktovanie NAKITu o skontrolovanie behu deploy pipeline
11:57 - Potvrdenie správneho zobrazovania webu
Opatrenia
- Dôkladné ošetrenie používateľského vstupu - v tomto prípade by to znamenalo nemožnosť zadať viacero aktívnych úrovní PES
- Požiadavka na adhoc spúšťanie deploy pipeline a zobrazovanie stavu pipeline - v tomto prípade by to umožnilo rýchlejšie obnovenie normálnej prevádzky webu
- Požiadavka na lepšie testovacie prostredie - v tomto prípade by editori mali možnosť prezrieť si web v stave po prepnutí a tým by sa prispelo k skoršiemu odhaleniu problému