Blogg

ITIL Major Incident Management

ITIL Major Incident Management

Ásgeir Logi Ísleifsson

RB: Atvikastjóri, Fyrirliði - Tæknirekstur

17.11.2016

Hvað er Major incident og Hvenær verður incident að Major incident?

Hvað er ITIL?

ITIL stendur fyrir „Information Technology Infrastructure Library“ og er mjög viðamikið safn (Framework) af svokölluðum „bestu starfsvenjum“ (best practices) í upplýsingatækni. Þetta safn er notað sem leiðarvísir og almennt viðurkennt sem fagleg leið til að skipuleggja, samræma, skjala og bæta ferla til að veita betri þjónustu hjá upplýsingatæknifyrirtækjum um allan heim. ITIL hugtakið kom fyrst fram í Bretlandi kringum 1980. Upphaflega kallaðist þetta GITIM eða „Government Information Technology Infrastructure Management“ en upp úr 1990 fóru stofnanir þjóðríkja og stórfyrirtæki að taka mið af því sem þá var farið að kalla ITIL. Microsoft hafði t.a.m. ITIL til viðmiðunar við sína útfærslu árið 2000 sem þeir kölluðu MOF (Microsoft Operations Framework). Árið 2001 var gefin út 2. útgáfa af ITIL og svo árið 2007 kom út 3. útgáfa enda mikill vöxtur í upplýsingatækni og því rík þörf til að aðlagast breytingum í umhverfi upplýsingatæknifyrirtækja.

ITIL Incident Management

RB ákvað árið 2013 að innleiða valda ITIL ferla. Ferlarnir eru Incident Management, Problem Management, Release and Deployment Management, Change Management og Request Fulfillment. Ég var beðinn um að hanna Incident Management ferilinn. Um áramótin 2013/2014 var svo nýtt atvikaferli RB gefið út og byrjað að starfa samkvæmt því.

Til að ákvarða hvað telst vera atvik er notuð einföld setning, „virkaði áður en gerir það ekki lengur eða virkar ekki eins og á að gera“. Þetta á við um öll atvik, allt frá bilaðri mús upp í rof í mikilvægustu kerfum RB.

Forgangsflokkun atvika

Forgangsflokkun (priority) er ekki sjálfstæð flokkun byggð á tilfinningalegu mati heldur vegin niðurstaða útfrá alvarleika (severity) og áhrifum (impact) atviks. Forgangsflokkunin er sett fram í forgangsmatrixu atvika

Severity mælikvarðinn inniheldur þrjá flokka.

  • Low (minniháttar bilun eða truflun)
  • Medium (þjónustuskerðing)
  • High (þjónusturof eða alvarleg þjónustuskerðing)

 Impact mælikvarðinn inniheldur einnig 3 flokka.

  • Low (hefur áhrif á fáa eða enga)
  • Medium (hefur áhrif á nokkurn fjölda)
  • High (hefur áhrif á talsverðan fjölda eða alla). 

Hvert atvik, sama hversu stórt eða lítið, er flokkað samkvæmt þessari forgangsmatrixu og útkoman er sá forgangur sem atvikið þarf að fá. Forgangsmatrixan er algjört lykilatriði í Incident Management ferlinu. Með því að nota hana til að forgangsflokka atvikum er hægt að losna að mestu við ranga flokkun byggða á tilfinningu þess sem metur, út frá hugarástandi þess sem tilkynnir eða verður var við atvik. Forgangsflokkun ákvarðar hversu fljótt vinna við úrlausn atvika þarf að hefjast og er gríðarlega mikilvæg.

Major Incident

Alltaf öðru hvoru koma upp atvik sem eru það brýn og alvarleg að þau krefjast sérstakrar meðhöndlunar. Þannig atvik eru hækkuð upp í svokallaða Major incident flokkun. Innan ITIL er þetta sér ferli sem heitir „Major Incident Management Process“ og því hannaði ég þann feril einnig samhliða Incident Management ferlinu. Til að átta sig betur á þessu fyrirbæri þá má líta á MI sem einskonar milliflokkun á milli venjulegs atviks og neyðarástands. Vinna við venjulegt atvik er í höndum þess sem fær atvikið til úrlausnar en þegar til neyðarástands kemur þá tekur við nýtt stjórnkerfi innan fyrirtækisins þar sem allt miðar að leysa það neyðarástand. Þegar Major Incident kemur upp þá tekur við einskonar blanda af þessu tvennu. Major Incident Manager (hér eftir MIM), tekur við stjórn málsins og hefur fullt vald til að kalla hvern sem er að málinu og það hefur algjöran forgang hjá þeim sem starfa við úrlausn.

Mikilvægisflokkun þjónustu RB

RB mikilvægisflokkar allar þjónustur út frá eftirfarandi viðmiðun.

A - Þjónusturof hefur bein neikvæð áhrif á almenning vegna skerðingar á greiðslumiðlun í landinu.

B+ - Þjónusturof hefur bein áhrif á fjárhagslegar aðgerðir/afgreiðslu viðskiptavina fjármálafyrirtækja, hvort sem er í útibúi eða annars staðar

B - Þjónusturof hefur bein áhrif á starfsfólk fjármálafyrirtækja en veldur ekki beinni þjónustuskerðingu gagnvart viðskiptavinum þeirra

C - Þjónusturof hefur ekki bein áhrif á starfsfólk né viðskiptavini fjármálafyrirtækja

D - Minna mikilvægt

Hvað er Major incident hjá RB?

Major Incident er rof eða alvarleg þjónustuskerðing í verðmæti með mikilvægisflokkun A, B+ eða B sem hefur áhrif á nokkurn, umtalsverðan eða alla notendur viðkomandi þjónustu.

Þetta er þó ekki alltaf svona einfalt eins og það hljómar. Stundum á við að ræsa Major incident ferilinn ef

  • allir notendur A, B+ eða B vöru verða fyrir þjónustuskerðingu (medium í alvarleika, high í áhrifum)
  • það er þjónusturof (high í alvarleika) í A, B+ eða B vöru sem hefur bara áhrif á nokkurn fjölda notenda (medium í áhrifum).  

 Sum MI eru augljós og allir vita strax og það kemur upp að hér er um MI að ræða. Önnur byrja sem high og dansa einhvern vegin á línunni og því ræsum við MI ferlið frekar en ekki og vinnum samkvæmt því. Ef svo kemur í ljós að áhrif af atviki voru hverfandi á notendur eða atvikið var ekki eins alvarlegt og talið var, þá einfaldlega lækkum við flokkunina eftir á. Viðskiptavinurinn nýtur alltaf vafans.

Í byrjun hvers mánaðar heldur MIM fund með fulltrúum rekstrar, þróunar, vörustýringar og rekstrarstjóra viðskiptavina. Þar eru yfirfarin aftur þau MI sem komu upp í síðasta mánuði og forgangsflokkun yfirfarin. Stundum er við hæfi að lækka MI forgangsflokkun og er það þá gert. Einnig eru yfirfarin öll atvik sem hafa fengið forgangsflokkunina high og metið hvort sú flokkun hafi verið rétt. Einstaka sinnum eru atvik hækkuð eftir á af þessum hópi upp í Major Incident. Það eru atvik sem hafa af einhverjum ástæðum ekki náð að komast hærra í frumflokkun, t.d. þegar upp kemur rof á tíma sólarhrings sem færri eru að nota þjónustuna eða þegar rof varir í mjög stuttan tíma.

Major incident ferillinn er gríðarlega mikilvægur ferill þar sem hann er ræstur þegar mikið liggur við og venjulega atvikaferlið dugar ekki. Það liggur beinast við að líkja honum við það ástand sem skapast þegar t.d. bílslys verður og sjúkrabíll fer í útkall. Það eru allir fegnir þegar sjúkrabíllinn er kominn þrátt fyrir að orsök þess að hann var kallaður út sé ekkert fagnaðarefni.  Á meðan sjúklingurinn er í bráðaaðgerð á spítalanum skiptir miklu máli að halda aðstandendum vel upplýstum um framvindu mála í aðgerðinni eftir atvikum. Einnig getur þurft að kalla til fleiri sérfræðinga til aðstoðar í aðgerðina. Lögreglan mætir yfirleitt líka á slysstaðinn og framkvæmir frumrannsókn á slysinu, tekur myndir og skráir niður ýmsar upplýsingar sem verða mikilvægar seinna í rannsókninni. Þeirri stöðu, þegar sjúklingurinn er kominn í stöðugt ástand,  má líkja við stöðuna í MI þegar tekst að endurheimta þjónustu, stundum með reddingu en ekki alltaf með endanlegri lausn.

Þegar aðrir snúa sér að öðrum verkefnum heldur vinna Major Incident Manager áfram...en það er efni í annan pistil.