Strategisk feilfokus
Pålitelighet, stabilitet, skalerbarhet står øverst på de fleste kravspesifikasjoner, og nevnes i de fleste IT-strategier. Feil nevnes aldri – for feil vil vi ikke ha. Men feil skjer – alltid. Burde vi ha et strategisk forhold til feil?
‘Feil skal ikke skje’ sier Telenors topper etter den andre alvorlige driftsforstyrrelsen på kort tid. ‘Vi jobber hardt for at feil ikke skal forekomme’. Det kunne like godt vært noen andre – og en helt annen sammenheng. For eksempel: En norsk samferdelsminister proklamerte for noen år siden at ‘dødsulykker i trafikken er uakseptabelt’. I beste fall en naiv omgang med virkeligheten. Vi vet, samferdselsministeren vet, Telenor vet at feil skjer, ulykker skjer. Derfor er skadebegrensning et fag. Derfor har vi AirBags, derfor bruker vi sikkerhetsbelter.
Telenors og alle IT-miljøers utfordring er å håndtere feil og redusere hyppigheten. Den litt naive og definitivt virkelighetsfjerne ‘null feil’-ambisjonen har gått ut på dato forlengst. Og heldigvis – nettopp fokus på bedre feilhåndtering er en trend i dagens IT-marked. Vi diskuterte temaet i analysen Bugs som feires nylig, med ehandels-selskapet Etsy som eksempel. Deres ‘magi’ er hastighet: Feil er ikke farlige hvis de kan rettes raskt. Dessuten: Å ta bort feil-aversjon øker hastigheten i seg selv. Utallige kontrollprosesser og cover-your-back regimer kan fjernes. Mantraet er ‘feil forventes og håndteres’ – kjemp med dem, ikke mot dem.
Etsy er ett av mange eksempler langs denne aksen. Et annet er Netflix – som vi diskuterte i Hvorfor Netflix alltid er oppe. Et tredje er Druid, en open source distribuert lagringsarkitektur for store datamengder. En av arkitektene bak Druid skrev nylig en interessant (om enn teknisk) blogg om tankegangen og utfordringene, med den beskrivende undertittelen Everything is going to fail (se Architecting Druid for failure). En beslektet analyse diskuterer hvordan selskapet Metamarkets kombinerer open source produktene Druid, Samza, Hadoop og Kafka til enestående pålitelighet og kapasitet. Selskapets systemer håndterer 1 million hendelser per sekund og kontinuerlige analyse-forespørsler (queries) som gjennomgår billioner av hendelser per forespørsel (Dogfooding with Druid, Samza, and Kafka: Metametrics at Metamarkets).
Trenden er verdt å legge merke til. Det er lett å avfeie eksemplene med at ‘våre forhold er enkle, dette er interessant, men ikke relevant’. Men det ER relevant – av årsaken vi innledet med: Alle ønsker pålitelighet, stabilitet og skalerbarhet. Og alle kan få det – med overkommelige kostnader, hvis arkitekturen gjøres riktig fra grunnen av.
Derfor er ‘feilfokus’ – fokus på feil-håndtering fremfor feil-aversjon – en strategisk føring i 2016. Realisme avløser en drøm uten bakkekontakt. Dessuten – omfokuseringen leverer gratis stimulans til utviklingsmiljøer: Hastighet, dynamikk og spenst er inspirerende. Rigide kontrollregimer drevet av ansvarsfraskrivelse er det motsatte.
Legg igjen kommentar
Du må være innlogget for å kunne kommentere.