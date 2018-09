In de twintig jaar dat Netflix bestaat is het gegroeid van een dvd-verhuurder met dertig werknemers naar een wereldwijde streamingservice met meer dan 130 miljoen klanten en tien miljard euro omzet per jaar, dat en passant radicaal de entertainment-sector op z'n kop zette. In 2016 kondigde CEO Reed Hastings op consumentenelektronicabeurs CES aan de knop om te zetten om Netflix beschikbaar te maken in 130 landen en dat bezoekers de geboorte van een wereldwijd tv-netwerk meemaakten.

Problemen met datacenters

Op een IT-ondersteuningscongres onlangs in Londen legt Dave Hahn, senior engineer voor Netflix' cloudoperaties en beschikbaarheidsteam, dat daar een radicale transformatie van IT-operaties aan te pas kwam in een tijd waarin dat bij lange na niet de norm was. "Ik denk dat je je wel kunt voorstellen hoeveel werk en nadenken over architectuurontwerp er aan te pas kwam om de dienst beschikbaar te stellen in 130 landen en tientallen miljoenen klanten op één moment: de technische architectuur, het onderzoek, het factureringssysteem, de mensen die we nodig hadden en het soort vaardigheden om dit soort vragen op te lossen die hiervoor nodig zijn."

De echte transformatie begon toen Netflix besloot om over te stappen van zijn eigen datacenters naar de publieke cloud. In 2008 gebruikte Netflix nog regionale datacenters toen zich een ramp voltrok: een falend datacenter legde de hele dienst plat en dvd's konden drie dagen lang niet worden verstuurd. Dit was het moment dat Netflix moest beslissen: het bedrijf moest transformeren tot datacenterorganisatie van wereldklasse of de dienst verhuizen naar de publieke cloud.

Netflix groeide ondertussen flink door. De duizenden video's die miljoenen klanten al bekeken zorgde voor een enorme doorloop van data. Het bedrijf worstelde om de serverracks in het eigen datacenter tijdig aan te vullen om de exponentiële groei bij te benen, maar met de cloud zouden duizenden virtuele servers en petabytes aan opslagcapaciteit in luttele minuten kunnen worden toegevoegd. Dus migratie naar de cloud was een logische zet. Netflix werd hét voorbeeld van Amazon Web Services (AWS) om aan te tonen dat de schaal, diensten en features van Amazon geschikt waren voor een dergelijke transformatie.

Heel nieuw basisidee

De voornaamste vereiste was dat het hele traditionele infrastructuur van het bedrijf op de schop ging. Netflix had simpelweg zijn huidige monolitische zakelijke systeem kunnen verschuiven van het datacenter en het in AWS kunnen neerzetten, maar dat zou hebben betekend dat Netflix zijn traditionele datacenterproblemen zou verplaatsen naar de cloud in plaats van op te lossen. In plaats daarvan koos het bedrijf ervoor om Netflix opnieuw op te bouwen in AWS en de manier waarop het op dat moment werkte fundamenteel te veranderen.

"Software is wat dit betreft niet anders: als je kunt ontwerpen voor het systeem kan het meer van de dingen doen die je eigenlijk wilt", zegt Hahn. "Daarom kozen we ervoor om over te stappen op microservices." Dat maakte de infrastructuur flexibeler omdat delen werden opgebroken in meerdere losse services die elk hun eigen team hadden die begreep hoe de microservice werkte én hoe deze combineerde met andere in het platform. Voor die tijd was dat baanbrekend.

Het voordeel s dat dit duidelijke inzichten oplevert die het gemakkelijker maken om de dienst als geheel te veranderen, wat betekent dat je sneller en gerichter kunt uitrollen. Dit microservices-concept stelt Netflix instaat om stukjes te isoleren om verschillende prestatieprofielen, patronen en beveiligingen van elke microservice te begrijpen en kan het bedrijf een individueel component dat problemen veroorzaakt loskoppelen en weggooien of aanpassen. "Ik hoef niet al die stukken samen te stellen om een enkele uitrol te leveren", legt Hahn uit. "Iedere Netflix-team kan op elk gewenst moment hun service uitrollen. Er is geen coördinatie, geen inplanning, geen smelkroes nodig om naar productie te gaan."

Veel experimenteren

Het kostte Netflix zeven jaar om de cloudmigratie volledig te voltooien: in 2016 werd het laatst overgebleven datacenter van de streamingdienst gesloten. Op diens plek was een nieuwe cloudinfrastructuur gekomen die alle opslag en rekenkracht die Netflix nodig had voor zijn rekening nam, van klanteninformatie tot de recommendation-engine die titels aanraadt.

De migratie verbeterde de schaalbaarheid, beschikbaarheid van de dienst en het tempo waarop Netflix nieuwe content, features, interfaces en interacties kan uitbrengen. Ook kwam er capaciteit vrij bij de onwerpers, gingen de kosten van streamen omlaag, werd beschikbaarheid drastisch verbeterd en werd de ervaring en expertise van AWS toegevoegd.

"Daarnaast is het kostenmodel erg gunstig voor ons", voegt Hahn daaraan toe. "Je betaalt voor wat je gebruikt en dat stelt ons in staat om veel te experimenteren." Dit geeft Netflix de ruimte om nieuwe features te testen en nieuwe te verbeteren, bijvoorbeeld de rijen van kijktips die elke dag opnieuw worden gepersonaliseerd. "Deze grote recommendation-algoritmes vereisen veel rekenkracht", legt hij uit.

Van third party naar eigen CDN

"Als ik wil weten of de nieuwe beter werkt, wil ik de oude niet uitschakelen, omdat ik die adviezen nog steeds nodig heb. Ik kan nu tientallen, honderden of duizenden machines in een middag aanzetten en door de gegevens ploegen om te zien of we beter hebben gepresteerd, en ik hoef enkel voor de delen te betalen die ik daadwerkelijk gebruik. Dat geeft ons enorme vrijheden met experimenteren."

De cloud is maar één deel van de Netflix-ervaring. Alles wat gebeurt totdat een gebruiker in de catalogus een video aanklikt gebeurt in AWS, maar de content die volgt kom van een gescheiden systeem: Netflix OpenConnect, het propriëtaire Content Delivery Network (CDN) van het bedrijf zelf. De CDN-appliances die Netflix uitrolt bij providers in de regio waar de kijkers zitten zorgen ervoor dat de video's worden afgeleverd bij de kijker.

Oorspronkelijk outsourcete Netflix het afleveren van video via streamen bij een third-party CDN-leverancier, maar hoe meer het bedrijf groeide, hoe meer deze moeite kregen om het verkeer te blijven ondersteunen. Netflix had meer controle nodig over de dienst en de gebruikerservaring en ontwierp een eigen CDN naar de specifieke behoeftes van het bedrijf.

Weg met buffer-cirkeltje

De CDN-appliances worden geïnstalleerd in datacenters van ISP's en zijn gescheiden van de rest van het internet. Algoritmes bepalen de efficiëntste manier om content af te leveren en dit verkleint de vraag naar upstream-capaciteit van het netwerk. "We hebben de OpenConnect caching-machines ontworpen om content op te slaan en als we ze in het netwerk van je provider plaatsen, sturen we de videobits niet daadwerkelijk over het netwerk van de netwerkprovider", zegt Hahn.

Door het nieuwe systeem komt het door kijkers zo verfoeide stekende buffer-cirkeltje een stuk minder vaak voor. Ook kon Netflix de CDN-software een stuk intelligenter maken: als een klant op een titel klikt, kan de content van verschillende plekken komen. Die investering betaalde zich direct terug toen een brand bij een datacenter in van een ISP in Brazilië de machines van Netflix vernietigde. Klanten van de provider merkten niets van de calamiteit in de back-end. "De apparaten konden de data ergens anders vandaan halen", aldus Hahn. "Het verstoorde geen enkele frame bij gebruikers, terwijl het huis letterlijk afbrandde."

Netflix-ontwikkelaars staan tegenwoordig bekend om hun unieke aanpak qua ontwikkeling. Een tool genaamd het Chaos Engineering Platform is gebouwd om problemen in de productie-omgeving te testen, zodat Netflix weet wat er gebeurt bij een storing om te zien hoe de software zich bij een calamiteit gedraagt.

Chaos omarmen

"Netflix-klanten drukken duizenden keren per seconde op de knop om af te spelen", vertelt Hahn. "Als het systeem geen automatische recovery heeft, niet kan omgaan met een slechte situatie, niet kan herstellen, dan duurt het in het gunstigste geval minuten voordat een mens erbij betrokken raakt. Je kunt je misschien voorstellen hoeveel klanten we hebben teleurgesteld in de vier a vijf minuten die zo'n storing duurt voordat ontwikkelaars op de juiste plek het probleem hebben aangepakt. Chaos-engineering is een uitstekend middel om uitval te voorkomen."

Ze gebruiken deze methode om ervoor te zorgen dat Netflix overleeft als één van de drie AWS-regio's die worden gebruikt uitvalt. Elke maand wordt bewust een van deze regio's uitgeschakeld om te testen dat ze alle klanten daarvan binnen zes minuten kunnen migreren naar een secundaire AWS-regio.

Om chaos zonder vernieling te kunnen omarmen, heeft Netflix er ten eerste voor gezorgd dat de bedrijfscultuur dit soort ideeën durft te gebruiken. De centrale principes zijn geformaliseerd in een presentatie die bestaat uit 127 dia's getiteld Netflix Culture Deck. Facebook-COO Sheryl Sandberg zei hiervan dat het "misschien wel het belangrijkste document is dat ooit uit de Valley kwam".

Ontwikkelaars hun gang laten gaan

Een centraal thema van het beleid is de balans tussen vrijheid en verantwoordelijkheid. Teams hebben ownership over hun microservice en worden aangemoedigd onafhankelijk te werken, maar niet roekeloos. "Netflix-managers geven geen taken aan de ontwikkelaars om hun project te ontwerpen", zegt Hahn. "Hun werk draait erom dat ze de juiste context leveren om het team beslissingen te laten nemen, om uitstekende collega's te werven en om ze niet in de weg te staan."

Het bedrijf probeert niet te veel te vast te leggen, buiten enkele fundamentele principes om zoals het niet gebruiken van klantgegevens. Hahn beschrijft deze aanpak als het bouwen van vangrails, maar geen poorten. Hij zegt dat de keren dat hij een ontwikkelaar vertelde wat te doen op de vingers van één hand kan tellen.

"Door die ervoor te zorgen dat die context breed bekend is, zorgen we ervoor dat iemand een factureringssysteem ontwerpt, iemand aan de algoritmische systemen werkt, SRE in goede banen wordt geleid, de klantenservice wordt aangepast - en dat iedereen begrijpt wat de context is zodat we allemaal naar hetzelfde einddoel werken", aldus de systeembeheer-manager. "Dat stelt ons in staat de teams losjes te beheren. We hebben weinig structuur en controle, maar de teams zijn wel op elkaar afgestemd."