Microsoft Lumos er nu åben kilde, der muliggør overvågning af webapp-målinger og hurtig detektion af uregelmæssigheder ved at eliminere falske positive

Microsoft / Microsoft Lumos er nu åben kilde, der muliggør overvågning af webapp-målinger og hurtig detektion af uregelmæssigheder ved at eliminere falske positive 3 minutter læst

Microsoft



Microsoft har åbnet adgang til 'Lumos', et kraftfuldt Python-bibliotek til automatisk at detektere og diagnosticere metriske regressioner i 'web-skala' applikationer. Biblioteket har angiveligt været meget aktiv inden for Microsoft Teams og Skype. I det væsentlige er en meget kraftfuld og intelligent 'anomali detektor' nu åben og tilgængelig for webudviklere til at få øje på og adressere regressioner i nøglepræstationsmålinger, mens de næsten eliminerer de fleste falske positive.

Microsoft Lumos er nu open source. Det blev aktivt brugt i udvalgte Microsoft-produkter og vil nu være tilgængeligt for det generelle web- og appudviklingssamfund. Biblioteket tillod angiveligt ingeniører at opdage hundredvis af ændringer i målinger og afvise tusindvis af falske alarmer, der blev opdaget af anomalidetektorer.



Lumos reducerer falsk-positiv alarmfrekvens med over 90 procent, hævder Microsoft:

Lumos er en ny metode, der inkluderer eksisterende, domænespecifikke anomalidetektorer. Imidlertid forsikrer Microsoft, at Python-biblioteket kan reducere den falske positive alarmrate med over 90 procent. Med andre ord kan udviklere nu med tillid gå efter vedvarende problemer i stedet for intermitterende, som ikke havde en langsigtet skadelig virkning.



Onlinetjenesternes sundhed overvåges normalt ved at spore KPI-metrics (Key Performance Indicator) over tid. Ingeniører, der gennemfører 'Regressionsanalyse', kræver meget tid og ressourcer til at udrydde problemer, der kan være tegn på store problemer. Disse problemer kan resultere i stigende driftsomkostninger og endda tab af brugere, hvis de ikke løses.



Det er overflødigt at tilføje, at spore årsagen til enhver KPI-regression er tidskrævende. Desuden bruger hold ofte meget tid på at analysere problemerne kun for at finde ud af, at de var en ren anomali. Dette er hvor Microsoft Lumos er praktisk. Python-biblioteket eliminerer processen med at fastslå, om en ændring skyldes et skift i populationen eller en produktopdatering ved at tilvejebringe en prioriteret liste over de vigtigste variabler til forklaring af ændringer i metrisk værdi.



Microsoft Lumos tjener også det bredere formål at forstå forskellen i en måling mellem to datasæt. Interessant nok inkluderer platformen 'bias' og ved at sammenligne et kontrol- og behandlingsdatasæt, mens de forbliver agnostiske med tidsseriekomponenten, kan Lumos undersøge uregelmæssigheder.

Hvordan fungerer Microsoft Lumos?

Microsoft Lumos arbejder med principperne for A / B-test for at sammenligne par datasæt. Python-biblioteket begynder med at kontrollere, om regressionen i metricen mellem datasæt er statistisk signifikant. Derefter følger det op med en befolkningsforstyrrelseskontrol og biasnormalisering for at tage højde for eventuelle befolkningsændringer mellem de to datasæt. Lumos beslutter, at problemet ikke er værd at forfølge, hvis der ikke er nogen statistisk signifikant regression i metricen. Men hvis deltaet i metricen er statistisk signifikant, markerer Lumos funktionerne og rangerer dem i henhold til deres bidrag til deltaet i målmetricen.

Lumos Python-biblioteket fungerer som det primære værktøj til scenarioovervågning af hundredvis af målinger. Udviklere og teams, der gennemfører præstationsanalyse, kunne overvåge og arbejde på pålideligheden af ​​opkald, møder og PSTN-tjenester (Public Switched Phone Network) hos Microsoft. Biblioteket er operationelt på Azure Databricks, virksomhedens Apache-gnistbaserede big data-analysetjeneste. Det er konfigureret til at køre med flere job, der er arrangeret efter prioritet, kompleksitet og metriktype. Jobbet udføres asynkront. Det betyder, at hvis systemet registrerer en anomali, udløses en Lumos-arbejdsgang, og biblioteket analyserer og kontrollerer derefter intelligent, om anomalien er værd at forfølge og adressere.

Microsoft har bemærket, at Lumos ikke garanteres at fange alle regressioner i tjenester. Derudover vil tjenesten kræve et stort antal datasæt for at give pålidelig indsigt. Virksomheden planlægger også at inkludere kontinuerlig metrics-analyse, udføre bedre rangordning af funktioner og også inddrage funktionsgrupper. Disse trin skal tackle den primære udfordring ved multikollinearitet i funktionsrangeringen.

Mærker Microsoft