Tekniska ämnen

Vad är maskininlärning?

Illustration av IT-objekt med fokus på ett frågetecken

Översikt

Maskininlärning är en delmängd av artificiell intelligens som fokuserar på att bygga system som kan lära sig av historiska data, identifiera mönster och fatta logiska beslut med liten eller ingen mänsklig inblandning. Det är en dataanalysmetod som automatiserar skapandet av analytiska modeller genom att använda data som omfattar olika former av digital information, t.ex. siffror, ord, klick och bilder.

Program för maskininlärning lär sig av indata och förbättrar kontinuerligt noggrannheten i utdata med hjälp av automatiserade optimeringsmetoder. Kvaliteten på en maskininlärningsmodell är beroende av två viktiga aspekter:

  1. Kvaliteten på indata. En vanlig fras när det gäller att utveckla maskininlärningsalgoritmer är "skräp in, skräp ut". Uttrycket betyder att om du lägger in data av låg kvalitet eller rörig data kommer resultatet av din modell att vara till stor del felaktigt.
  2. Själva modellvalet. Inom maskininlärning finns det en uppsjö av algoritmer som en datavetare kan välja, alla med sina egna specifika användningsområden. Det är viktigt att välja rätt algoritm för varje användningsfall. Neurala nätverk är en algoritmtyp med betydande hype kring sig på grund av den höga noggrannhet och mångsidighet som den kan leverera. För små datamängder är det dock ofta bättre att välja en enklare modell.

Ju bättre maskininlärningsmodellen är, desto mer exakt kan den hitta funktioner och mönster i data. Det innebär i sin tur att dess beslut och förutsägelser blir mer exakta.

OpenText ArcSight Intelligence för CrowdStrike

Oöverträffat skydd som kombinerar maskininlärning och endpoint-säkerhet tillsammans med hotjakt i världsklass som en tjänst.

Läs mer om detta

Maskininlärning

Varför är maskininlärning viktigt?

Varför använda maskininlärning? Maskininlärning blir allt viktigare på grund av de alltmer enorma volymerna och variationen av data, tillgången till och överkomligheten för beräkningskraft och tillgången till höghastighetsinternet. Dessa digitala transformationsfaktorer gör det möjligt att snabbt och automatiskt utveckla modeller som snabbt och korrekt kan analysera utomordentligt stora och komplexa datamängder.

Det finns en mängd olika användningsområden där maskininlärning kan användas för att sänka kostnaderna, minska riskerna och förbättra den allmänna livskvaliteten, t.ex. för att rekommendera produkter/tjänster, upptäcka cybersäkerhetsöverträdelser och möjliggöra självkörande bilar. Med större tillgång till data och beräkningskraft blir maskininlärning allt vanligare varje dag och kommer snart att integreras i många aspekter av människors liv.


Hur fungerar maskininlärning?

Det finns fyra viktiga steg som du följer när du skapar en maskininlärningsmodell.

  1. Välj och förbered en träningsdatauppsättning

    Träningsdata är information som är representativ för de data som maskininlärningsprogrammet kommer att ta in för att ställa in modellparametrar. Träningsdata är ibland märkta, vilket innebär att de har märkts för att ringa ut klassificeringar eller förväntade värden som maskininlärningsläget krävs för att förutsäga. Andra träningsdata kan vara omärkta så att modellen måste extrahera funktioner och tilldela kluster autonomt.

    För märkning bör data delas in i en träningsdel och en testdel. Den förstnämnda används för att träna modellen och den sistnämnda för att utvärdera modellens effektivitet och hitta sätt att förbättra den.

  2. Välj en algoritm som ska tillämpas på träningsdatauppsättningen

    Vilken typ av maskininlärningsalgoritm du väljer beror i första hand på några olika aspekter:

    • Om användningsfallet är prediktion av ett värde eller klassificering som använder märkta träningsdata eller om användningsfallet är klustring eller dimensionsreduktion som använder omärkta träningsdata
    • Hur mycket data som finns i träningsuppsättningen
    • Vilken typ av problem som modellen försöker lösa

    För prediktions- eller klassificeringsfall använder du vanligtvis regressionsalgoritmer som vanlig minsta kvadratregression eller logistisk regression. Med omärkta data är det troligt att du förlitar dig på klusteralgoritmer som k-means eller närmaste granne. Vissa algoritmer, t.ex. neurala nätverk, kan konfigureras för att fungera med både klustring och prediktion.

  3. Träna algoritmen att bygga modellen

    Träning av algoritmen är en process där modellvariabler och parametrar justeras för att mer exakt kunna förutsäga lämpliga resultat. Träning av maskininlärningsalgoritmen är vanligtvis iterativ och använder en mängd olika optimeringsmetoder beroende på den valda modellen. Dessa optimeringsmetoder kräver inte mänsklig inblandning, vilket är en del av kraften i maskininlärning. Maskinen lär sig från de data du ger den med liten eller ingen specifik riktning från användaren.

  4. Använda och förbättra modellen

    Det sista steget är att mata in nya data i modellen för att förbättra dess effektivitet och noggrannhet över tiden. Var den nya informationen kommer ifrån beror på vilken typ av problem som ska lösas. Till exempel kommer en maskininlärningsmodell för självkörande bilar att ta in verklig information om vägförhållanden, föremål och trafiklagar.


Metoder för maskininlärning

Vad är övervakad maskininlärning?

Övervakade maskininlärningsalgoritmer använder märkta data som träningsdata där lämpliga utdata för indata är kända. Maskininlärningsalgoritmen tar in en uppsättning indata och motsvarande korrekta utdata. Algoritmen jämför sina egna förutspådda utdata med de korrekta utdata för att beräkna modellens noggrannhet och optimerar sedan modellparametrarna för att förbättra noggrannheten.

Övervakad maskininlärning bygger på mönster för att förutsäga värden på omärkta data. Det används oftast vid automatisering, för stora mängder dataposter eller i fall där det finns för många datainmatningar för att människor ska kunna bearbeta dem effektivt. Algoritmen kan till exempel fånga upp kreditkortstransaktioner som sannolikt är bedrägliga eller identifiera den försäkringskund som troligen kommer att göra en skadeanmälan.

Vad är oövervakad maskininlärning?

Maskininlärning utan supervisering tillämpas bäst på data som inte har strukturerade eller objektiva svar. Det finns ingen förhandsbestämning av rätt resultat för en given indata. Istället måste algoritmen förstå indata och fatta ett lämpligt beslut. Målet är att undersöka informationen och identifiera strukturen i den.

Maskininlärning utan övervakning fungerar bra på transaktionsinformation. Algoritmen kan till exempel identifiera kundsegment som har liknande attribut. Kunder inom dessa segment kan sedan nås av liknande marknadsföringskampanjer. Populära tekniker som används vid oövervakad inlärning är bland annat mappning av närmaste granne, självorganiserande kartor, singular value decomposition och k-means clustering. Algoritmerna används sedan för att segmentera ämnen, identifiera avvikande värden och rekommendera artiklar.


Vad är skillnaden mellan övervakad och oövervakad maskininlärning?

Aspekt

Övervakad inlärning

Oövervakad inlärning

Process

Ingångs- och utgångsvariabler tillhandahålls för att träna modellen.

Endast indata tillhandahålls för att träna modellen. Inga utdata används.

Inmatade data

Använder märkta data.

Använder omärkta data.

Algoritmer som stöds

Stöder regressionsalgoritmer, instansbaserade algoritmer, klassificeringsalgoritmer, neurala nätverk och beslutsträd.

Stöder klustringsalgoritmer, associationsalgoritmer och neurala nätverk.

Komplexitet

Enklare.

Mer komplex.

Subjektivitet

Målsättning.

Subjektivt.

Antal klasser

Antalet klasser är känt.

Antal klasser är okänt.

Primär nackdel

Det är svårt att klassificera stora datamängder med hjälp av övervakad inlärning.

Att välja antal kluster kan vara subjektivt.

Primärt mål

Träna modellen att förutsäga utdata när den presenteras med nya indata.

Hitta användbara insikter och dolda mönster.


Vad kan maskininlärning göra: Maskininlärning i den verkliga världen

Funktionen för maskininlärning har funnits i årtionden, men det är den senaste tidens förmåga att tillämpa och automatiskt beräkna komplexa matematiska beräkningar som involverar stora datamängder som har gett den en oöverträffad sofistikering. Användningsområdet för maskininlärning idag är stort och sträcker sig från företags AIOps till detaljhandel online. Några exempel från verkligheten på maskininlärningsfunktioner idag inkluderar följande:

  • Cyber Security använder beteendeanalys för att fastställa misstänkta eller avvikande händelser som kan tyda på insiderhot, APT eller nolldagsattacker.
  • Projekt för självkörande bilar, såsom Waymo (ett dotterbolag till Alphabet Inc.) och Teslas Autopilot som är ett steg under faktiska självkörande bilar.
  • Digitala assistenter som Siri, Alexa och Google Assistant som söker efter information på webben med hjälp av våra röstkommandon.
  • Användaranpassade rekommendationer som drivs av maskininlärningsalgoritmer på webbplatser och i appar som Netflix, Amazon och YouTube.
  • Lösningar för bedrägeridetektering och cyberresiliens som sammanställer data från flera system, upptäcker kunder som uppvisar högriskbeteende och identifierar mönster av misstänkt aktivitet. Dessa lösningar kan använda övervakad och oövervakad maskininlärning för att klassificera transaktioner för finansiella organisationer som bedrägliga eller legitima. Det är därför en konsument kan få sms från sitt kreditkortsföretag som verifierar om ett ovanligt köp som gjorts med konsumentens finansiella uppgifter är legitimt. Maskininlärning har blivit så avancerad när det gäller bedrägerier att många kreditkortsföretag gör reklam för att de inte har några fel gentemot konsumenterna om bedrägerier inte upptäcks av finansorganisationens algoritmer.
  • Bildigenkänning har utvecklats avsevärt och kan nu användas för ansiktsigenkänning, avläsning av handskrift på checkar, trafikövervakning och för att räkna antalet personer i ett rum.
  • Spamfilter som upptäcker och blockerar oönskad e-post från inkorgen.
  • Elbolag som analyserar sensordata för att hitta sätt att förbättra effektiviteten och sänka kostnaderna.
  • Bärbara medicintekniska produkter som i realtid samlar in värdefull data för kontinuerlig bedömning av patienters hälsa.
  • Taxiappar utvärderar trafikförhållandena i realtid och rekommenderar den mest effektiva rutten.
  • Sentimentanalys fastställer tonen i en textrad. Bra tillämpningar av sentimentanalys är Twitter, kundrecensioner och enkätsvar:
    • Twitter: Ett sätt att utvärdera varumärken är att upptäcka tonen i tweets som riktas mot en person eller ett företag. Företag som Crimson Hexagon och Nuvi tillhandahåller detta i realtid.
    • Kundrecensioner: Du kan känna av tonen i kundrecensioner för att utvärdera hur ditt företag mår. Detta är särskilt användbart om det inte finns något betygssystem i kombination med kundrecensioner i fritext.
    • Enkätundersökningar: Genom att använda sentimentanalys på enkätsvar i fritext kan du få en snabb utvärdering av hur dina enkätdeltagare känner. Qualtrics har implementerat detta i sina undersökningar.
  • Marknadssegmenteringsanalys använder oövervakad maskininlärning för att gruppera kunder enligt köpvanor för att fastställa olika typer av kunder eller kundprofiler. Detta gör att du bättre kan känna dina mest värdefulla eller underbetjänade kunder.
  • Det är lätt att trycka på ctrl+F för att söka efter exakta ord och fraser i ett dokument, men om du inte vet exakt vilken formulering du letar efter kan det vara svårt att söka i dokument. Maskininlärning kan använda tekniker som fuzzy-metoder och ämnesmodellering för att göra processen mycket enklare genom att låta dig söka i dokument utan att känna till den exakta formuleringen du letar efter.

Maskininlärningens roll kommer bara att fortsätta växa

I takt med att datavolymerna växer, datorkraften ökar, bandbredden på Internet blir större och datavetarna förbättrar sin expertis, kommer maskininlärning bara att fortsätta att leda till ökad och djupare effektivitet på jobbet och i hemmet.

Med de ständigt ökande cyberhoten som företag står inför idag krävs maskininlärning för att säkra värdefulla data och hålla hackare borta från interna nätverk. Vår främsta UEBA SecOps-mjukvara, ArcSight Intelligence , använder maskininlärning för att upptäcka avvikelser som kan tyda på skadliga handlingar. Den har visat sig kunna upptäcka insiderhot, nolldagsattacker och till och med aggressiva red team-attacker.

Hur kan vi hjälpa till?

Fotnoter