Classificatie is een dataminingtechniek die categorieën toewijst aan een verzameling gegevens om te helpen bij nauwkeurigere voorspellingen en analyses. Wordt ook wel a. Genoemd Beslissingsboom , classificatie is een van de vele methoden om de analyse van zeer grote datasets effectief te maken.
Waarom classificatie?
Zeer grote databases worden de norm in de hedendaagse wereld van big data . Stelt u zich een database voor met meerdere terabytes aan gegevens - een terabyte is dat biljoen bytes van gegevens.
Facebook alleen crunches 600 terabytes aan nieuwe gegevens elke dag (vanaf 2014, de laatste keer dat deze deze specificaties rapporteerde). De primaire uitdaging van big data is hoe deze te begrijpen.
En puur volume is niet het enige probleem: big data heeft ook de neiging divers, ongestructureerd en snel veranderend te zijn. Overweeg audio- en videogegevens, berichten op sociale media, 3D-gegevens of geospatiale gegevens. Dit soort gegevens is niet gemakkelijk te categoriseren of te organiseren.
Om deze uitdaging aan te gaan, zijn er een aantal automatische methoden voor het uitpakken van nuttige informatie ontwikkeld, waaronder classificatie .
Hoe classificatie werkt
Voor het gevaar om te ver in de technische taal te gaan, laten we bespreken hoe classificatie werkt. Het doel is om een reeks indelingsregels te maken die een vraag beantwoorden, een beslissing nemen of gedrag voorspellen. Om te beginnen, wordt een set trainingsgegevens ontwikkeld die een bepaalde reeks attributen bevat, evenals de waarschijnlijke uitkomst.
De taak van het classificatie-algoritme is om te ontdekken hoe die set attributen tot een goed einde komt.
Scenario: Misschien probeert een creditcardmaatschappij te bepalen welke prospects een creditcardaanbieding zouden moeten ontvangen.
Dit kan de set trainingsgegevens zijn:
Naam | Leeftijd | Geslacht | Jaarlijks inkomen | Creditcardaanbieding |
---|---|---|---|---|
John Doe | 25 | M | $39,500 | Nee |
Jane Doe | 56 | F | $125,000 | Ja |
De kolommen "predictor" Leeftijd , Geslacht , en Jaarlijks inkomen de waarde bepalen van het "voorspellingskenmerk" Creditcardaanbieding . In een trainingsset is het voorspellingsattribuut bekend. Het classificatie-algoritme probeert dan te bepalen hoe de waarde van het voorspellingskenmerk werd bereikt: welke relaties bestaan er tussen de voorspellers en de beslissing? Er wordt een set voorspellingsregels ontwikkeld, meestal een IF / TOEN-instructie, bijvoorbeeld:
ALS (Leeftijd> 18 OF leeftijd <75) EN Jaarlijks inkomen> 40.000 DAN Creditcardaanbieding = ja
Vanzelfsprekend is dit een eenvoudig voorbeeld, en het algoritme zou een veel grotere gegevensbemonstering nodig hebben dan de twee hier getoonde records. Verder zijn de voorspellingsregels waarschijnlijk veel complexer, inclusief subregels om attribuutdetails vast te leggen.
Vervolgens krijgt het algoritme een "voorspellingsset" van te analyseren gegevens, maar deze set mist het voorspellingsattribuut (of de beslissing):
Naam | Leeftijd | Geslacht | Jaarlijks inkomen | Creditcardaanbieding |
---|---|---|---|---|
Jack Frost | 42 | M | $88,000 | |
Mary Murray | 16 | F | $0 |
Deze voorspellingsgegevens helpen de nauwkeurigheid van de voorspellingsregels te schatten en de regels worden vervolgens aangepast totdat de ontwikkelaar de voorspellingen effectief en nuttig vindt.
Dag tot dag voorbeelden van classificatie
Classificatie, en andere dataminingtechnieken, is een groot deel van onze dagelijkse ervaring als consument.
Weersvoorspellingen kunnen gebruik maken van classificatie om te melden of de dag regenachtig, zonnig of bewolkt zal zijn. De medische beroepsgroep kan gezondheidsomstandigheden analyseren om medische uitkomsten te voorspellen. Een type classificatiemethode, Naive Bayesian, maakt gebruik van voorwaardelijke kans om spam-e-mails te categoriseren. Van fraudedetectie tot productaanbiedingen, elke dag wordt er achter de schermen een classificatie georganiseerd om gegevens te analyseren en voorspellingen te produceren.