Skip to main content

Datamining met K-Means-clustering

StatQuest: K-means clustering (April 2025)

StatQuest: K-means clustering (April 2025)
Anonim

De k- betekent clusteringalgoritme is een hulpmiddel voor datamining en machine learning dat wordt gebruikt om observaties te clusteren in groepen van gerelateerde waarnemingen zonder voorafgaande kennis van die relaties. Door te bemonsteren, probeert het algoritme aan te geven in welke categorie, of cluster, de gegevens behoren, waarbij het aantal clusters wordt gedefinieerd door de waarde k.

De k- betekent dat algoritme een van de eenvoudigste clusteringstechnieken is en het wordt vaak gebruikt in medische beeldvorming, biometrie en gerelateerde velden. Het voordeel van k- betekent clusteren is dat het vertelt over uw gegevens (met behulp van de niet-gesuperviseerde formulier) in plaats van dat u het algoritme moet instrueren over de gegevens aan het begin (met behulp van de gecontroleerde vorm van het algoritme).

Het wordt soms aangeduid als Lloyd's Algorithm, vooral in informatica kringen, omdat het standaard algoritme voor het eerst werd voorgesteld door Stuart Lloyd in 1957. De term 'k-means' werd bedacht in 1967 door James McQueen.

Hoe de K-Means algoritmefuncties werken

De k- betekent dat algoritme een evolutionair algoritme is dat zijn naam dankt aan zijn werkwijze. Het algoritme bundelt waarnemingen in k groepen, waar k wordt geleverd als een invoerparameter. Vervolgens wijst het elke observatie toe aan clusters op basis van de nabijheid van de waarneming tot het gemiddelde van het cluster. Het gemiddelde van het cluster wordt vervolgens opnieuw berekend en het proces begint opnieuw. Hier is hoe het algoritme werkt:

  1. Het algoritme selecteert willekeurig k punten als de initiële clustercentra (de gemiddelden).
  2. Elk punt in de dataset wordt toegewezen aan het gesloten cluster, op basis van de Euclidische afstand tussen elk punt en elk clustercentrum.
  3. Elk clustercentrum wordt opnieuw berekend als het gemiddelde van de punten in dat cluster.
  4. Stappen 2 en 3 herhalen totdat de clusters samenkomen. Convergentie kan op verschillende manieren worden gedefinieerd, afhankelijk van de implementatie, maar het betekent normaal dat er geen waarnemingen clusters veranderen wanneer stappen 2 en 3 worden herhaald of dat de wijzigingen geen wezenlijk verschil maken in de definitie van de clusters.

Het aantal clusters kiezen

Een van de belangrijkste nadelen van k- betekent clusteren is het feit dat u het aantal clusters als invoer voor het algoritme moet opgeven. Zoals ontworpen, is het algoritme niet in staat om het juiste aantal clusters te bepalen en hangt het van de gebruiker af om dit vooraf te identificeren.

Als u bijvoorbeeld een groep mensen heeft die moet worden geclusterd op basis van binaire genderidentiteit als mannelijk of vrouwelijk, roept u de k- betekent algoritme met behulp van de invoer k = 3 zou het volk in drie clusters dwingen wanneer er maar twee zijn, of een input van k = 2, zou voor een natuurlijkere pasvorm zorgen.

Evenzo, als een groep individuen gemakkelijk kon worden geclusterd op basis van de thuisstaat en u de k- betekent algoritme met de invoer k = 20, de resultaten kunnen te algemeen zijn om effectief te zijn.

Om deze reden is het vaak een goed idee om met verschillende waarden van te experimenteren k om de waarde te bepalen die het beste bij uw gegevens past. Misschien wilt u ook het gebruik van andere datamining-algoritmen verkennen in uw zoektocht naar door machines aangeleerde kennis.