1


0

K-moyennes floues - sans association, comment les centroïdes sont-ils calculés dans la prochaine itération?

Selon le «Mahout en action»

_ Comme k-means, les k-means flous bouclent sur l’ensemble de données mais au lieu d’affecter des vecteurs aux centroïdes les plus proches, il calcule le degré d’association du point à chacun des clusters. _

Sans affecter des vecteurs aux centroïdes les plus proches, comment les centroïdes sont-ils calculés lors de la prochaine itération?

1 Answer


3


Je viens de googler les k-means flous et cela ressemblait essentiellement à un clustering EM qui est un concept assez largement connu et utile.

Le problème ici, c’est qu’aucune affectation ferme n’est effectuée.

Lorsqu’un point choisit à quel centroïde il doit appartenir, il obtient des probabilités pour qu’il appartienne à chacun des centroïdes (en considérant sa distance de chaque centroïde et en normalisant ces nombres par leur somme cumulée)

Lorsqu’un centroïde décide où déménager, il n’a pas de groupe bien défini de points lui appartenant dont il peut simplement prendre la moyenne pour son nouvel emplacement. Au lieu de cela, il prend une moyenne pondérée des points en fonction de la probabilité avec laquelle ils lui appartiennent. Donc, s’il n’y a que 3 points X, Y et Z et X et Y appartiennent à ce groupe avec une probabilité de 1,0 chacun et Z lui appartient avec une probabilité de 0,5, alors le nouvel emplacement du centroïde serait

_ (1,0 / 2,5) * X + (1,0 / 2,5) * Y + (0,5 / 2,5) * Z _

C’est ainsi que les centroïdes sont calculés à chaque itération.