Etude data regroupement clustering k-mean Analyse en composante principale

DBM.Garel data-analyst python

Les données sont réparties sur 2 sets de données :

  • 1 fichier population 4411 lignes pour 15 colonnes
  • 1 fichier disponibilité alimentaire 176 600 ligne pour 14 colonnes


Le fichier disponibilité alimentaire comprend des éléments généraux en termes de tonnes de marchandises diverses, et leurs principaux usages. Le fichier population recense simplement la population de chaque pays sur une période de temps donnée. L’étude est chiffré uniquement sur 2017. Il s’agit d’identifier les pays à cibler pour la mise en production d’une chaine de restauration de poulet sous forme de liste de recommandation.

Observation des tendances et outliers

Application de la technique ACP principal component analysis en python

L’analyse en composante principale (PCA) est un technique mathématique qui réduit la dimensionnalité des données en transformant les variables originales en un ensemble de nouvelles variables non corrélées (composantes principales), tout en conservant autant que possible la variance totale des données.

l’algorythme K-mean a été développé pour constitué des clusters par méthode de regroupement non supervisée (sans étiquette), qui partitionne un ensemble de données en k clusters en minimisant la somme des carrés des distances entre les points de données et les centroïdes des clusters auxquels ils sont attribués.

K-mean a besoin qu’on lui indique le nombre de clusters au préalable. On utilise une méthode mathématique appelé méthode du coude pour visualiser le nombre de clusters à privilégier.

🇧🇸 🇧🇪 🇳🇱 🇨🇳

Il serait bienvenu d’approfondir les recherches avec les 4 pays du clusters 2 (atypiques).Ce sont les candidats déjà impliqués dans le commerce de poulet à grande échelles

🇧🇸 🇧🇪 🇳🇱 🇨🇳

Les pays du cluster 1, sont des cibles à explorer, puisqu’ils ont un bon début de développement. Cependant une approche orientée développement sera a privilégié. On pourrait envisager de créer un plan commercial d’envergure qui comprend toute la chaine de production en partenariat afin d’augmenter leur autonomie et leur flux commerciaux.

Les pays du cluster 0 sont clairement à éviter, par faiblesse de leur paramètres. On risque d’être confronté à de forts problèmes logistiques. Une étude plus approfondie prenant en compte la stabilité politique peu être faite pour faire un nouveau tri dans ces pays.

La data au service de la terre

Nous pouvons allier technologie et développement durable. Ensemble, développons durable.

Retour en haut