Classification automatique des articles e-commerce

Présentation du Projet

Ce projet vise à automatiser l’attribution des catégories de produits sur une marketplace e-commerce en exploitant à la fois les images et les descriptions textuelles des articles. Actuellement, cette classification est effectuée manuellement, ce qui est chronophage et sujet aux erreurs. L’objectif est de démontrer la faisabilité d’une approche basée sur l’intelligence artificielle pour classer efficacement les articles en fonction de leurs caractéristiques visuelles et textuelles.

Pour cela, plusieurs techniques de traitement d’image et de traitement du langage naturel (NLP) ont été mises en œuvre afin d’extraire des caractéristiques pertinentes et d’entraîner des modèles de classification. L’étude comprend également l’intégration de données externes via une API pour enrichir l’analyse et améliorer la précision des résultats.

Les points clés

Algorithmes et méthodologies utilisées

Le projet repose sur des algorithmes avancés de machine learning et deep learning :

🔹 Traitement des images

  • Extraction de caractéristiques visuelles :
    • Méthodes classiques : SIFT, ORB
    • Deep Learning : CNN pré-entraîné (VGG16) en Transfer Learning
  • Classification supervisée :
    • Modèle CNN (Convolutional Neural Network) avec data augmentation pour améliorer la robustesse du modèle.

🔹 Traitement du texte

  • Représentation du texte :
    • Méthodes classiques : Bag-of-Words, TF-IDF
    • Word Embeddings : Word2Vec, BERT, Universal Sentence Encoder (USE)
  • Réduction de dimensions et clustering :
    • PCA (Analyse en Composantes Principales)
    • t-SNE pour la visualisation des regroupements

🔹 Extraction de données externes

  • Requêtes API OpenFoodFacts pour collecter des informations supplémentaires sur les produits (catégorie, ingrédients, valeurs nutritionnelles).

Fonctionnalités du projet

Analyse exploratoire des données : étude des images et des descriptions pour identifier les meilleures approches de classification.

Prétraitement des données : nettoyage des descriptions textuelles et transformation des images en format exploitable.

Extraction de caractéristiques multimodales : fusion des caractéristiques textuelles et visuelles pour améliorer la classification.

Classification automatique des articles : entraînement d’un modèle CNN permettant de prédire la catégorie des produits.

Intégration de données externes via API : récupération d’informations additionnelles sur les articles pour améliorer la catégorisation.

Visualisation des résultats : projection des articles en 2D avec t-SNE pour observer les regroupements.

Points forts du projet :

Approche multimodale : combinaison du NLP et de la vision par ordinateur pour une classification plus robuste.

Réduction des erreurs humaines : remplacement d’un processus manuel fastidieux par une IA fiable et performante.

Utilisation de modèles pré-entraînés : optimisation du temps d’apprentissage grâce au Transfer Learning.

Enrichissement des données : intégration de l’API OpenFoodFacts pour apporter des informations complémentaires.

Généralisation possible : l’algorithme peut être adapté à d’autres types de marketplaces et de produits.

Applications potentielles

🔹 Marketplaces e-commerce : automatisation de la classification des produits sur des plateformes comme Amazon, eBay, Shopify.

🔹 Gestion d’inventaire : amélioration du catalogage des articles dans les bases de données des grandes enseignes.

🔹 Systèmes de recommandation : amélioration des suggestions de produits grâce à une meilleure compréhension des catégories.

🔹 Analyse concurrentielle : exploitation de l’API OpenFoodFacts pour surveiller les tendances et comparer les produits similaires.

🔹 Secteur agroalimentaire : enrichissement des bases de données produits avec des informations nutritionnelles pour faciliter le tri et la catégorisation des aliments.


Ce projet illustre comment l’IA peut révolutionner le commerce en ligne en réduisant le temps et l’effort nécessaires à la gestion des produits tout en améliorant la précision de la classification.