Imbalanced data et Machine Learning : tout savoir
L'une des difficultés les plus récurrentes chez les algorithmes de Deep Learning et de Machine Learning est relative aux données déséquilibrées. Elles sont extrêmement courantes dans les données réelles, notamment dépistage du cancer, détection de fraudes, précision de problèmes financiers... La plupart de ces situations sont généralement difficiles à prévoir. D'où l'importance des données déséquilibrées dont la mission consiste à les traiter grâce à diverses méthodes.
Données déséquilibrées : de quoi s'agit-il ?
Dans la langue de Shakespeare, elles sont connues sous l'appellation de Imbalanced data. Lire davantage sur imbalanced data ou données déséquilibrées. Les données déséquilibrées, puisque c'est de ça qu'il s'agit, sont une situation malencontreuse très remarquée dans les modèles de classification, en l'occurrence : La classification binaire (détection d'une maladie), La classification multi-classes (prédiction du modèle de voiture acheté), La plus facile d'appréhension et susceptible de s'étendre aisément au multi-classes est la classification binaire. Avec elle, il y aura données déséquilibrées du moment où les deux classes présentent une fréquence de données variée, avec une diversité de ratio (absence d'égalité de ratio). Mais dans la phase pratique, les données ne sont déséquilibrées que dans la mesure où la ratio est supérieur à 10%/90%.
Quels problèmes posent les données déséquilibrées ?
Nombreux sont les problèmes que posent les données de classification qui varient d'un modèle à l'autre. Prenant l'exemple du modèle à base d'arbres, des réseaux neurologiques et des modèles linéaires, ces problèmes peuvent s'illustrer plus cruciaux dans un cas qu'un autre. Cependant, on pourra se focaliser sur le modèle à base d'arbres qui demande une attention particulière aux arbres de décision comme les CART et leurs niveaux d'avancement. Et ce, grâce à des méta-algorithmes de Bagging et au Boosting. La particularité de ce modèle est qu'en face de données déséquilibrées, il possède un itinéraire faible et une forte variance.