Vimalkumar B Vaghela, Kalpesh H Vandra et Nilesh K Modi
Aujourd'hui, les données sont stockées dans des structures relationnelles. Dans l'approche habituelle pour exploiter ces données, nous utilisons souvent la jonction de plusieurs relations pour former une seule relation à l'aide de liens de clé étrangère, ce qui est connu sous le nom d'aplatissement. L'aplatissement peut entraîner des problèmes tels que la perte de temps, la redondance des données et l'asymétrie statistique des données. Par conséquent, des problèmes critiques se posent quant à la manière d'exploiter directement les données sur de nombreuses relations. La solution au problème donné est l'approche appelée exploration de données multi-relationnelles (MRDM). D'autres problèmes sont que les attributs non pertinents ou redondants dans une relation peuvent ne pas contribuer à la précision de la classification. Ainsi, la sélection des caractéristiques est une étape essentielle de prétraitement des données dans l'exploration de données multi-relationnelles. En filtrant les caractéristiques non pertinentes ou redondantes des relations pour l'exploration de données, nous améliorons la précision de la classification, obtenons de bonnes performances temporelles et améliorons la compréhensibilité des modèles. Nous avons proposé la méthode de sélection de caractéristiques basée sur l'entropie pour le classificateur bayésien naïf multi-relationnel. Nous avons utilisé la méthode InfoDist et les paramètres de corrélation de Pearson, qui seront utilisés pour filtrer les fonctionnalités non pertinentes et redondantes de la base de données multi-relationnelle et amélioreront la précision de la classification. Nous avons analysé notre algorithme sur l'ensemble de données financières PKDD et avons obtenu une meilleure précision par rapport aux méthodes de sélection de fonctionnalités existantes.