Metodología De Evaluación Del Desempeño De Métodos De Imputación Mediante Una Métrica Tradicional Complementada Con Un Nuevo Indicador

  • Carlos Roberto Primorac Departamento de Informática, Universidad Nacional del Nordeste, Argentina
  • David Luís La Red Martínez Universidad Tecnológica Nacional, Facultad Regional Resistencia, Argentina
  • Mirta Eve Giovannini Universidad Tecnológica Nacional, Facultad Regional Resistencia, Argentina
Keywords: Amputación De Datos, Imputación De Datos, Evaluación De Desempeño De Métodos De Imputación

Abstract

Los valores faltantes (MV: Missing Values), valores no observados en el conjunto de datos (dataset), constituyen un obstáculo común que enfrentan investigadores en contextos del mundo real. Las técnicas de imputación de datos permiten estimarlos utilizando diferentes algoritmos, mediante los cuales se puede imputar una característica importante para una instancia en particular. La mayoría de los artículos publicados en este campo tratan sobre nuevos métodos de imputación, sin embargo, pocos estudios abordan la evaluación de los métodos existentes con el objeto de aportar pautas más adecuadas para la imputación de datos. El objetivo de este trabajo es mostrar una metodología de evaluación del desempeño de métodos de imputación mediante una métrica tradicional complementada con un nuevo indicador, basado en el promedio normalizado de la raíz cuadrada del error cuadrático medio (RMSE: Root Mean Squared Error). A partir de un conjunto de datos completo, se generaron 63 conjuntos de datos con MV. Estos fueron imputados mediante los métodos de imputación por medias, k-NN, k-Means y hot-deck. El desempeño de los métodos de imputación fue evaluado utilizando la métrica tradicional complementada con un nuevo indicador propuesto. Los resultados muestran que el error para el método de imputación k-Means es el más bajo considerando la totalidad de conjuntos de datos. El entorno de trabajo desarrollado para realizar los experimentos de amputación y posterior imputación resultó apropiado y permite la incorporación a futuro de otros mecanismos de amputación y otros métodos de imputación, siendo parte esencial de la metodología propuesta.

Missing Values (MV), values not observed in the dataset, constitute a common obstacle faced by researchers in real-world contexts. Data imputation techniques allow estimating them using different algorithms, through which an important characteristic can be imputed to a particular instance. Most of the articles published in this field deal with new imputation methods, however, few studies address the evaluation of existing methods in order to provide more appropriate guidelines for imputation of data. The objective of this work is to show a methodology for evaluating the performance of imputation methods using a traditional metric complemented with a new indicator, based on the normalized average of the Root Mean Squared Error (RMSE). From a complete data set, 63 data sets were generated with MV. These were imputed using the methods of imputation by means, k-NN, k-Means and hot-deck. The performance of the imputation methods was evaluated using the traditional metric complemented with a new proposed indicator. The results show that the error for the k-Means imputation method is the lowest considering all data sets. The work environment developed to perform the amputation and subsequent imputation experiments was appropriate and allows the incorporation of other amputation mechanisms and other imputation methods in the future, being an essential part of the proposed methodology.

Downloads

Download data is not yet available.
Published
2020-06-30
How to Cite
Primorac, C. R., Martínez, D. L. L. R., & Giovannini, M. E. (2020). Metodología De Evaluación Del Desempeño De Métodos De Imputación Mediante Una Métrica Tradicional Complementada Con Un Nuevo Indicador. European Scientific Journal, ESJ, 16(18), 61. https://doi.org/10.19044/esj.2020.v16n18p61
Section
ESJ Natural/Life/Medical Sciences