Fundamentos de la depuración de los datos por la limpieza Shawn Deny

datos o limpieza es thecorrection de los datos que no se ajusta al formato de juego de la serie orrecord base de datos, que también se conoce como la suciedad o los datos gruesos. Esto se puede hacer byeither eliminar datos incorrectos (o una limpieza estricta), o modificar incorrectentries que coincide con entradas correctas (o una limpieza difusa). De esta manera, se mantiene thehomogeneity de registros en la base de datos, y los errores de hecho whileprocessing los datos se reducen al mínimo. La limpieza de datos es diferente de datavalidation, que es también un método de (normalmente) el rechazo de entradas incorrectas, pero sobre todo se produce en el momento de la entrada de datos. La limpieza se realiza en una base de datos existente entriesin.

La limpieza se realiza normalmente byremoving errores tipográficos, o validar contra registros correctos. Porejemplo, un número de teléfono no puede contener cualquier letra, y si una entrada por ACustomer en un formulario en línea no contiene el código de área, a continuación, el código puede beadded si se conoce la ubicación del cliente. Del mismo modo, los registros pertinentes quizá adjuntan juntos, como los números de teléfono y direcciones, o rollnumbers universitarios con nombres de departamentos y grupos de edad.

datos secundarios en un company'sdatabase, tales como direcciones de correo electrónico incorrecta o números de teléfono, puede llegar a bedetrimental al desempeño de la empresa, ya que puede dar lugar a órdenes incorrectlyplaced, el envío de correo a las personas equivocadas, incapacidad para ponerse en contacto con ACustomer, y varios problemas de inventario, como ordena la quantityfrom mal la fábrica o calcular mal cheques de los empleados. Del mismo modo, en las bases de datos nationalcitizenship, datos incorrectos pueden resultar en encuestas inexactos, whichwill conducen a políticas económicas erróneas con respecto a la asistencia sanitaria, la educación andinfrastructure .

Si bien la limpieza de datos, parámetros thefollowing son examinadas: .

· Validez, que es el grado en que los datafollows las reglas de la base de datos, como la longitud, tipo de datos y expressionpatterns

· completitud y precisión. Los datos precisos debe beas cerca del valor "verdadero". Mientras que el 100% exacto difícil obtener, que canbe hecho por referencias cruzadas, como el uso de códigos de barras y namestogether producto para comprobar el precio .

· La consistencia y uniformidad, que comprueba si thesame datos se representan de la misma manera a través de diferentes bases de datos. Porejemplo, si la unidad de peso se fija como kilos, entonces no debería ser libras inanother conectados base de datos.

Por supuesto, hay severalproblems con el intento de corregir todos los datos, el más común de los cuales isthe la eliminación de los datos y la pérdida de información. Por ejemplo, en un intento de fitaddresses en un formato establecido, ningún detalle que se habría demostrado ser morehelpful se escinden, resultando en un difíciles de localizar al cliente. Buena calidad de software de limpieza de datos, como la que fromDataTools, deben tener en cuenta que los detalles importantes de los datos se notremoved por el bien de procesamiento rápido y eficaz .