сряда, 4 юли 2012 г.

Почистване на данни

Събирането на данни е станало повсеместна функция на големите организации не само за съхранение на документацията, но в подкрепа на различни аналитични задачи за данните, които са от решаващо значение за организационната мисия.
Въпреки важността за събиране и анализ на данните, качеството на данните остава широко разпространен и тежък проблем в почти всяка голяма организация. Наличието на неправилни или противоречиви данни може значително да изкриви резултатите от анализите, често се отричат потенциалните подвизи на информационно-ориентираните подходи. В резултат на това има различни изследвания през последните десетилетия по различни аспекти на за почистване данните : изчислителни процедури за автоматично или полуавтоматично идентифицират, и когато е възможно, поправят - грешки в големи обеми от данни.
Почистването на данни наричано още като и прочистване или изтъркване на  данните се занимава с откриване и отстраняване на грешки и несъответствия от данните с цел подобряването на качеството на данни. Проблемите свързани с качеството на данните са в единични колекции от данни, като например файлове и бази данни например, дължащи се на правописни грешки по време на въвеждане на информацията, липсващата информация или други невалидни данни.
Общата структура за почистване на данни е:
  • Дефиниране и определяне на видовете грешки;
  • Търсене и идентифициране на инстанциите на грешки;
  • Коригиране на грешките;
  • инстанции с документи на грешки и типовете грешки;
  • Модифициране на процедурите за въвеждане на информацията, за да се намалят бъдещите грешки.
Структура за почистване на данни

Източници на грешки 

Преди да достигнат в базата данни елементите от данни (информацията) обикновено преминават през определен брой стъпки, включващи едновременно човешкото взаимодействие и изчисления. Грешките в данните могат да се приплъзват при всяка стъпка от процеса от първоначалното получаване на данните до архивното съхранение. Разбирането на източниците за грешки в данните, може да бъде полезно както в проектирането на техники за набиране на данни и тяхното архивиране, които смекчават въвеждането на грешки, така и в разработване на подходящите техники за периода след почистване на данните за  откриване и облекчаване за грешки. Голяма част от източниците на грешки в базите данни попадат в една или повече от следните категории:
  • Грешки при въвеждането на данни: Все общо е  че повечето настройки за въвеждане на данни трябва да бъдат извършени от хора, които обикновено извличат информация от речта (например в центровете за телефонни разговори) или въвеждат данните ръчно или принтирани от източници. В тези настройки, данните често са повредени по време на въвеждането с печатни грешки или неяснотата на източника на данни. Друга много често срещана причина, че хората въвеждат "мръсни "данни във формуляри е да се предоставя това, което наричаме лъжлива почтеност: многото форми изискват определени полета да бъдат попълнени, и когато потребителят няма достъп до стойности за една от тези области (полета) , той често ще измисли стойност по подразбиране, която е лесно за въвеждане, или което ще им се струва че е типична стойност. Това често преминава през груби тестове за достоверността на данните , на системата за въвеждане на данни, като същевременно не оставя никаква следа в базата данни, че данните всъщност са безсмислени или подвеждащи.
  • Грешки в измерването: В повечето случаи данните са предназначени за измерване на някакъв физически процес в света: скоростта на превозното средство, размерът на населението, ръст на икономиката, и т.н. В някои случаи тези измервания се извършват чрез човешки дейности(процеси), които могат да имат грешки при тяхното проектиране (например неправилни проучвания или вземане на решения за стратегии) и изпълнение (например неправилното използване на инструменти). При измерването на физичните свойства, нарастващото разпространение на сензорната технология е довело до големи обеми от данни, които никога не са се обработвали чрез човешка намеса. Макар че, това предотвратява различни човешките грешки при придобиване и въвеждане на данни, грешките в данните са все още често срещано явление: човешкото проектиране на сензор за разгръщане (например подбор и поставянето на сензори), често се отразява на качеството на данните и повечето сензори са предмет на грешки, включително некалибрирането и интерференцията (смущенията) от непреднамерени сигнали.
Следва продължение...