сряда, 4 юли 2012 г.

Почистване на данни

Събирането на данни е станало повсеместна функция на големите организации не само за съхранение на документацията, но в подкрепа на различни аналитични задачи за данните, които са от решаващо значение за организационната мисия.
Въпреки важността за събиране и анализ на данните, качеството на данните остава широко разпространен и тежък проблем в почти всяка голяма организация. Наличието на неправилни или противоречиви данни може значително да изкриви резултатите от анализите, често се отричат потенциалните подвизи на информационно-ориентираните подходи. В резултат на това има различни изследвания през последните десетилетия по различни аспекти на за почистване данните : изчислителни процедури за автоматично или полуавтоматично идентифицират, и когато е възможно, поправят - грешки в големи обеми от данни.
Почистването на данни наричано още като и прочистване или изтъркване на  данните се занимава с откриване и отстраняване на грешки и несъответствия от данните с цел подобряването на качеството на данни. Проблемите свързани с качеството на данните са в единични колекции от данни, като например файлове и бази данни например, дължащи се на правописни грешки по време на въвеждане на информацията, липсващата информация или други невалидни данни.
Общата структура за почистване на данни е:
  • Дефиниране и определяне на видовете грешки;
  • Търсене и идентифициране на инстанциите на грешки;
  • Коригиране на грешките;
  • инстанции с документи на грешки и типовете грешки;
  • Модифициране на процедурите за въвеждане на информацията, за да се намалят бъдещите грешки.
Структура за почистване на данни

Източници на грешки 

Преди да достигнат в базата данни елементите от данни (информацията) обикновено преминават през определен брой стъпки, включващи едновременно човешкото взаимодействие и изчисления. Грешките в данните могат да се приплъзват при всяка стъпка от процеса от първоначалното получаване на данните до архивното съхранение. Разбирането на източниците за грешки в данните, може да бъде полезно както в проектирането на техники за набиране на данни и тяхното архивиране, които смекчават въвеждането на грешки, така и в разработване на подходящите техники за периода след почистване на данните за  откриване и облекчаване за грешки. Голяма част от източниците на грешки в базите данни попадат в една или повече от следните категории:
  • Грешки при въвеждането на данни: Все общо е  че повечето настройки за въвеждане на данни трябва да бъдат извършени от хора, които обикновено извличат информация от речта (например в центровете за телефонни разговори) или въвеждат данните ръчно или принтирани от източници. В тези настройки, данните често са повредени по време на въвеждането с печатни грешки или неяснотата на източника на данни. Друга много често срещана причина, че хората въвеждат "мръсни "данни във формуляри е да се предоставя това, което наричаме лъжлива почтеност: многото форми изискват определени полета да бъдат попълнени, и когато потребителят няма достъп до стойности за една от тези области (полета) , той често ще измисли стойност по подразбиране, която е лесно за въвеждане, или което ще им се струва че е типична стойност. Това често преминава през груби тестове за достоверността на данните , на системата за въвеждане на данни, като същевременно не оставя никаква следа в базата данни, че данните всъщност са безсмислени или подвеждащи.
  • Грешки в измерването: В повечето случаи данните са предназначени за измерване на някакъв физически процес в света: скоростта на превозното средство, размерът на населението, ръст на икономиката, и т.н. В някои случаи тези измервания се извършват чрез човешки дейности(процеси), които могат да имат грешки при тяхното проектиране (например неправилни проучвания или вземане на решения за стратегии) и изпълнение (например неправилното използване на инструменти). При измерването на физичните свойства, нарастващото разпространение на сензорната технология е довело до големи обеми от данни, които никога не са се обработвали чрез човешка намеса. Макар че, това предотвратява различни човешките грешки при придобиване и въвеждане на данни, грешките в данните са все още често срещано явление: човешкото проектиране на сензор за разгръщане (например подбор и поставянето на сензори), често се отразява на качеството на данните и повечето сензори са предмет на грешки, включително некалибрирането и интерференцията (смущенията) от непреднамерени сигнали.
Следва продължение...


неделя, 24 юни 2012 г.

Управление на качеството на данните (DataQualityManagement)

Измина доста време от последната ми публикация, но ето ме тук със следващата публикация, която е свързана с управление на качеството на данните или data quality management...

В следващите редове ще се опитам да обясня какво е управление на качеството на данните и самото качество на данните, което е подраздел на управлението.

Приятно Ви четене!


Управление на качеството на данните е процес на проследяване и анализиране в клиентски и бизнес сметки, като се гарантира, че е точна и актуална информацията. Това включва периодични актуализации и почистване за стара и остаряла информация, анализиране на данните, както и осигуряване с надеждни данни, разчитайки за управлението, интеграцията, и много повече. При управление на качеството на данните обикновено се следва структурата, описана по-долу:

Планиране на успешна стратегия

Основната стъпка в прилагането на истинско качество за управление на данните се осъществява чрез изпълнение и планиране на една успешна стратегия за миграция и управление на данните. Това зависи пряко от целостта на съществуващите данни и как те се консолидирани и организирани.
За съжаление, много системи за данни на големи компании са разхвърляни с информация и файлове, разпределени в няколко различни полето за данни, често пълни с дублиращи се или непълна документация. Внимателно подбиране обединяваща стратегия за управление на данни е задължително, ако вашата компания е организирана, всички процеси ще протичат гладко и по-бързо.

Изпълнителна миграция на данни (Data Migration) за CustomerRelationshipManagement или система за управление на взаимоотношенията с клиенти

Консолидирането, укрепването на данните в даден източник е една от най-важните стъпки, която фирмата трябва да вземе под внимание при управлението на качеството, където данните (информацията), са сгъчкани в система им. Много компании се борят с множество източници на данни, което може да отнеме ценно време и ресурси.
Ако екип работещ от разстояние с продажбите на даден продукт има различни данни от екип работещ в областта, нещата могат да излязат извън контрол. По този начин, при правилното прилагане на CRM може да помогне на компанията да разпределят своите данни ефективно, бързо и ефикасно, което дава възможност за по-голям успех и по-високо качество на данните.


Почистване и Де-дублиране на данни

Почистените и де - дублираните данни са данни, които са пречистени от допълнителни дразнения, като дублирани записи или съдържание, потребителски проблеми, дължащи се на непокътнати въпроси. Този аспект на данни за управление на качеството на CRM стратегия има за цел да ръководи компания, чрез процеса на почистване на данни, преди или след като са мигрирали от един източник в друг. Това води до по-ефективно, по-малко претрупана система, която е оптимална за потребителите и в крайна сметка повишава производителността.

Как данните за управление на качеството засягат CRM?

При управление на качеството на данните неразделна част от успеха на една силна стратегия е управление на ресурсите на екипажа, тъй като всички потребители на системата, от продажбите на сила персонал на изпълнителните директори и маркетинг екипи, имат достъп до същото качество на данните. Централен източник на квалифицирани данни се гарантира, всеки е на същата страница и знае какво става. Това води до по-ефективни продажби на екипа, добро обслужване на клиентите, ефективно управление на олово, и като цяло по-солидна, целенасочена програма по управление на ресурсите на екипа.


Колелото на управление на качеството на данните

вторник, 24 януари 2012 г.

Чували ли сте за управление на данни или data governance?

Предполагам, като видите управление на данни може да се замислите първоначално. И е нормално и на мен не ми вдъхва кой знае какво доверие, но ако ви кажа че става въпрос за стратегии и бизнес правила, които са свързани с управление на данните ви, за по - добро управление на фирмата или организацията, които използват или разполагат с огромно количество данни има вероятност да прочетете и по - надолу статията.:) 

Искам да отбележа, че някои термини нямат превод или не могът да се преведът смислено на български език и ми се налага да цитирам оригиналните им названия. 

Data governance (DG) или управление на данните (УД) не е някакво софтуерно или хардуерно решение на даден проблем, а е метод или по - точно казано стратегия, която изпълнява и документира бизнес правилата, контролирайки данните на организацията ви. 
УД се отнася изцяло за надеждността, сигурността, използваемостта на данните използвани в дадено предприятие или организация.
Както при проектирането на всяка стратегия или правило и при управлението на данни (УД) се съставя план за работа, вземане на решения и т.н. Различното е, обаче че при УД се съставят така наречените "работни процеси". 
УД процеси могат да бъдат афтоматизирани, използвайки информационните услуги изградени на базата на работния поток и разположени върху платформата за управление на данните.
Основните ключовите процеси са както следват:
  • процес за определяне на данните
  • процес за моделиране на данните 
  • процес за проучване (изследване) на данните
  • процес за картографиране (разпределяне) на данните
  • процес за анализиране на данните и създаване на профил
  • процес за качеството на данните
  • процес за обединяване (сглобяване) на данните
  • процес за обогатяване на данните
  • процес за осигуряване (провизиране) на данните
  • процес за управление (мониторинг) на данните
Първите 5 процеса са нужни за изграждането на добра стратегия при управлението на данни (DG). Тези процеси могат да бъдат афтоматизиране за платформата на DG.


По - горе споменатите процеси могат да бъдат групирани на пет категории, които формират кръг или цикъл с непрекъснато развиваща се методология.

Ето ви и една картинка :)

Methodology for data governance

Разглеждайки всяка стъпка поотделно може да се види в таблицата по - долу, че всеки процес асоциира с един или няколко процеса за управление на данни (data governance processes).










                                                            Модел на УД (DG)


Забележете, че "дефиниране" (Define) и "проучване" (Explorer) стъпките не са свързани с автоматизираните процеси ( runtime processes), понеже е необходима хората да дефинират enterprise master, transaction and metric данни, използвайки бизнес речника  "an enterprise shared business vocabulary" (SBV). 


Важна роля имат и участниците отговорни за управлението на данни DG : DG спонсорите, DG водещ, DG мениджърите, DG бизнес стюардите, информационните стюарди и собствениците на данни.
                            
                         Участници