Zaufaj danym! Ale wpierw oddziel je od mitów i legend

Zagadnienia jakości danych traktowane były początkowo jako elementy projektów informatycznych i utożsamiane z działaniami natury czysto technologicznej, informatycznej, bez żadnej strategii. Zarówno projektanci systemów informatycznych, jak i użytkownicy nie przywiązywali należytej uwagi do jakości danych, jakości procesów gromadzenia, przechowywania i wykorzystania informacji. Z czasem, w wyniku podejmowania wielu prób kompleksowego zajęcia się tym zjawiskiem wykrystalizowała się potrzeba zarządzania jakością danych jako stały element procesów zarządczych.

W ostatnim roku  zagadnienie jakości danych w firmach zyskało nowego sojusznika w postaci informatyzującej się administracji skarbowej, cyfrowego fiskusa, który skupia się na analizie danych od podatnika i jego otoczenia. Niewłaściwie przygotowane, gromadzone, przetwarzane i raportowane dane stały się poważnym źródłem ryzyk dla firm i ich zarządów.

 

Przystępując do budowania strategii zarządzania jakością danych należy najpierw obalić mity związane ze złą, niewystarczającą jakością danych wykorzystywanych w procesach biznesowych i podatkowych.

Dlaczego tyle mitów narosło wokół jakości danych i czy można jakoś odczarować te “legendy”?

 

                 
“Nie mamy problemów z jakością danych, gdybyśmy je mieli, nasz biznes nie szedłby tak dobrze jak dotychczas.” Organizacje często są w negacji do swoich problemów operacyjnych, a przynajmniej nie utożsamiają ich z niską jakością danych. Nieświadomość wpływu niskiej jakości kluczowych danych na biznes utrwala tylko status quo, nie rozwiązując wszakże problemów.
Ludzie uznając, że ich dane nie są w porządku, znajdują sposoby aby wyjaśnić przyczyny takiego stanu – błędy przy wprowadzaniu, złożoność systemów źródłowych itd. Ale są też przekonani, że ich problemy z danymi nie mogą być przecież takie przyziemne, musi być jakaś generalna przyczyna. Ocena jakości danych staje się upartym dążeniem do znalezienia jednego “przestępcy”. Zaczyna się “polowanie” na jedną przyczynę, która wyjaśni wszystkie problemy, zamiast zrozumieć proces, który tworzy dane oraz czynniki, które przyczyniają się do powstawania nieprawidłowości.
Problemy jakości danych wiążą się bezpośrednio z ustaleniem właścicielstwa danych – nie da się jednoznacznie ustalić właścicielstwa danych bo potencjalnych interesariuszy jest wielu, a danych jest bardzo dużo. Właścicielstwo danych urasta do rangi “świętego grala” w procesach eliminacji błędów. Tymczasem wiedza ta w żaden sposób nie eliminuje problemów jakości danych, co najwyżej przyczynia się do uświadomienia, że nie ma jednego winowajcy, a w najlepszym przypadku – do zahamowania narastania błędów jakości.
Zaawansowane walidacje i triggery w systemach gromadzących dane rozwiążą problemy z jakością danych Wprowadzanie coraz bardziej restrykcyjnych triggerów i zabezpieczeń zwykle prowadzi do jeszcze większego zaśmiecania danych, przez co stają się całkowicie bezużyteczne.
“Powołajmy projekt Data Cleansing – to rozwiąże nam problemy z jakością danych raz na zawsze.” Jednorazowe projekty czyszczenia danych, nawet te najbardziej rozbudowane I kosztowne nie rozwiązują problemów raz na zawsze, ponieważ eliminują skutki, a nie przyczyny. Zwykle po zakończeniu projektów Data Cleansing problemy z jakością danych stopniowo powracają, czasem powracają z jeszcze większą siłą, ponieważ ludzie zaangażowani w czyszczenie danych wiedzą już jak „oszukiwać” standardy jakości danych i reguły walidacji.
“Wszystkie dane są potrzebne, nawet te błędne, nie możemy sobie pozwolić na usuwanie danych.” Stopień zanieczyszczenia danych determinuje ich przydatność. Należy dogłębnie ocenić, czy dane, nawet te błędne zawierają przydatną informację. Jeśli nie niosą z sobą żadnej wartości informacyjnej, to po co je przechowywać? Brak danych jest lepszy niż błędne dane!
“Potrzebujemy coraz większej ilości danych, aby budować zaawansowane raporty i narzędzia analityczne.” Zwykle na potrzeby raportów i analiz wykorzystywana jest niewielka część wszystkich zasobów informacyjnych. Niektóre dane gromadzone są na wszelki wypadek, a nuż się kiedyś przydadzą. W efekcie następuje ich stopniowa degradacja, aż stają się całkowicie nieprzydatne.

Organizacja nie potrzebuje niezliczonych ilości danych, ale danych wiarygodnych.

“Zbyt dużo danych gromadzimy, nie da się nad nimi wszystkimi zapanować.” A czy trzeba panować nad wszystkimi danymi, czy tylko tymi, które są użyteczne i wymaganew procesach zarządczych?

Poprawnie zaprojektowana architektura informacyjna pozwala efektywnie wykorzystywać wszystkie gromadzone dane, a dogłębna wiedza o jakości i profilu danych pozwala oszacować ich przydatność w procesach raportowych i zarządczych.

Historii nie da się naprawić Nie zawsze dane historyczne muszą być naprawione. Najczęściej błędy historyczne wpływają jedynie na spójność danych historycznych i bieżących. Jednakże przydatność danych historycznych bywa z reguły znacznie mniejsza niż danych najnowszych.
Należy wyeliminować wszystkie błędne rekordy, bo zakłócają wyniki analizy Takie podejście rodzi duże ryzyko popełnienia jeszcze większych błędów objawiających się brakiem kompletności I utraty cennych danych.
“Wszystkie błędy danych powinny być poprawione, 100% danych musi być bezbłędne.” Nakłady poniesione na wyeliminowanie wszystkich błędów z reguły są znacznie większe niż korzyści z tego płynące. O wiele cenniejsza jest rzetelna wiedza o jakości danych w myśl zasady: “We know, we are not perfect, but we know how imperfect we are.”

 

Dane najświeższe/najnowsze są najbardziej wiarygodne i ich należy bezwzględnie używać Bardzo często nowe dane są wprowadzane niedbale, niewłaściwie gromadzone i przetwarzane. To sprawia, że systematycznie pogarsza się nie tylko jakość danych, ale także ich wartość informacyjna i reputacja, która determinuje wykorzystanie danych w procesach raportowych i zarządczych.
Dane o niskiej reputacji tracą na wartości i stają się nieużyteczne. Błędne koło, bo skoro dane stają się nieużyteczne, to nie warto ich naprawiać i można je “bezkarnie” zaśmiecać. Po co zatem je gromadzić?
“Potrzebujemy danych historycznych najwyższej jakości, co najmniej sprzed 5 lat.” Wieloletnie obserwacje wykorzystania danych utwierdza mnie w przekonaniu, że ok. 85% analiz i raportów jest wykonywana w oparciu o dane z ostatniego miesiąca, 10% to analizy w oparciu o dane z ostatniego roku, a pozostałe 5%, to analizy obejmujące więcej niż jeden rok.
Eliminacja błędów jakości danych jest trudna i długotrwała, a efekty niewspółmierne do poniesionych nakładów. Dogłębna analiza i ocean jakości danych jest niezbędnym elementem podejmowania wszelkich inicjatyw Data Cleansing. Wykorzystanie nawet najprostrzych narzędzi analizy i profilowania danych pozwala szybko i sprawnie skategoryzować problemy z jakością danych i podjąć decyzje o automatycznym lub ręcznym czyszczeniu danych. Takie podejście zdecydowanie upraszcza i uwiarygadnia procesy czyszczenia. Jednak najważniejsza jest systematyka i konsekwencja w działaniu.
Można motywować …lub zmusić ludzi wprowadzających dane, aby poprawiali błędy, które wcześniej popełnili. Włączenie elementów czyszczenia danych do systemów motywacyjnych poprawi ich jakość. To bardzo ryzykowne założenie, ponieważ nieumiejętne skonstruowanie takiego systemu motywacyjnego zwykle prowadzi do wypaczeń: ludzie przestaną robić biznes, a zaczną czyścić dane kiedy zauważą, że bardzie im się to opłaci.

 

Czym zatem jest JAKOŚĆ DANYCH?

Dlaczego tyle mitów narosło wokół jakości danych I czy można odczarować te “legendy”?

Czy warto inwestować w narzędzia do zarządzania jakością danych?

Jakich technik i narzędzi użyć?

Jak zbudować i wdrożyć skuteczną strategię zarządzania jakością danych?

Na te pytania, jak również inne, związane z zagadnieniami Data Governance, Data Quality, Master Data Management, odpowiedzą eksperci BI Insight podczas konferencji Klubu Dyrektorów Finansowych „Dialog” 15.01 na warszawskiej Giełdzie Papierów Wartościowych „Biznes 4.0 według CFO – emocje, inteligencja, prawo i rynek w cyfrowych czasach”. Pełny program i link do rejestracji znajduje się w serwisie KDF Dialog https://kdfdialog.org.pl/wydarzenie/kdfdialog-warszawa-15012020/