Zarządzanie jakością danych w erze AI kluczem do sukcesu przedsiębiorstw

Podczas Data Economy Congress porozmawiacie Państwo o znaczeniu zarządzania danymi oraz roli zarządzania jakością danych? Czym jest jakośċ danych - ich kompletność, aktualność, spójność i wiarygodność? I dlaczego w obecnych czasach jakość danych jest tak istotna?

Jakość danych i zarządzanie jakością danych to bardzo ważny temat, cieszę się, że w czasie ogromnego zainteresowania i ekscytacji technologią AI i GenAI znalazła się w agendzie DEC przestrzeń na rozmowę o zarządzaniu jakością danych. Dane wysokiej jakości to dane, które posiadają wszystkie wymienione w pytaniu cechy, ale nie tylko. Dziś dane wysokiej jakości to dane dostępne, często w czasie rzeczywistym (real time) albo bliskie czasowi rzeczywistemu (near real time). Także posiadające określone znaczenie biznesowe, pozwalające na wykorzystanie danych w procesach przedsiębiorstwa. W końcu dane wysokiej jakości muszą być "znajdowalne" i możliwe do wykorzystania - bo trudno mówić o jakości danych, kiedy nie wiemy, że istnieją lub, których nie możemy wykorzystać.

A dlaczego jakość danych jest tak istotna obecnie? Nie tylko ilość danych, ale i liczba modeli wykorzystujących te dane rośnie w ogromnym tempie. Idąc dalej, rośnie złożoność modeli, liczba wykorzystywanych zmiennych. Mówimy o setkach modeli i tysiącach zmiennych w skali każdej firmy. Jakość tych modeli i aplikacji zależy najczęściej od jakości danych je zasilających, wykorzystywanych do treningu i przygotowania produkcyjnego. W efekcie niska jakość danych może powodować przeuczenie się modeli, a w efekcie ich niewłaściwe działanie. Pamiętajmy, że te modele nie mają znaczenia teoretycznego, a wykorzystywane są w wielu procesach biznesowych, także na styku z klientem - przygotowując ofertę, decyzję biznesową, cenę, odpowiedź na reklamację itd. A więc od jakości danych zależy jakość działania przedsiębiorstwa, a także doświadczenie jego klientów. To sprawia, że jakość danych ma znaczenie fundamentalne!

Czy biorąc pod uwagę powyższe, rola jakości danych jest właściwie rozumiana przez biznes, czy inwestycje w jakość danych są wystarczające? I jak na rosnącą potrzebę zapewnienia jakości danych reagują regulatorzy?

Zacznę od pozytywów. Na pewno świadomość znaczenia jakości danych rośnie w czasie, choć zależy to także od branży i sektora. W szczególności nowe technologie, takie jak AI i GenAI, pobudziły wyobraźnię co do możliwości zaawansowanej analityki i niejako zmotywowały do strategicznej koncentracji na danych. Niestety, często motywacja ta ukierunkowana jest dość wąsko, na platformy technologiczne i budowę nowych rozwiązań na istniejących danych, często niskiej jakości. Niewiele widzę przykładów, gdzie transformacja biznesowa oparta o analitykę wspierana jest przez nowoczesny data governance i dofinansowane rozwiązania zarządzania jakością danych.

Tymczasem niska jakość danych to istotne ryzyko, które dodatkowo zauważył regulator - uchwalony niedawno przez Komisję Europejską "AI Act" przywiązuje ogromną wagę do kwestii jakości danych - ich transparentności i odporności. Bez spełnienia tych warunków firmy będą mogły stosować AI w bardzo ograniczonym zakresie. Myślę, że to dobry kierunek, który wymaga od wielu przedsiębiorstw doinwestowania obszaru jakości danych.

Jak wygląda proces identyfikacji problemów z danymi i przygotowania ich, aby mogły zostać właściwie wykorzystane przez przedsiębiorstwa?

Zacznę od tego, jak wygląda proces identyfikacji danych. W dojrzałych pod względem data governance przedsiębiorstwach dane są skatalogowane, dostępne w katalogu danych. U liderów w tej kategorii dostęp do danych możliwy jest przez "marketplace", a sproduktyzowane dane są kompletnie opisane i dostępne do użycia.

Jakość danych monitorowana jest na wielu etapach, najczęściej jednak na końcu procesu, blisko ostatecznego sposobu wykorzystania danych. Problemy z danymi mogą być identyfikowane reaktywnie, w efekcie wykorzystania złej jakości danych lub proaktywnie w postaci monitoringu danych i analizy anomalii. Także do monitoringu jakości danych wykorzystywane są technologie AI.

W mojej ocenie, niezależnie od procesu monitoringu danych i narzędzi do tego wykorzystywanych, kluczowe znaczenie dla zapewnienia jakości i zapobiegania problemom ma właścicielstwo danych. Jeśli w przedsiębiorstwie jest silne właścicielstwo biznesowe, połączone z produktyzacją danych (właściciel jest odpowiedzialny za produkty danych wykorzystywane w przedsiębiorstwie) oraz ich platformizacją, to wówczas zapewnienie jakości danych do procesów biznesowych jest o wiele łatwiejsze.

Jakie są główne możliwości i wyzwania dla banków w zakresie wykorzystania uczenia maszynowego? Jakie kroki powinny podjąć, by wykorzystać ten potencjał?

Zajmuję się zarządzaniem danymi, zarządzaniem jakością danych, ale też ich analityką od wielu lat. Jestem optymistą i uważam, że dane mają ogromny potencjał, a ich wykorzystanie będzie niebawem największym źródłem przewag konkurencyjnych, właściwie niezależnie od branży. Możliwości wykorzystania ML, AI, GenAI są ogromne, jednocześnie w firmach potrzeba więcej ludzi nie tylko zdolnych do budowy modeli, ale też do biznesowego definiowania przypadków użycia, projektowania rozwiązań opartych o dane.

Gdzie widzę największe wyzwania? Może kogoś zaskoczę, ale nie w technologii. Technologie zarządzania danymi, platformy danych, technologie streamingowe, rozwiązania data governance - takie jak katalogi danych - dostępne są powszechnie, często w modelu as a Service, co ułatwia ich testowanie i wdrażanie. Największe wyzwania widzę dziś w pragmatycznym zapewnieniu wysokiej jakości i transparentności danych. Biorąc pod uwagę, że coraz więcej modeli nie jest wyjaśnialnych, a jedynie interpretowalnych, jedyny sposób na udowodnienie należytej staranności przedsiębiorstwa, w przypadku niewłaściwego działania modelu, to udowodnienie wysokiej jakości danych wsadowych. Nie mając katalogu danych, dobrze udokumentowanych danych, monitoringu wysokiej jakości danych u źródła - moim zdaniem nie będzie to możliwe. Kluczowy będzie tu jednak pragmatyzm, niemożliwe jest udokumentowanie wszystkich danych wykorzystywanych w przedsiębiorstwie - produktyzacja i zarządzanie jakością powinny mieć charakter progresywny, obejmować kolejne dane wraz z ich wykorzystaniem biznesowym.

Drugie wyzwanie to zapewnienie procesów zarządzania jakością i odpornością dla modeli analitycznych, AI i GenAI. Ogromna złożoność dzisiejszych modeli, zasilających je danych, zmienna infrastruktura, ale i procesy samo-uczenia się powodują, że modele powinny być przedmiotem ciągłego monitoringu i zarządzania - czy są bezpieczne w kontekście cyber-zagrożeń, czy ich architektura i budowa są właściwe względem wykorzystania biznesowego, czy jest znane ryzyko braku działania lub błędnego działania modelu i czy na te okoliczności są przygotowane scenariusze działania.

W PwC wspieramy naszych Klientów w stawieniu czoła obu tym wyzwaniom - budujemy nowoczesny data governance, bazując na koncepcji data mesh oraz definiujemy i realizujemy procesy data resiliency, zapewniające im nie tylko zgodność regulacyjną, ale przede wszystkim pewność, że ich dane pracują bezpiecznie, pozwalając skupić się na efektach biznesowych. Moja praktyka pokazuje, że zaangażowanie Biznesu już w początkowej fazie wprowadzania zmian w zarządzaniu jakością danych i skupienie wysiłków budowy nowego data governance przy okazji pracy nad rozwiązaniami i przypadkami użycia, posiadającymi jasne efekty biznesowe jest kluczowym czynnikiem sukcesu.

Rozmowa została zrealizowana w ramach 3. Data Economy Congress, który odbędzie się 25-26 marca 2024 r. w hotelu The Westin Warsaw. Szczegóły na: https://dataeconomycongress.pl/

Materiał sponsorowany przez MMC Polska

dane

przedsiębiorstwo

Oceń jakość naszego artykułu:

Twoja opinia pozwala nam tworzyć lepsze treści.