Wielowymiarowa reprezentacja danych. Ogólny schemat organizacji hurtowni danych

Charakterystyka systemu OLTP Duży wolumen informacji Często różne bazy danych dla różnych działów Znormalizowany schemat, brak powielania informacji Intensywne zmiany danych Transakcyjny tryb działania Transakcje wpływają na małą ilość danych Przetwarzanie bieżących danych - migawka Wielu klientów Krótki czas reakcji - kilku sekundy Charakterystyka systemu OLAP Duża ilość informacji Zsynchronizowane informacje z różnych baz danych przy użyciu wspólnych klasyfikatorów Nieznormalizowany schemat bazy danych z duplikatami Dane zmieniają się rzadko, zmiana następuje poprzez ładowanie wsadowe Złożone zapytania ad hoc są wykonywane na dużych ilościach danych z szerokim wykorzystaniem grupowania i funkcje agregujące. Analiza zależności czasowych Mała liczba pracujących użytkowników - analityków i menedżerów Dłuższy czas odpowiedzi (ale nadal akceptowalny) - kilka minut

Reguły Codda dla relacyjnych baz danych 1. Reguła informacyjna. 2. Zasada gwarantowanego dostępu. 3. Reguła obsługi nieprawidłowych wartości. 4. Reguła katalogu dynamicznego oparta na modelu relacyjnym. 5. Zasada wyczerpującego podjęzyka danych. 6. Wyświetl regułę aktualizacji. 7. Zasady dodawania, aktualizowania i usuwania. 8. Zasada niezależności danych fizycznych. 9. Zasada niezależności danych logicznych. 10. Zasada niezależności warunków integralności. 11. Zasada niezależności podziału. 12. Zasada niepowtarzalności.

Reguły Codda dla OLAP 1. Konceptualna reprezentacja wielowymiarowa. 2. Przejrzystość. 3. Dostępność. 4. Stała wydajność w opracowywaniu raportów. 5. Architektura klient-serwer. 6. Ogólna wielowymiarowość. 7. Kontrola dynamiczna rzadkie matryce. 8. Obsługa wielu użytkowników. 9. Nieograniczone operacje krzyżowe. 10. Intuicyjna manipulacja danymi. 11. Elastyczne opcje otrzymywania raportów. 12. Nieograniczony wymiar i ilość poziomów agregacji.

Implementacja OLAP Rodzaje serwerów OLAP - MOLAP (Multi Dimension OLAP) - zarówno dane szczegółowe, jak i agregaty przechowywane są w wielowymiarowej bazie danych. ROLAP (Relational OLAP) – szczegółowe dane przechowywane są w relacyjnej bazie danych; agregaty przechowywane są w tej samej bazie danych w specjalnie utworzonych tabelach usług. HOLAP (Hybrid OLAP) – szczegółowe dane przechowywane są w relacyjnej bazie danych, a agregaty w wielowymiarowej bazie danych.

Cechy ROLAP – schemat gwiazdy 1. Jedna tabela faktów, która jest silnie zdenormalizowana 2. Kilka tabel wymiarów, które również są zdenormalizowane 3. Klucz podstawowy tabeli faktów jest złożony i ma jedną kolumnę dla każdego wymiaru 4. Przechowywane są zagregowane dane razem z oryginałem. Wady Jeżeli agregaty przechowywane są razem z danymi źródłowymi, wówczas w pomiarach konieczne jest wykorzystanie dodatkowy parametr– poziom hierarchii

Struktura pamięci w ORACLE DBMS Klient SQL Klient MOLAP Java API JDBC OCI ODBC OLE DB Magazyn OLAP (BLOB w tabeli relacyjnej) Schemat gwiazdy Rejestracja metadanych Wielowymiarowy rdzeń (proces w rdzeniu ORACLE) OLAP DML Interfejs SQL do OLAP (DBMS_AW, OLAP_TABLE , ... ) Wielowymiarowe metadane

magazyn danych powstają na podstawie danych zarejestrowanych w długim okresie czasu migawki operacyjne bazy danych System informacyjny i być może różne źródeł zewnętrznych. Hurtownie danych wykorzystują technologie baz danych, OLAP, głęboką analizę danych i wizualizację danych.

Główne cechy hurtowni danych.

zawiera dane historyczne;
przechowuje szczegółowe informacje, a także częściowo i całkowicie podsumowane dane;
dane są w większości statyczne;
doraźny, nieustrukturyzowany i heurystyczny sposób przetwarzania danych;
średnia i niska intensywność przetwarzania transakcji;
nieprzewidywalny sposób wykorzystania danych;
przeznaczone do analizy;
skupiony na obszary podlegające;
wsparcie podejmowania decyzji strategicznych;
obsługuje stosunkowo niewielką liczbę pracowników zarządzających.

Terminem OLAP (On-Line Analytical Processing) określa się model prezentacji danych i co za tym idzie technologię ich przetwarzania w hurtowniach danych. OLAP wykorzystuje wielowymiarową reprezentację zagregowanych danych szybki dostęp strategicznie ważna informacja w celu dogłębnej analizy. Aplikacje OLAP muszą mieć następujące podstawowe właściwości:

wielowymiarowy Prezentacja danych;
wsparcie dla skomplikowanych obliczeń;
prawidłowe uwzględnienie czynnika czasu.

Zalety OLAP-u:

awans wydajność pracownicy produkcyjni, programiści programy użytkowe. Terminowy dostęp do informacji strategicznych.
zapewnienie użytkownikom wystarczających możliwości wprowadzania własnych zmian w schemacie.
Aplikacje OLAP polegają na magazyn danych i systemów OLTP, otrzymując od nich aktualne dane, co pozwala na ich zapisywanie kontrola integralności dane korporacyjne.
zmniejszenie obciążenia systemów OLTP i magazyn danych.

OLAP i OLTP. Charakterystyka i główne różnice

OLAP	OLTP
Magazyn danych powinny obejmować zarówno wewnętrzne dane korporacyjne, jak i dane zewnętrzne	głównym źródłem informacji wchodzących do operacyjnej bazy danych jest działalność korporacji, a analiza danych wymaga zaangażowania zewnętrznych źródeł informacji (np. raportów statystycznych)
Objętość baz analitycznych jest co najmniej o rząd wielkości większa niż objętość baz operacyjnych. do prowadzenia rzetelnych analiz i prognoz w magazyn danych trzeba mieć informacje o działalności korporacji i warunkach rynkowych na przestrzeni kilku lat	Dla przetwarzanie operacyjne wymagane są dane za ostatnie kilka miesięcy
Magazyn danych musi zawierać jednolicie zaprezentowaną i spójną informację możliwie najbliższą zawartości operacyjnych baz danych. Aby wyodrębnić i „oczyścić” informacje z różnych źródeł, potrzebny jest komponent. W wielu Duże korporacje Jednocześnie istnieje kilka systemów informacji operacyjnej z własnymi bazami danych (ze względów historycznych).	Operacyjne bazy danych mogą zawierać semantycznie równoważne informacje prezentowane w różne formaty, z różnymi wskazaniami czasu jego przybycia, czasem nawet sprzecznymi
Nie można przewidzieć zestawu zapytań do analitycznej bazy danych. magazyn danych istnieją, aby odpowiadać na doraźne żądania analityków. Można jedynie liczyć na to, że prośby nie będą pojawiać się zbyt często i będą dotyczyły dużej ilości informacji. Wielkość bazy analitycznej zachęca do stosowania zapytań z agregatami (suma, minimum, maksimum, Średnia wartość itp.)	Systemy przetwarzania danych budowane są z myślą o rozwiązaniach. specyficzne zadania. Informacje z bazy danych są wybierane często i w małych porcjach. Zazwyczaj zestaw zapytań do operacyjnej bazy danych jest znany już na etapie projektowania
Gdy zmienność analitycznych baz danych jest niewielka (tylko przy ładowaniu danych), racjonalne okazuje się porządkowanie tablic, szybsze metody indeksowania przy masowym próbkowaniu i przechowywanie danych wstępnie zagregowanych.	Systemy przetwarzania danych ze swej natury charakteryzują się dużą zmiennością, co jest uwzględniane w stosowanym systemie DBMS (znormalizowana struktura bazy danych, wiersze przechowywane w sposób nieuporządkowany, drzewa B do indeksowania, transakcyjne)
Analityczne informacje z bazy danych są na tyle istotne dla korporacji, że wymagana jest większa szczegółowość zabezpieczeń (indywidualne prawa dostępu do określonych wierszy i/lub kolumn tabeli)	W przypadku systemów przetwarzania danych jest to zwykle wystarczające ochrona informacji na poziomie stołu

Reguły Codda dla systemów OLAP

W 1993 roku Codd opublikował OLAP dla analityków użytkowników: jaki powinien być. Nakreślił w nim podstawowe pojęcia operacyjne przetwarzanie analityczne i zidentyfikował 12 zasad, jakie muszą spełniać produkty zapewniające możliwości analityki online.

Konceptualna reprezentacja wielowymiarowa. Model OLAP musi być w swojej istocie wielowymiarowy. Wielowymiarowy diagram koncepcyjny lub niestandardowa reprezentacja ułatwia modelowanie i analizę oraz obliczenia.
Przezroczystość. Użytkownik jest w stanie pozyskać wszystkie potrzebne dane z silnika OLAP, nawet nie wiedząc skąd one pochodzą. Niezależnie od tego, czy produkt OLAP jest częścią narzędzi użytkownika, czy nie, fakt ten powinien być dla użytkownika niewidoczny. Jeśli OLAP jest realizowany w trybie klient-serwer, to fakt ten powinien być w miarę możliwości także niewidoczny dla użytkownika. OLAP należy podać w prawdziwym kontekście otwarta architektura, umożliwiając użytkownikowi, gdziekolwiek się znajduje, komunikację za pomocą narzędzia analitycznego z serwerem. Oprócz tego należy również zapewnić przejrzystość, gdy narzędzie analityczne wchodzi w interakcję z jednorodnymi i heterogenicznymi środowiskami baz danych.
Dostępność. OLAP musi zapewnić własny obwód logiczny dostępu w heterogenicznym środowisku baz danych i wykonywania odpowiednich przekształceń w celu dostarczenia danych użytkownikowi. Co więcej, należy z wyprzedzeniem zadbać o to, gdzie i jak oraz jakie rodzaje fizycznej organizacji danych będą faktycznie wykorzystywane. System OLAP powinien uzyskiwać dostęp tylko do danych, które są rzeczywiście potrzebne, a nie mieć zastosowania ogólna zasada„lejek kuchenny”, co wiąże się z niepotrzebnym wkładem.
Stały wydajność przy opracowywaniu raportów. Wydajność możliwość generowania raportów nie powinna znacząco spadać wraz ze wzrostem liczby wymiarów i wielkości bazy danych.
Architektura klient-serwer. Wymaga to, aby produkt był nie tylko klientem-serwerem, ale także, aby komponent serwera był wystarczająco inteligentny, aby umożliwić różnym klientom łączenie się przy minimalnym wysiłku i programowaniu.
Ogólna wielowymiarowość. Wszystkie wymiary muszą być równe, każdy wymiar musi być równoważny zarówno pod względem struktury, jak i możliwości operacyjnych. To prawda, dodatkowe możliwości operacyjne dla poszczególnych wymiarów (prawdopodobnie sugerowany jest czas), ale taka dodatkowa funkcjonalność musi być zapewniona dla dowolnego wymiaru. To nie powinno być takie podstawowe struktury danych formaty obliczeń lub raportowania były bardziej specyficzne dla jednego wymiaru.
Kontrola dynamiczna rzadkie matryce. Systemy OLAP powinny automatycznie skonfigurować swoje schemat fizyczny w zależności od typu modelu, ilości danych i rzadkości bazy danych.
Obsługa wielu użytkowników. Narzędzie OLAP musi zapewniać możliwości dzielenie się(zapytanie i zakończenie), integralność i bezpieczeństwo.
Nieograniczone operacje krzyżowe. W przypadku jakichkolwiek pomiarów należy zezwolić na wszelkiego rodzaju operacje.
Intuicyjna manipulacja danymi. Manipulację danymi przeprowadzono poprzez bezpośrednie działania na komórkach w trybie przeglądania, bez korzystania z menu i wielokrotnych operacji.
Elastyczne opcje raportowania. Wymiary należy umieścić w raporcie tak, jak tego potrzebuje użytkownik.
Nieograniczony

Dziś wśród narzędzi oferowanych przez rynek technologii informatycznych do przetwarzania i wizualizacji danych do przyjęcia decyzje zarządcze Najbardziej odpowiednie są technologie OLTP i OLAP. Technologia OLTP koncentruje się na operacyjnym przetwarzaniu danych, a nowocześniejsza technologia OLAP koncentruje się na interaktywnej analizie danych. Stworzone na ich bazie systemy pozwalają na zrozumienie procesów zachodzących w placówce zarządzającej poprzez szybki dostęp do różnych segmentów danych (reprezentacje zawartości baz danych, uporządkowane tak, aby odzwierciedlały różne aspekty działalności przedsiębiorstwa). W szczególności zapewnienie Reprezentacja graficzna danych, OLAP jest w stanie dokonać wyników przetwarzania dane łatwe dla percepcji.

OLTP (Online Transaction Processing) - przetwarzanie transakcji w czasie rzeczywistym. Sposób organizacji bazy danych, w którym system pracuje z transakcjami o małej wielkości, ale z dużym przepływem, a jednocześnie klient wymaga od systemu możliwie najszybszego czasu reakcji.

We współczesnych systemach DBMS serializacja transakcji jest zorganizowana poprzez mechanizm blokujący, tj. Podczas realizacji transakcji SZBD blokuje bazę danych lub jej część, do której ma dostęp transakcja; blokada jest utrzymywana do momentu zatwierdzenia transakcji. Jeśli w toku przetwarzanie równoległe Gdy inna transakcja próbuje uzyskać dostęp do zablokowanych danych, przetwarzanie transakcji zostaje zawieszone i wznowione dopiero po zakończeniu transakcji, która zablokowała dane, i zwolnieniu blokady. Im mniejszy blokowany obiekt, tym większa wydajność bazy danych. Transakcja aktualizująca dane w wielu węzłach sieci nazywa się ROZPROSZONA. Jeśli transakcja współpracuje z bazą danych zlokalizowaną w jednym węźle, wówczas nazywa się ją LOKALNĄ. Z punktu widzenia użytkownika transakcje lokalne i rozproszone powinny być przetwarzane w ten sam sposób, tj. DBMS musi tak zorganizować proces wykonywania dystrybucji transakcji, aby wszystkie zawarte w nim transakcje lokalne były synchronicznie zatwierdzane na wszystkich węzłach, których one dotyczą system rozproszony. W takim przypadku transakcja rozproszona powinna zostać zatwierdzona tylko wtedy, gdy zostaną zatwierdzone wszystkie składające się na nią transakcje lokalne, a jeśli co najmniej jedna z transakcji lokalnych zostanie przerwana, należy przerwać całą transakcję rozproszoną. Aby wdrożyć te wymagania w praktyce, DBMS wykorzystuje dwustopniowy mechanizm zatwierdzania transakcji.

1. Serwer bazy danych zatwierdzający transakcję rozproszoną wysyła polecenie „Przygotuj do zatwierdzenia” do wszystkich węzłów sieci zarejestrowanych do realizacji transakcji. Jeśli przynajmniej jeden z serwerów nie odpowie o gotowości, serwer rozproszonej bazy danych wycofuje lokalną transakcję na wszystkich węzłach.

2. Wszystkie lokalne DBMS są gotowe do zatwierdzenia, tj. serwer przetwarza rozproszoną transakcję, kończy jej zatwierdzanie, wysyłając polecenie zatwierdzenia transakcji do wszystkich serwerów lokalnych.

OLAP (ang. online analityczne przetwarzanie, analityczne przetwarzanie w czasie rzeczywistym) to technologia przetwarzania informacji, obejmująca zestawianie i dynamiczną publikację raportów i dokumentów. Używany przez analityków do szybkiego przetwarzania złożone zapytania do bazy danych. Służy do sporządzania raportów biznesowych o celach sprzedażowych, marketingowych, zarządczych, tzw. eksploracja danych - eksploracja danych (metoda analizowania informacji w bazie danych w celu wyszukiwania anomalii i trendów bez ich odkrywania). znaczenie semantyczne dokumentacja).

OLAP tworzy migawkę relacyjnej bazy danych i tworzy z niej strukturę model przestrzenny W przypadku pytań. Podany czas przetwarzania zapytań w OLAP wynosi około 0,1% podobnych zapytań w relacyjnej bazie danych.

Struktura OLAP utworzona na podstawie danych operacyjnych nazywana jest kostką OLAP. Kostka powstaje poprzez połączenie tabel przy użyciu schematu gwiazdy lub schematu płatka śniegu. W centrum schematu gwiaździstego znajduje się tabela faktów zawierająca najważniejsze fakty, na podstawie których zadawane są zapytania. Tabele wielu wymiarów są łączone w tabelę faktów. Tabele te pokazują, jak można analizować zagregowane dane relacyjne. Liczba możliwych agregacji jest określana na podstawie liczby sposobów hierarchicznego wyświetlania oryginalnych danych.

Na przykład wszystkich klientów można pogrupować według miast lub regionów kraju (Zachód, Wschód, Północ itp.), Zatem 50 miast, 8 regionów i 2 kraje utworzą 3 poziomy hierarchii z 60 członkami. Ponadto klienci mogą być zjednoczeni w odniesieniu do produktów; jeśli w 2 kategoriach, 3 grupach produktów i 3 działach produkcyjnych będzie 250 produktów, to liczba jednostek wyniesie 16560. Po dodaniu wymiarów do diagramu liczba możliwe opcje szybko osiąga dziesiątki milionów lub więcej.

Kostka OLAP zawiera podstawowe dane oraz informacje o wymiarach (agregacjach). Kostka potencjalnie zawiera wszystkie informacje, które mogą być potrzebne do odpowiedzi na zapytania. Ze względu na ogromną liczbę jednostek, często pełna kalkulacja następuje tylko dla niektórych pomiarów, a dla pozostałych wykonywana jest „na żądanie”.

Wyzwaniem w korzystaniu z OLAP jest tworzenie zapytań, wybieranie danych referencyjnych i opracowywanie schematu, dlatego większość nowoczesnych produktów OLAP jest wyposażona w ogromna ilość wstępnie skonfigurowane zapytania. Kolejnym problemem są dane bazowe. Muszą być kompletne i spójne

Pierwszym produktem wykonującym zapytania OLAP był Express (IRI). Jednak sam termin OLAP został ukuty przez Edgara Codda, „ojca relacyjnych baz danych”. Praca Codda została sfinansowana przez Arbor, firmę, która rok wcześniej wypuściła własny produkt OLAP, Essbase (przejęty później przez Hyperion, a następnie przez Oracle w 2007 roku).

Inne dobrze znane produkty OLAP obejmują Microsoft Analysis Services (dawniej OLAP Services, Część SQL Server), Oracle OLAP Option, DB2 OLAP Server firmy IBM (a właściwie EssBase z dodatkami od IBM), SAP BW, SAS OLAP Server, produkty Brio, BusinessObjects, Cognos, MicroStrategy i innych producentów.

OLAP jest najczęściej używany w produktach do planowania biznesowego i hurtowni danych.

OLAP wykorzystuje wielowymiarowy widok zagregowanych danych, aby zapewnić szybki dostęp do informacji strategicznych w celu dogłębnej analizy. Aplikacje OLAP muszą mieć następujące podstawowe właściwości:

wielowymiarowa reprezentacja danych;
wsparcie dla skomplikowanych obliczeń;
prawidłowe uwzględnienie czynnika czasu.

Zalety OLAP-u:

zwiększenie produktywności personelu produkcyjnego i twórców programów aplikacyjnych. Terminowy dostęp do informacji strategicznych.
zapewnienie użytkownikom wystarczających możliwości wprowadzania własnych zmian w schemacie.
Aplikacje OLAP opierają się na hurtowniach danych i systemach OLTP w celu dostarczania aktualnych danych, zachowując tym samym kontrolę nad integralnością danych korporacyjnych.
zmniejszenie obciążenia systemów OLTP i hurtowni danych.

OLAP	OLTP
Hurtownia danych powinna obejmować zarówno wewnętrzne dane korporacyjne, jak i dane zewnętrzne	głównym źródłem informacji wchodzących do operacyjnej bazy danych jest działalność korporacji, a analiza danych wymaga zaangażowania zewnętrznych źródeł informacji (np. raportów statystycznych)
Objętość baz analitycznych jest co najmniej o rząd wielkości większa niż objętość baz operacyjnych. Aby przeprowadzić rzetelne analizy i prognozy w hurtowni danych, trzeba mieć informacje o działalności korporacji i sytuacji rynkowej na przestrzeni kilku lat	Do szybkiego przetworzenia wymagane są dane za ostatnie kilka miesięcy
Hurtownia danych musi zawierać jednolicie zaprezentowaną i spójną informację możliwie najbliższą zawartości eksploatacyjnych baz danych. Aby wyodrębnić i „oczyścić” informacje z różnych źródeł, potrzebny jest komponent. W wielu dużych korporacjach istnieje jednocześnie (ze względów historycznych) kilka systemów informacji operacyjnej z własnymi bazami danych.	Operacyjne bazy danych mogą zawierać semantycznie równoważne informacje prezentowane w różnych formatach, z różnym oznaczeniem czasu ich otrzymania, czasem nawet sprzecznymi
Nie można przewidzieć zestawu zapytań do analitycznej bazy danych. Hurtownie danych istnieją po to, aby odpowiadać na doraźne zapytania analityków. Można jedynie liczyć na to, że prośby nie będą pojawiać się zbyt często i będą dotyczyły dużej ilości informacji. Rozmiar bazy analitycznej zachęca do stosowania zapytań z agregatami (suma, minimum, maksimum, średnia itp.)	Systemy przetwarzania danych tworzone są w celu rozwiązywania konkretnych problemów. Informacje z bazy danych są wybierane często i w małych porcjach. Zazwyczaj zestaw zapytań do operacyjnej bazy danych jest znany już na etapie projektowania
Gdy zmienność analitycznych baz danych jest niewielka (tylko przy ładowaniu danych), racjonalne okazuje się porządkowanie tablic, szybsze metody indeksowania przy masowym próbkowaniu i przechowywanie danych wstępnie zagregowanych.	Systemy przetwarzania danych ze swej natury charakteryzują się dużą zmiennością, co jest uwzględniane w stosowanym systemie DBMS (znormalizowana struktura bazy danych, wiersze przechowywane w sposób nieuporządkowany, drzewa B do indeksowania, transakcyjne)
Analityczne informacje z bazy danych są na tyle istotne dla korporacji, że wymagana jest większa szczegółowość zabezpieczeń (indywidualne prawa dostępu do określonych wierszy i/lub kolumn tabeli)	W przypadku systemów przetwarzania danych wystarczająca jest zazwyczaj ochrona informacji na poziomie tabeli.

Celem systemu OLTP jest szybkie gromadzenie i większość danych optymalne umiejscowienie informacji w bazie danych, a także zapewnienie jej kompletności, przydatności i spójności. Jednak takie systemy nie są przeznaczone do najbardziej wydajnej, szybkiej i wielowymiarowej analizy.

Oczywiście możliwe jest budowanie raportów na podstawie zebranych danych, ale wymaga to od analityka biznesowego albo stałej współpracy ze specjalistą IT, albo specjalnego przeszkolenia z programowania i technologii komputerowej.

Jak wygląda tradycyjny proces decyzyjny? Rosyjska firma korzystasz z systemu informatycznego zbudowanego w oparciu o technologię OLTP?

Menedżer powierza zadanie specjaliście działu informacji zgodnie ze swoim zrozumieniem problemu. Specjalista działu informacji, rozumiejąc zadanie na swój sposób, buduje żądanie do systemu operacyjnego, otrzymuje raport w formie elektronicznej i przekazuje go menadżerowi. Ten schemat adopcji jest krytyczny ważne decyzje ma co następuje istotne niedociągnięcia:

wykorzystywana jest znikoma ilość danych;
proces trwa długi czas, ponieważ sporządzanie wniosków i interpretacja raportu elektronicznego to dość żmudne czynności, a menedżer może być zmuszony do natychmiastowego podjęcia decyzji;
cykl należy powtórzyć, jeżeli konieczne jest doprecyzowanie danych lub rozważenie danych w innym kontekście, a także jeżeli dodatkowe pytania. Co więcej, ten powolny cykl trzeba powtarzać, z reguły kilka razy, poświęcając jeszcze więcej czasu na analizę danych;
w negatywny sposób wpływa na różnicę szkolenie zawodowe i obszary działalności specjalisty ds technologia informacyjna i lider. Często myślą różnymi kategoriami i w rezultacie nie rozumieją się;
niekorzystny wpływ wywiera taki czynnik, jak złożoność raportów elektronicznych dla percepcji. Menedżer nie ma czasu na wybieranie z raportu interesujących liczb, zwłaszcza, że może być ich za dużo. Wiadomo, że praca nad przygotowaniem danych najczęściej spoczywa na specjalistach z działów informacyjnych. W efekcie kompetentny specjalista jest odrywany od rutynowej i nieefektywnej pracy polegającej na zestawieniu tabel, diagramów itp., co oczywiście nie przyczynia się do doskonalenia jego umiejętności.

Wyjście z tej sytuacji jest tylko jedno i zostało ono sformułowane przez Billa Gatesa w formie wyrażenia: „Informacja na wyciągnięcie ręki”. Wstępna informacja musi być dostępna dla jej bezpośredniego konsumenta – analityka. Jest bezpośrednio dostępny. Natomiast zadaniem pracowników działu informacji jest stworzenie systemu gromadzenia, gromadzenia, przechowywania, ochrony informacji i zapewniania jej dostępności dla analityków.

Światowy przemysł od dawna zna ten problem, a od prawie 30 lat istnieją technologie OLAP, które mają za zadanie umożliwić analitykom biznesowym operowanie na zgromadzonych danych i bezpośrednie uczestnictwo w ich analizie. Takie systemy analityczne są przeciwieństwem systemów OLTP w tym sensie, że eliminują nadmiarowość informacji („załamanie” informacji). Jednocześnie oczywiste jest, że to redundancja informacji pierwotnych decyduje o efektywności analizy. DSS, łącząc te technologie, umożliwia rozwiązanie cała linia zadania:

Zadania analityczne: obliczanie określonych wskaźników i charakterystyk statystycznych procesów biznesowych na podstawie informacji retrospektywnych znajdujących się w hurtowniach danych.
Wizualizacja danych: prezentacja wszystkich dostępnych informacji w przyjaznej dla użytkownika formie graficznej i tabelarycznej.
Zdobywanie nowej wiedzy: określanie powiązań i współzależności procesów biznesowych w oparciu o istniejące informacje (testowanie hipotez statystycznych, grupowanie, znajdowanie powiązań i wzorców czasowych).
Zadania symulacyjne: modelowanie matematyczne zachowanie złożonych systemów w dowolnym okresie czasu. Inaczej mówiąc, są to zadania związane z koniecznością odpowiedzi na pytanie: „Co się stanie, jeśli...?”
Synteza sterowania: określenie akceptowalnych działań kontrolnych zapewniających osiągnięcie danego celu.
Zagadnienia optymalizacyjne: integracja metod symulacyjnych, zarządczych, optymalizacyjnych i statystycznych modelowania i prognozowania.

Menedżerowie przedsiębiorstw korzystający z narzędzia Technologie OLAP nawet bez specjalnego przeszkolenia mogą samodzielnie i szybko uzyskać wszelkie informacje niezbędne do badania wzorców biznesowych, a w większości przypadków różne kombinacje i przekroje analizy biznesowej. Analityk biznesowy ma okazję zobaczyć przed sobą listę miar i wskaźników systemu biznesowego. Z takimi prosty interfejs analityk może tworzyć dowolne raporty, zmieniać układ pomiarów (powiedzmy tworzyć tabele krzyżowe – nakładać jeden pomiar na drugi). Dodatkowo otrzymuje możliwość tworzenia własnych funkcji w oparciu o istniejących wskaźników, przeprowadź analizę „co jeśli” – uzyskaj wynik poprzez określenie zależności dowolnych wskaźników funkcji biznesowych lub funkcji biznesowej od wskaźników. W takim przypadku maksymalna odpowiedź dowolnego raportu nie przekracza 5 sekund.

Aby rozwiązać problemy analizy danych i szukać rozwiązań, konieczne jest gromadzenie i przechowywanie odpowiednio dużych wolumenów danych. Do tych celów służą bazy danych (DB).

Aby przechowywać dane według dowolnego modelu dziedzinowego, struktura bazy danych musi w jak największym stopniu odpowiadać temu modelowi. Pierwszą taką strukturą zastosowaną w SZBD była struktura hierarchiczna, która pojawiła się na początku lat 60-tych ubiegłego wieku.

Struktura hierarchiczna polegała na przechowywaniu danych w formie struktury drzewiastej.

Próbuję się poprawić struktura hierarchiczna istniała struktura sieciowa bazy danych, która polega na przedstawieniu struktury danych w postaci sieci.

Relacyjne bazy danych są obecnie najpopularniejsze. Do przechowywania tego typu informacji proponuje się wykorzystanie modeli postrelacyjnych w postaci obiektowych struktur przechowywania danych. Ogólne podejście polega na przechowywaniu wszelkich informacji jako obiektów. W tym przypadku same obiekty można zorganizować w ramach modelu hierarchicznego. Niestety takie podejście, w odróżnieniu od struktury relacyjnej, na której się opiera algebra relacyjna, nie jest wystarczająco sformalizowany, co nie pozwala na jego szerokie zastosowanie w praktyce.

Zgodnie z zasadami Codda, DBMS musi zapewnić wykonanie operacji na bazie danych, zapewniając jednocześnie taką możliwość jednoczesna praca dla wielu użytkowników (z wielu komputerów) i zapewnienie integralności danych. Aby wdrożyć te zasady, DBMS wykorzystuje mechanizm zarządzania transakcjami.

Transakcja to sekwencja operacji na bazie danych, traktowana przez DBMS jako pojedyncza całość. Transakcja przenosi bazę danych z jednego stanu integralnego do drugiego.

Z reguły transakcja składa się z operacji manipulujących danymi należącymi do różne stoły i logicznie ze sobą powiązane. Jeżeli podczas realizacji transakcji zostaną wykonane operacje modyfikujące tylko część danych, a pozostałe dane nie ulegną zmianie, wówczas integralność zostanie naruszona. Zatem albo muszą zostać zakończone wszystkie operacje zawarte w transakcji, albo nie może zostać zakończona żadna z nich. Proces cofania transakcji nazywany jest wycofywaniem transakcji. Zapisanie zmian dokonanych w wyniku operacji transakcyjnych nazywa się zatwierdzeniem transakcji.

Właściwość transakcji polegająca na przenoszeniu bazy danych z jednego stanu integralnego do drugiego pozwala nam na wykorzystanie koncepcji transakcji jako jednostki aktywności użytkownika. W przypadku jednoczesnego dostępu użytkowników do bazy inicjowane są transakcje przez różnych użytkowników, nie są wykonywane równolegle (co jest niemożliwe w przypadku jednej bazy danych), ale zgodnie z jakimś planem są kolejkowane i wykonywane sekwencyjnie. Tym samym dla użytkownika, z którego inicjatywy utworzono transakcję, obecność transakcji innych użytkowników będzie niewidoczna, za wyjątkiem pewnego spowolnienia działania w porównaniu do trybu pojedynczego użytkownika.

Istnieje kilka podstawowych algorytmów planowania transakcji. W scentralizowanych systemach DBMS najczęstszymi algorytmami są algorytmy oparte na synchronizacji przechwytywania obiektów bazy danych.

Podczas korzystania z dowolnego algorytmu możliwe są sytuacje konfliktów pomiędzy dwiema lub większą liczbą transakcji w celu uzyskania dostępu do obiektów bazy danych. W takim przypadku w celu utrzymania planu należy wycofać jedną lub więcej transakcji. Jest to jeden z przypadków, gdy użytkownik systemu DBMS obsługującego wielu użytkowników może faktycznie wyczuć obecność transakcji innych użytkowników w systemie.

Historia rozwoju DBMS jest ściśle związana z doskonaleniem podejść do rozwiązywania problemów przechowywania danych i zarządzania transakcjami. Rozwinięty mechanizm zarządzania transakcjami we współczesnych systemach DBMS uczynił z nich główny środek budowy systemów OLTP, których głównym zadaniem jest zapewnienie wykonania operacji na bazie danych.

3.1.3. Korzystanie z technologii OLTP
w systemach wspomagania decyzji

Systemy przetwarzania transakcji online OLTP charakteryzują się duża ilość zmiany, jednoczesny dostęp wielu użytkowników do tych samych danych w celu wykonania różnych operacji – odczytu, zapisu, usunięcia czy modyfikacji danych. Blokady i transakcje służą zapewnieniu normalnego funkcjonowania wielu użytkowników. Wydajne przetwarzanie transakcje i obsługa blokad należą do najważniejszych wymagań stawianych systemom przetwarzania transakcji online.

Notabene, pierwsze DSS również należą do tej klasy systemów − Systemy Informacyjne Instrukcje. Takie systemy są zwykle budowane na tej podstawie relacyjny system DBMS, obejmują podsystemy gromadzenia, przechowywania i wyszukiwania informacji, analizę informacji, a także zawierają predefiniowany zestaw zapytań do dzienna praca. Każdy nowa prośba, nieprzewidziane przy projektowaniu takiego systemu, muszą najpierw zostać formalnie opisane, zakodowane przez programistę, a dopiero potem wykonane. Czas oczekiwania w tym przypadku może wynosić godziny i dni, co jest nie do zaakceptowania w przypadku szybkiego podejmowania decyzji.

Praktyka stosowania systemów OLTP pokazała nieefektywność ich wykorzystania do kompleksowej analizy informacji. Systemy takie z powodzeniem rozwiązują problemy gromadzenia, przechowywania i wyszukiwania informacji, jednak nie spełniają wymagań współczesnego DSS. Podejścia związane ze zwiększaniem funkcjonalności systemów OLTP nie dały zadowalających rezultatów. Główną przyczyną niepowodzeń są sprzeczne wymagania dla systemów OLTP i DSS.

Główne wymagania dla systemów OLTP i DSS są następujące:

1. Stopień szczegółowości przechowywanych danych. Typowe zapytanie w systemie OLTP ma tendencję do selektywnego wpływania na poszczególne rekordy w tabelach, które można skutecznie wyszukać za pomocą indeksów.

2. Jakość danych. Systemy OLTP z reguły przechowują informacje wprowadzane bezpośrednio przez użytkowników systemu (operatorów komputerów). Obecność" czynnik ludzki" podczas wprowadzania zwiększa prawdopodobieństwo błędnych danych i może tworzyć problemy lokalne w systemie.

3. Format przechowywania danych. Systemy OLTP obsługujące różne obszary pracy nie są ze sobą powiązane. Często są wdrażane na różnych platformach programowych i sprzętowych. Te same dane w różnych bazach danych mogą być reprezentowane w w różnych formach i mogą się nie zgadzać (np. dane o kliencie, który miał kontakt z różnymi działami firmy, mogą nie zgadzać się w bazach danych tych działów).

4. Dopuszczenie nadmiarowych danych. Struktura bazy danych obsługującej system OLTP jest zazwyczaj dość złożona. Może zawierać wiele dziesiątek, a nawet setek tabel odwołujących się do siebie. Dane w takiej bazie danych są wysoce znormalizowane, aby zoptymalizować wykorzystywane zasoby. Zapytania analityczne do bazy danych są bardzo trudne do sformułowania i wyjątkowo nieefektywne w wykonaniu, ponieważ zawierają widoki łączące dużą liczbę tabel.

5. Zarządzanie danymi. Głównym wymaganiem stawianym systemom OLTP jest zapewnienie wykonywania operacji modyfikacyjnych na bazie danych. Przyjmuje się, że należy je wykonać w tryb prawdziwy i często bardzo intensywnie.

6. Ilość przechowywanych danych. Z reguły systemy analityczne służą do analizy zależności czasowych, natomiast systemy OLTP zazwyczaj zajmują się bieżącymi wartościami niektórych parametrów.

7. Charakter zapytań o dane. W systemach OLTP, ze względu na normalizację baz danych, tworzenie zapytań jest pracą dość złożoną i wymaga niezbędnych kwalifikacji.

8. Czas przetwarzania wniosków o dane. Systemy OLTP zazwyczaj działają w czasie rzeczywistym, dlatego mają rygorystyczne wymagania dotyczące przetwarzania danych.

9. Charakter obciążenia obliczeniowego systemu. Jak wspomniano wcześniej, praca z systemami OLTP odbywa się zwykle w czasie rzeczywistym.

10. Priorytet cech systemu. W przypadku systemów OLTP priorytetem jest wysoka wydajność i dostępność danych, ponieważ pracują z nimi w czasie rzeczywistym. W przypadku systemów analitycznych zadania o wyższym priorytecie to zapewnienie elastyczności systemu i niezależności użytkownika, czyli tego, czego analitycy potrzebują do analizy danych.

Należy zaznaczyć, że sprzeczne wymagania stawiane systemom OLTP i systemom nastawionym na głęboką analizę informacji komplikują zadanie ich integracji jako podsystemów jednego DSS. Obecnie najpopularniejszym rozwiązaniem tego problemu jest podejście oparte na hurtowni danych.

Główny pomysł Hurtownie danych polegają na wydzieleniu bazy danych dla − systemów oraz bazy danych do przeprowadzania analiz, a następnie zaprojektowaniu ich z uwzględnieniem odpowiednich wymagań.

DSS rozwiązuje trzy główne zadania: zbieranie, przechowywanie i analizę przechowywanych informacji. Zadanie analityczne w ogólna perspektywa może obejmować: analizę wyszukiwania informacji, operacyjną analizę analityczną i analizę predykcyjną.

Podsystemy gromadzenia, przechowywania informacji i rozwiązywania problemów analizy wyszukiwania informacji są obecnie z sukcesem wdrażane w ramach systemów analizy wyszukiwania informacji wykorzystujących DBMS. Do realizacji podsystemów realizujących operacyjną analizę analityczną wykorzystuje się koncepcję wielowymiarowej reprezentacji danych. Podsystem eksploracji danych implementuje metody.

Aby uprościć tworzenie aplikacji korzystających z baz danych, tworzone są systemy zarządzania bazami danych (DBMS). oprogramowanie do zarządzania danymi, ich przechowywania i bezpieczeństwa.

Systemy DBMS posiadają rozwinięty mechanizm zarządzania transakcjami, co uczyniło je głównym sposobem tworzenia systemów przetwarzania transakcji online (systemy OLTP). Do takich systemów zalicza się pierwszy DSS, rozwiązywanie problemów analiza wyszukiwania informacji - ISR.

Systemy OLTP nie mogą być skutecznie wykorzystywane do rozwiązywania problemów operacyjnych, analitycznych i intelektualnej analizy informacji. Głównym powodem są sprzeczne wymagania dla systemu OLTP i DSS.

Obecnie, w celu zwiększenia efektywności operacyjnej analizy analitycznej i intelektualnej, wykorzystuje się koncepcję hurtowni danych, polegającą na łączeniu podsystemów OLTP i podsystemów analitycznych w ramach jednego systemu. Ogólny pomysł polega na przydzieleniu bazy danych dla podsystemów OLTP oraz bazy danych do wykonywania analiz. Zapewnia to optymalne podejście do przetwarzania danych w systemach wspomagania decyzji.

Pytania do samokontroli

1. Wymień główne zadania, jakie rozwiązują systemy wspomagania decyzji.

2. Zarysować koncepcyjne kierunki budowy hurtowni danych w systemach wspomagania decyzji.

3. Określić rodzaje struktur organizujących hurtownie danych w DSS. Jakie są zalety i wady każdego typu konstrukcji?

4. Uzasadnić możliwość wykorzystania postrelacyjnego modelu podsystemu do gromadzenia i przetwarzania informacji w DSS.

5. Jak pojęcie transakcji jest interpretowane w systemach przetwarzania danych?

6. Jaka jest główna właściwość transakcji w systemach przetwarzania danych?

7. Krótko opisz mechanizm zarządzania transakcjami w systemach OLTP.

8. Określ rolę i miejsce systemów OLTP do obsługi transakcji on-line. Dlaczego systemy OLTP są nieskuteczne w rozwiązywaniu problemów operacyjnych, analitycznych i analiz predykcyjnych?

9. Jakie są podstawowe wymagania dla systemów OLTP. Jakie są sprzeczne wymagania dotyczące systemów OLTP?

10. Wymienić sposoby zwiększenia efektywności analizy operacyjnej analitycznej i intelektualnej w DSS.

W poprzednim podrozdziale zauważono, że dla odpowiedniej reprezentacji obszaru tematycznego, łatwości rozwoju i utrzymania bazy danych, relacje należy sprowadzić do trzeciej postaci normalnej (istnieją formy normalizacji rzędów wyższych, ale w praktyce są używane dość rzadko), to znaczy być silnie znormalizowane. Jednocześnie relacje słabo znormalizowane mają również swoje zalety, z których główną jest to, że jeśli dostęp do bazy danych odbywa się głównie za pomocą zapytań, a modyfikacje i uzupełnienia danych przeprowadzane są bardzo rzadko, to ich próbkowanie jest znacznie szybsze. Wyjaśnia to fakt, że w słabo znormalizowanych relacjach ich połączenie zostało już nawiązane i czas procesora nie jest na to marnowany. Istnieją dwie klasy systemów, dla których bardziej odpowiednie są relacje silnie i słabo znormalizowane.

Wysoce znormalizowane modele danych dobrze nadają się do zastosowań OLTP Przetwarzanie transakcji on-line (OLTP) – aplikacje do przetwarzania transakcji online. Typowymi przykładami aplikacji OLTP są systemy księgowość magazynu͵ zlecenia biletowe, operacyjne systemy bankowe i inne. Główna funkcja podobne systemy jest przeprowadzić duża ilość krótkie transakcje. Same transakcje są dość proste, jednak problem polega na tym, że takich transakcji jest dużo, są one realizowane jednocześnie i w przypadku wystąpienia błędów należy transakcję wycofać i przywrócić system do stanu, w jakim był przed rozpoczęciem transakcji . Prawie wszystkie zapytania do baz danych w aplikacjach OLTP składają się z poleceń wstawiania, aktualizacji i usuwania. Zapytania selekcyjne mają głównie na celu udostępnienie użytkownikom selekcji danych z różnego typu katalogów. Jednak większość żądań jest znana już na etapie projektowania systemu. Krytyczne dla aplikacji OLTP jest szybkość i niezawodność krótkich operacji aktualizacji danych. Im wyższy poziom normalizacji danych w aplikacjach OLTP, tym jest ona szybsza i bardziej niezawodna. Odstępstwa od tej zasady mogą wystąpić, gdy już na etapie rozwoju znane są często pojawiające się żądania, które wymagają relacji łączących, a działanie aplikacji w znacznym stopniu zależy od szybkości ich wykonania.

Innym rodzajem aplikacji są aplikacje OLAP − Przetwarzanie analityczne on-line (OLAP) – aplikacje służące do przetwarzania danych analitycznych online. Jest to uogólnione określenie charakteryzujące zasady budowy systemów wspomagania decyzji – System Wspomagania Decyzji (DSS), hurtowni danych – Hurtownia Danych, systemów eksploracji danych – Data Mining. Systemy tego typu mają na celu wyszukiwanie zależności między danymi, prowadzenie analizy dynamicznej w oparciu o zasadę „co jeśli…” i podobne zadania. Aplikacje OLAP operują dużą ilością danych zgromadzonych w przedsiębiorstwie lub pobranych z innych źródeł. Takie systemy charakteryzują się następującymi cechami:

Nowe dane do systemu dodawane są stosunkowo rzadko, w dużych blokach, np. raz na miesiąc lub kwartał;

Dane dodawane do systemu zazwyczaj nigdy nie są usuwane;

Przed załadowaniem dane poddawane są różnym procedurom przygotowawczym, związanym z doprowadzeniem ich do określonych formatów;

Zapytania kierowane do systemu są nieuregulowane i dość złożone;

Szybkość wykonywania zapytania jest ważna, ale nie krytyczna.

Bazy Dane OLAP-u-aplikacje są zwykle prezentowane w postaci jednego lub więcej hipersześcianów, których wymiary reprezentują dane referencyjne, a komórki samego hipersześcianu przechowują wartości tych danych. Fizycznie hipersześcian można zbudować w oparciu o coś specjalnego model wielowymiarowy dane - Wielowymiarowy OLAP (MOLAP) lub reprezentowane za pomocą relacyjnego modelu danych - Relacyjny OLAP (ROLAP).

W Systemy OLAP za pomocą model relacyjny danych, zaleca się przechowywanie danych w postaci słabo znormalizowanych relacji zawierających wcześniej obliczone sumy podstawowe. Redundancja danych i problemy z nią związane nie stanowią tutaj problemu, gdyż są one dość rzadko aktualizowane i wraz z aktualizacją danych następuje przeliczenie wyników.

- Sposoby zapewnienia niezawodności systemu zaopatrzenia w wodę

Zapewnienie niezawodności systemu zaopatrzenia w wodę, a także innych systemów kolejka, jest jednym z głównych zadań w ich projektowaniu. System musi być zaprojektowany i zbudowany tak, aby podczas pracy spełniał swoje funkcje przy zadanym... [czytaj więcej]

- I. Koncepcja bezpieczeństwa systemu ochrony

Koncepcja bezpieczeństwa opracowywanego systemu to „zestaw praw, zasad i norm postępowania, które określają, w jaki sposób organizacja przetwarza, chroni i rozpowszechnia informacje. Regulamin określa w szczególności, w jakich przypadkach użytkownik ma prawo operować... [czytaj więcej]

- Po podjęciu głównych decyzji dotyczących projektu systemu grzewczego

PROJEKTOWANIE INSTALACJI OGRZEWANIA WODNEGO BUDYNKU Narysuj schematy jednostek cieplnych podczas podłączania instalacji grzewczej z obiegiem otwartym i zamkniętym. Pytania do samodzielnego sprawdzenia W przypadku zasilania w ciepło kilku budynków. Instalowane są pompy i inny sprzęt... [czytaj więcej]

- Wymagania dotyczące zapewnienia bezpieczeństwa pożarowego systemu przeciwpożarowego.

Podstawy zapewnienia bezpieczeństwa pożarowego procesów technologicznych. Pytanie 2. Ochrona przeciwpożarowa obiektu (25 min.) Ochrona przeciwpożarowa obejmuje zespół działań organizacyjnych i technicznych mających na celu zapewnienie bezpieczeństwa ludzi... [czytaj więcej]

- Tkanki i układy narządów zwierzęcych

Tkanki zwierzęce. Zwierzęta mają również kilka rodzajów tkanek. Najważniejsze z nich są następujące. Tkanki nabłonkowe to tkanki graniczne pokrywające ciało od zewnątrz, wyściełające wewnętrzne jamy i narządy tworzące wątrobę, płuca, gruczoły... [czytaj więcej]

Genomy wyższych eukariontów zawierają liczne powtarzające się sekwencje DNA. Na przykład u ludzi takie powtórzenia zajmują ponad 40% całego genomu. Z tego wynika, że gdy tworzą się DSB, prawdopodobieństwo jednoczesnego powstania kilku przerw... [czytaj więcej]

- Oznaczanie grup krwi układu ABO przy użyciu cyklonów anty-A, anty-B i anty-AB

OZNACZANIE GRUPY KRWI Zgodnie z tą zasadą wszystkim pacjentom można przetoczyć krew grupy O(1), gdyż nie zawiera ona aglutynogenów, a biorcy grupy AB(1U) można przetoczyć krwią innych grup, gdyż nie zawiera ona aglutynogenów. nie zawierają aglutynogenów. Tutaj wprowadzane są pojęcia...