Οι εταιρείες και οι καταναλωτές παράγουν περισσότερα δεδομένα από ποτέ. Ο πολλαπλασιασμός των ψηφιακών συσκευών και προϊόντων οδηγεί στην εκθετική επέκταση του ψηφιακού σύμπαντος. Αν και θεωρητικά ένα πλεονέκτημα, η κλίμακα αυτών των δεδομένων αποτελεί μια πρόκληση: πώς μπορούν οι εταιρείες να οργανώσουν πρακτικά τις πληροφορίες τους για να αποκαλύψουν ενεργές πληροφορίες;
Ενώ η εξόρυξη δεδομένων και η επιχειρηματική ευφυΐα παρέχουν την πολύτιμη εξαγωγή και παρουσίαση τέτοιων πληροφοριών, η αποθήκη δεδομένων (DWH) είναι η προπαρασκευαστική συγκέντρωση και αναδιοργάνωση των τεράστιων υποκείμενων δεδομένων, τα οποία συχνά βρίσκονται σε πολλές τοποθεσίες. Η κατανόηση του ρόλου του DWH στο ευρύτερο οικοσύστημα της επιστήμης δεδομένων, της εξόρυξης δεδομένων και της επιχειρηματικής ευφυΐας είναι απαραίτητη για τον σύγχρονο διαχειριστή.
Το DWH είναι ένα κεντρικό αποθετήριο ψηφιακών πληροφοριών, συγκεντρωμένο από μια ποικιλία διαφορετικών πηγών και οργανωμένο σε μια δομή βελτιστοποιημένη για αναφορά. Το πιο σημαντικό, το DWH παρέχει ενεργές πληροφορίες σε ολόκληρη την επιχείρηση, επιτρέποντας στους υπαλλήλους να πραγματοποιούν προσαρμοσμένες αναλύσεις και να λαμβάνουν καλύτερες αποφάσεις.
Το σχεσιακό και διαστατικό μοντέλο
Για να εκτιμήσετε τη λειτουργικότητα μιας αποθήκης δεδομένων, είναι σημαντικό να κατανοήσετε τη διαφορά μεταξύ ενός σχεσιακού και διαστατικού μοντέλου. Ενώ είναι τεχνικός ήχος, είναι εύκολο να διακριθούν.
Από πρακτική άποψη, οι σχεσιακές και διαστατικές βάσεις δεδομένων διαφέρουν σε ένα κρίσιμο κριτήριο: τη ροή πληροφοριών. Ενώ οι σχεσιακές βάσεις δεδομένων είναι βελτιστοποιημένες για εισαγωγή δεδομένων, οι διαστατικές βάσεις δεδομένων δημιουργούνται για έξοδο, ιδίως με τη μορφή αναφορών και αναλυτικών στοιχείων γνωστών ως επιχειρηματική ευφυΐα .
Το σχεσιακό μοντέλο οργανώνει πληροφορίες γύρω από ένα μόνο σημείο πληροφοριών, για παράδειγμα ένα όνομα πελάτη. Σε ένα τέτοιο μοντέλο, το όνομα πελάτη υπάρχει σε μία τοποθεσία, με όλες τις σχετικές πληροφορίες - όπως στοιχεία επικοινωνίας και ημερομηνίες συναλλαγής - να αναφέρονται σε σχετικούς ή σχετικούς πίνακες.
Αντίθετα, η διαστατική βάση δεδομένων ουσιαστικά «αποσυσκευάζει» τη σχεσιακή βάση δεδομένων, επιτρέποντας στους χρήστες να «φέτες και ζάρια» εύκολα στην απαιτούμενη παραλλαγή που απαιτείται για την εκπλήρωση των αναγκών αναφοράς τους. Για παράδειγμα, στην σχετική καταχώριση βάσης δεδομένων παραπάνω, τα στοιχεία επικοινωνίας των πελατών θα χωριστούν σε ξεχωριστά πεδία, όπως αριθμός τηλεφώνου, διεύθυνση οδού, πόλη, πολιτεία και ταχυδρομικός κώδικας.
Η διαστατική βάση δεδομένων ουσιαστικά «αποσυσκευάζει» τη σχεσιακή βάση δεδομένων, επιτρέποντας στους χρήστες να «τεμαχίζουν» εύκολα τα δεδομένα
Η διάκριση μεταξύ της σχεσιακής και της διαστατικής βάσης δεδομένων μπορεί να φαίνεται αφηρημένη. Ωστόσο, για όσους είναι επιφορτισμένοι με την παροχή ολοένα και πιο περίπλοκων αναλυτικών στοιχείων και αναφορών, η εκτίμηση της διάκρισης παρέχει μια πολύτιμη θεμελιώδη κατανόηση για τη συνεργασία με τεχνικές ομάδες που διατηρούν αυτούς τους πόρους.
Όπως περιγράφεται λεπτομερώς από τον Bill Inmon, έναν από τους δημιουργούς της αποθήκης δεδομένων, μερικά συγκεκριμένα χαρακτηριστικά διέπουν το σχεδιασμό της αποθήκης δεδομένων. Σύμφωνα με την Inmon, η αποθήκη δεδομένων είναι μια συλλογή δεδομένων με βάση το θέμα, μη πτητική, ολοκληρωμένη, χρονική παραλλαγή προς υποστήριξη των αποφάσεων της διοίκησης.
Αυτό είναι ένα στόμα, αλλά μόλις χωριστεί σε μέρη, αυτός ο ορισμός χρωματίζει μια σαφή εικόνα της βασικής δομής DWH. Για να καταστήσουμε αυτά τα κριτήρια εύκολο να θυμηθούμε, αναδιοργανώσαμε τα κριτήρια του Inmon σύμφωνα με το anagram 'It's On'
Ολοκληρωμένο: Τα δεδομένα πρέπει να έχουν σταθερές μορφές. Συχνά αντλούνται από διαφορετικές πηγές, τα πεδία δεδομένων πρέπει να έχουν σταθερές συμβάσεις ονομασίας.
Παραλλαγή χρόνου: Το DWH αποκαλύπτει τάσεις, οι οποίες εξαρτώνται από την αλλαγή με την πάροδο του χρόνου. Η καταγραφή σημείων δεδομένων με την πάροδο του χρόνου είναι θεμελιώδης για την αποκάλυψη σχέσεων μεταξύ δεδομένων.
Προσανατολισμένο στο θέμα: Το DWH επιτρέπει ανάλυση και αναφορά εστιασμένων στο θέμα. Για παράδειγμα, μια εταιρεία μπορεί να θέλει να αξιολογήσει τις πωλήσεις ενός προϊόντος με την πάροδο του χρόνου και, στη συνέχεια, να εξετάσει συγκεκριμένες τάσεις σε περιφερειακό ή τμήμα πελατών.
Μη πτητικό: Μόλις εισέλθουν τα δεδομένα στην αποθήκη, δεν αλλάζουν.
Τα συστήματα βάσης δεδομένων DWH και συναλλαγών εκτελούν ουσιαστικά διαφορετικές λειτουργίες και εξυπηρετούν διαφορετικούς χρήστες. Ενώ το DWH είναι βελτιστοποιημένο για αναφορά και ανάλυση, τα συστήματα συναλλαγών - συχνά αναφέρονται ως OnLine Transaction Processing (OLTP) - βελτιστοποιούνται για διαθεσιμότητα και ταχύτητα επεξεργασίας.
Οι χρήστες OLTP είναι συνήθως υπάλληλοι front-end και συνήθως έχουν πρόσβαση σε πολλές εγγραφές κάθε φορά. Οι χρήστες DWH είναι συχνά αναλυτές και διαχειριστές, των οποίων οι αναφορές μπορεί ταυτόχρονα να απαιτούν έως και εκατομμύρια εκατομμύρια εγγραφές.
Το σύστημα συναλλαγών και το DWH διαφέρουν επίσης ως προς τη λεπτομέρεια και τη μονιμότητα των δεδομένων. Στο OLTP, τα δεδομένα περιέχουν τρέχουσες τιμές, οι οποίες είναι λεπτομερείς και εξαιρετικά μεταβλητές (κάθε λίγα δευτερόλεπτα, χιλιάδες συναλλαγές αλλάζουν τις τιμές αυτών των εγγραφών). Αντίθετα, το DWH περιέχει αναδιαρθρωμένα δεδομένα που δεν μπορούν να αλλάξουν μόλις φορτωθούν.
Η διαδικασία καταναλωτικού δανείου παρουσιάζει συνοπτικά τις βασικές διαφορές μεταξύ αυτών των συστημάτων. Όταν ένας πελάτης εξασφαλίζει δάνειο αυτοκινήτου, για παράδειγμα, η βάση δεδομένων συναλλαγών καταγράφει λεπτομέρειες όπως τον τύπο αυτοκινήτου, το χρώμα, το έτος αγοράς, την τιμή αγοράς και τα προσωπικά στοιχεία του αγοραστή. Μόλις μετατραπεί στο μοντέλο DWH, οι πληροφορίες συναλλαγών (γύρω από τη συναλλαγή μεμονωμένου πελάτη) διαχωρίζονται σε συστατικά μέρη. Αυτά τα μέρη, με τη σειρά τους, συγκεντρώνονται με συγκρίσιμα μέρη από άλλες συναλλαγές.
Ερώτηση του DWH, ένας υπάλληλος στο δανειστή μπορεί να έχει πρόσβαση σε αναφορές που αποτελούνται από συγκεντρωτικά δεδομένα πελατών. Για παράδειγμα, προσπαθώντας να βελτιστοποιήσει τις διαφημιστικές δαπάνες, ένας διαχειριστής μάρκετινγκ μπορεί να αναζητήσει αυτοκίνητα ενός συγκεκριμένου τύπου ή εύρους τιμών με το υψηλότερο ποσοστό έγκρισης δανείου ή το μέσο επίπεδο ηλικίας και εισοδήματος των αιτούντων δάνειο με την πάροδο του χρόνου. Αυτές οι πληροφορίες ενδέχεται να κατευθύνουν την εκ νέου κατευθυνόμενη δαπάνη διαφήμισης σε πιο σχετικά κανάλια με πιο στοχευμένα μηνύματα.
Η αποθήκη δεδομένων έναντι της Data Mart και της Data Lake
Το DWH μπορεί να συνοδεύεται από σχετικές βάσεις δεδομένων - το data mart και τη λίμνη δεδομένων - των οποίων τα περιγραφικά ονόματα προτείνουν διαφορετικές λειτουργίες. Ένα υποσύνολο του DWH, το data mart εξυπηρετεί μια συγκεκριμένη ομάδα χρηστών, για παράδειγμα ένα τμήμα ή μια συγκεκριμένη επιχειρηματική μονάδα. Ενώ το DWH διαθέτει πολλά θέματα που σχετίζονται με πολλά τμήματα - όπως πωλήσεις, πελάτες, προϊόντα, αποθέματα, προμηθευτές - ένα data mart συνήθως διαθέτει ένα θέμα για ένα τμήμα, όπως πωλήσεις ή χρηματοδότηση.
Υπάρχουν δύο τύποι μαρκών δεδομένων - εξαρτώμενοι και ανεξάρτητοι - και ο καθένας παρουσιάζει μοναδικά οφέλη. Το εξαρτημένο data mart αντλεί από το DWH και έχει το πλεονέκτημα της συνέπειας. Επειδή όλα τα δεδομένα είναι συγκεντρωτικά και συνεπή εντός του DWH, τα δεδομένα mart που προκύπτουν είναι επίσης συνεπή. Ενώ τα πιο ισχυρά, εξαρτημένα μαρκαρίσματα δεδομένων απαιτούν DWH, και επομένως είναι πιο δαπανηρό να αναπτυχθούν.
Ανεξάρτητα στοιχεία δεδομένων, από την άλλη πλευρά, αντλούν δεδομένα απευθείας από τις ίδιες βάσεις δεδομένων πηγής, σαν ένα mini DWH. Αν και ταχύτερα και λιγότερο δαπανηρά για ανάπτυξη, τα ανεξάρτητα στοιχεία δεδομένων έχουν αυξημένο κίνδυνο, καθώς οι ορισμοί δεδομένων μπορούν να καταστούν ασυνεπείς σε ανεξάρτητα ανεπτυγμένα δεδομένα δεδομένων. Ωστόσο, εάν αναπτυχθούν με πειθαρχία, τα ανεξάρτητα στοιχεία δεδομένων μπορούν τελικά να συναρμολογηθούν σε DWH.
Οι λίμνες δεδομένων συνήθως διαμορφώνονται σε ένα σύμπλεγμα φθηνού και κλιμακούμενου υλικού. Αυτό επιτρέπει την απόρριψη δεδομένων στη λίμνη χωρίς να χρειάζεται να ανησυχείτε για την ικανότητα αποθήκευσης. Ενώ το DWH περιορίζεται συνήθως σε δεδομένα κειμένου και αριθμητικά, η λίμνη μπορεί επίσης να έχει μια ευρύτερη ποικιλία, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, των δεδομένων αισθητήρων και των εικόνων.
Το DWH επιτρέπει την εξόρυξη δεδομένων, η οποία εξοπλίζει τις εταιρείες με τη δύναμη να προβλέπουν το μέλλον. Ο πρωταρχικός στόχος της εξόρυξης δεδομένων είναι να αποκαλύψει μοτίβα σε μεγάλα σύνολα δεδομένων. Τέτοια μοτίβα, με τη σειρά τους, αποκαλύπτουν σχέσεις μεταξύ διαφορετικών κατηγοριών δεδομένων και των υποκείμενων επιχειρηματικών τους λειτουργιών.
Τέτοιες σχέσεις παρέχουν στους διαχειριστές πληροφορίες με δυνατότητα δράσης, ουσιαστικά νέους μοχλούς για να οδηγήσουν τα επιθυμητά επιχειρηματικά αποτελέσματα όπως η αύξηση των πελατών ή οι αυξημένες πωλήσεις ανά πελάτη. Για παράδειγμα, ο έλεγχος ιστορικών δεδομένων πωλήσεων ανά γεωγραφικό ή βιομηχανικό τμήμα μπορεί να επισημάνει ανώμαλη ανάπτυξη, η πηγή της οποίας μπορεί να παρέχει στους διευθυντές πωλήσεων μαθήματα να εφαρμόζονται σε άλλα τμήματα.