Datenstrukturierung
Aus P3wiki
Inhaltsverzeichnis |
Was bedeutet Datenstrukturierung
Daten – auch Informationseinheiten - sind nach DIN ISO/IEC 2382 Gebilde aus Zeichen und Funktionen, die durch Absprache oder Normung Information zum Zwecke der Verarbeitung darstellen. Datenstrukturierung, als ein Begriff der Informations-Technologie, meint die Art, wie die Informationseinheiten auf einem Medium angeordnet (strukturiert) sind. Die Strukturierung von Daten stellt sicher, dass deren Verarbeitung schnell und sicher erfolgen kann. Negativ ausgedrückt, sie soll verhindern, dass die Verarbeitung der Daten nur langsam erfolgt oder sogar menschliches Eingreifen (Korrektur, Beschleunigung) notwendig macht.
Gründe für Datenstrukturierung
Ziel: Einfacher Datenaustausch
Einer der Gründe für die Strukturierung von Daten rührt von der Absicht, Information zwischen Partnern auszutauschen. Der Empfänger der Information liefert eine Definition (Absprache), in welcher Struktur er die Information erwartet, der Sender liefert diese in der gewünschten Struktur. Erfolgt keine Absprache über die Datenstruktur verlangsamt und erschwert dies den Austausch, bis hin zur Unmöglichkeit des Datenaustausches.
Ziel: Maschinelle Verarbeitbarkeit und Schnelligkeit
Im einfachen Falle stellt eine Datenstruktur beispielsweise die durch öffentliche Konvention definierte Struktur einer Adresse (Reihenfolge der Informationseinheiten Name, Postleitzahl, Ort, Strasse etc.) dar, welche die Zustellung eines Briefes von A nach B sicher stellt. Darüber hinaus ermöglicht eine Struktur wie
Hans Mustermann
Strasse 1
12345 Musterhausen
eine schnellere maschinelle Verarbeitung, als eine keinerlei Struktur aufweisende Anordnung der Informationseinheiten, wie
HansMustermannStrasse112345Musterhausen.
Eine Identifikation und Verarbeitung dieser Zeile kann nur mit Hilfe einer aufwendig programmierten Software oder mittels Sichtung durch den Menschen erreicht werden. Beides dauert erheblich länger.
Die Absprache im oberen Fall einer Adresse sieht so aus, dass festgelegt wurde:
- in der ersten Zeile: der Name, wobei der Vorname optional sein kann
- in der nächsten Zeile: die Straße, wobei die Hausnummer durch einen Leerbuchstaben vom Straßennamen zu trennen ist
- in der letzten Zeile: die Postleitzahl, getrennt vom Ort durch einen Leerbuchstaben Abstand.
Das Beispiel „hinkt“ natürlich etwas, denn in der IT ist der Vorname nicht optional – sondern leer. Hier kann aber darauf verzichtet werden, da im Beispiel einer Postadresse „die letzte Meile“ der Zustellung durch Menschen erledigt wird (den Brief in den Postkasten legen) - und da hat der Vorname keine Relevanz.
Einfache und komplexe Datenstrukturen
Strukturieren ist Pflicht
Datenstrukturen müssen, abhängig von den für die Datenerkennung eingesetzten Hilfsmitteln, unterschiedlich aussehen. Eine ungenügende oder unscharfe Struktur, wenn etwa eine Adress-Information in einer Zeile und ohne Abstände enthalten ist, kann vom Hilfsmittel „menschliches Gehirn“ erkannt und interpretiert werden. Dagegen ist es beim Einsatz von IT-Systemen als Hilfsmittel für den Austausch und Datenbanken für die Ablage der Daten zwingend, insbesondere bei komplexer Information, dass Daten strukturiert werden.
Eine einfache Datenstruktur
Eine einfache Datenstruktur ist zum Beispiel:
- Hans;Mustermann;Strasse;1;12345;Musterhausen;
- Karin;Musterfrau;Am See;22;32145;Seestadt;
Bei dieser flachen Struktur sind alle Informationen in eine bestimmte Reihenfolge gebracht, die einzelnen Informationseinheiten sind beliebig lang und bestehen aus beliebigen Zeichen und sind durch ein Semikolon getrennt. Mehrere Informationen werden durch einen Zeilenumbruch (neue Zeile) getrennt.
Eine komplexe Datenstruktur
Hier werden die Daten in einer Tabelle (Oracle) strukturiert. Sie weisen keine Reihenfolge auf, aber definieren einen Typ – was darf in dieser Spalte an Zeichen stehen - sowie eine maximale Länge. Zusätzlich wird definiert, ob die Spalte leer sein darf (nullable).
Vor- und Nachteile
Beide Möglichkeiten bieten Vor- und Nachteile – unabhängig davon, dass für die Verarbeitung der verschiedenen Strukturen Hilfsmittel verwendet werden müssen, die Geld kosten.
- Einfache Datenstrukturen zeichnen sich dadurch aus, dass in ihnen kaum Verarbeitungsregeln zu verankern sind und sie in den meisten Fällen durch einfache Hilfsmittel (z.B. Texteditor) erzeugt werden. Sie sind nicht fehlertolerant (was passiert im oberen Beispiel, wenn ein Semikolon im Namensfeld eingegeben wurde?)
- Im Gegensatz dazu komplexe Datenstrukturen: sie haben in den meisten Fällen einen Titel/Überschrift, lassen eine freie Anordnung der Informationen zu und enthalten Regeln für ihre Verarbeitung. Die Trennung der Felder obliegt einem Drittsystem (z.B. der Datenbank). Man benötigt zwar weit komplexere Methoden, um diese Daten auszugeben bzw. zu verarbeiten, gewinnt aber an Schnelligkeit und Sicherheit in der Verarbeitung der Daten.


