Datenspeicherung

Gemäß dem Motto "in lokaler Infrastruktur unverschlüsselt gespeicherte Daten sind sicherer als verschlüsselt in der public cloud gespeicherte Daten" werden im Bereich der Serverinfrastruktur verschiedene Storage-Systeme - in Abhängigkeit ihres Aufgabenbereiches - eingesetzt:

  • CEPH
  • DAS
  • NAS
  • SAN
Auf allen Servern mit internen Festplatten-Systeme wird RAID5/6 Technologie - unter Verwendung von SATA oder SAS-Disken - eingesetzt.

Nahezu alle Server sind in das zentrale Backup-System eingebunden, sofern es technisch und wirtschaftlich umgesetzt werden kann.

Bietet der ZID Storage-Dienste an?

Eine Zentrale Datenspeicherung ist im Rahmen des Daten-Server möglich.

Die derzeit existierenden Lösungen für Hochleistungsrechnen, Daten-Server, virtuelle Server, Datenbank-/Mail-Server u.a. sind zugeschnitten auf die verschiedenen Server-Infrastrukturen bzw. der Verwendung der Datenbestände (täglich im Zugriff, nahezu statischer Bestand mit sehr wenig Zugriffen etc.) und werden ggf. über das jeweilige Projekt finanziert.

Den Instituten wird über eine private Cloud Datenspeicher angeboten. Dadurch wird exklusiv den Forschenden und Lehrenden (kein Service für Studierende) eine technisch aktuelle Lösung - auch als Alternative zu DropBox - angeboten, ihre Daten sicher im Haus abzulegen und von diversen Geräten via Webbrowser darauf zuzugreifen. Die Synchronisation erfolgt mit den verfügbaren Clients.

Über den FTP-/Daten-Server wird Instituten Datenspeicher via NFS-, iSCSI- oder ceph-mount ermöglicht.

Was ist CEPH?

Für mehrere Linux-Server (BigMail, FTP, ownCloud u.a.) wird ein verteiltes Dateisystem engesetzt. Dabei handelt es sich um einen über beliebig viele Server redundant verteilbaren Objektspeicher (OSD), um so eine möglichst hohe Datensicherheit bei gleichzeitigem Verzicht auf eine teure BackUp-Lösung bieten zu können.

Dieses verteilte Dateisystem stellt das früher vielfach übliche Festplattensystem eines Servers dar, ist jedoch nicht mit dem Filesystem Cephs zu verwechseln! Storage Pools können unter Linux direkt als ceph-mount oder unter MacOSX bzw. Windows als iSCSI-Laufwerke eingebunden werden.

Die Monitor Nodes sind Server in einem Ceph-Cluster, die den Status des Clusters überwachen. Die OSD sind an mindestens drei Standorten der TU aktiv, überwacht durch sogenannte Monitor-Server, die somit ein Quorum bilden.

In den verwendeten Storage Pools sind z.B. Einstellungen zum Replikationsfaktor - dieser gibt an, wie oft ein in diesem Pool befindliches Objekt im Ceph-Cluster abgebildet werden soll - definiert.

Ceph hat keinen Single Point of Failure. In Ceph kann jede Komponente ausfallen, und Ceph ist doch in der Lage, sich selbst zu heilen, d.h., die fehlenden Daten von defekten Festplatten im Systemverbund werden von Replikaten auf anderen Speichermedien in kurzer Zeit automatisch wiederhergestellt.

Was ist ein DAS?

Direct Attached Storage bezeichnet an einen einzelnen Server (Host) angeschlossene Festplatten, die sich im Server oder in einem separaten Gehäuse befinden können. Die übliche Schnittstelle ist SCSI und zunehmend SAS.

Verwendung findet diese Lösung überwiegend bei den Datei-Servern.

Was ist ein NAS?

Ein Network Attached Storage ist ein eigenständiger Server mit eigenem Betriebssystem. Die Funktionen sind sehr spezifisch auf den Einsatzzweck abgestimmt. Dateibasierende Dienste wie NFS, CIFS oder SMB stellen die Kernfunktion dar. Daher werden NAS-Systeme oft kurz als Filer bezeichnet.

Im Bereich des Hochleistungsrechnen werden z.B. SAN (vormals HP StorageWorks EVA) und NAS (derzeit ein dual IBM DCS3700) eingesetzt.

Was ist ein SAN?

Ein Storage Area Network ist ein Netzwerk zwischen Servern und den von ihnen genutzten Speicherressourcen (Festplatten, Bandlaufwerke etc.). Neben den Speichermedien selbst werden entsprechende Netzwerk-Switche und -Interfacekarten benötigt.

Der Datenverkehr in einem SAN besteht hauptsächlich in der Übertragung blockbasierter Daten, d.h. es werden durch den Rechner einzelne Datenblöcke von einer Festplatte angefordert; im Gegensatz dazu werden bei einem dateibasierten Datenaustausch ganze Dateien angefordert.

Speicherressourcen, die von einem SAN angeboten werden, werden auf daran angeschlossene Server üblicherweise wie lokale Speicherressourcen gesehen. Auf einem Linux-Server könnte ein über ein SAN angebundenes Volume beispielsweise als /dev/sdc dargestellt werden.

Für Mail- und Datenbank-Anwendungen ist ein SUN StoreEdge 6320 und für die virtuellen Server ist ein redundantes iSCSI SAN vom Typ HP P4300 an der TU in Verwendung.

Was bedeutet RAID?

Der Begriff RAID steht für englisch "redundant array of independent disks" und dient zur Organisation mehrerer physischer Festplatten eines Computers zu einem logischen Laufwerk, das eine höhere Datensicherheit bei Ausfall einzelner Festplatten und/oder einen größeren Datendurchsatz erlaubt als ein einzelnes physisches Laufwerk.

Es werden mehrere Level unterschieden, die die Art der Sicherheit, Redundanz und Leistung wiedergeben.

Was heisst SAS und SATA?

Serial Attached SCSI ist eine Computerschnittstelle, die 2004 die Nachfolge der bisherigen parallelen SCSI-Schnittstelle antrat.

Serial Advanced Technology Attachment ist ein hauptsächlich für den Datenaustausch zwischen Prozessor und Festplatte entwickelter Datenbus, d.h. die Daten werden seriell übertragen (Bit für Bit) und nicht, wie bei den alten ATA-Standards, in 16-Bit-Wörtern. Bei Serial-ATA gehen durch kurzzeitige Störungen weniger Daten verloren, es besitzt eine höhere Datentransferrate, ermöglicht eine vereinfachte Kabelführung und hat die Fähigkeit zum Austausch von Datenträgern im laufenden Betrieb (Hot-Plug).