Hauptinhalt

CS 673 — Big-Data-Systems
(engl. Big Data Systems)

Niveaustufe, Verpflichtungsgrad Vertiefungsmodul, Wahlpflichtmodul
Lehr- und Lernformen,
Arbeitsaufwand
Vorlesung (4 SWS), Übung (2 SWS),
270 Stunden (90 Std. Präsenzzeit, 180 Std. Selbststudium)
Leistungspunkte,
Voraussetzungen zum Erwerb
9 LP
Studienleistung(en): Erreichen von mindestens 50 Prozent der Punkte aus den wöchentlich zu bearbeitenden Übungsaufgaben und mündliche Präsentation der Lösung von mindestens zwei der Übungsaufgaben.
Prüfungsleistung: Mündliche Prüfung (Einzelprüfung) oder Klausur
Sprache,
Benotung
Englisch,
Die Benotung erfolgt mit 0 bis 15 Punkten gemäß der Prüfungsordnung für den Studiengang M.Sc. Informatik.
Dauer des Moduls,
Häufigkeit
Ein Semester,
Jedes Wintersemester
Modulverantwortliche(r) Prof. Dr. Thorsten Papenbrock

Inhalt

  • Actor-, Service-, Batch- und Stream-basierte verteilte Programmierung
  • Big Data Systeme
  • Datenserialisierung und Nachrichtenübertragung
  • Datenstrukturen für verteilte Datenhaltung
  • OSI-Modell und Kommunikationsprotokolle
  • Datenpartitionierung und -replikation
  • Konsistenz- und Abstimmungsprotokolle
  • Zeitsynchronisation und Änderungspropagation
  • Verteilte Anfrageplanung

Qualifikationsziele

Die Studierenden

  • können Herausforderungen beim Bau verteilter Systeme (Distributed Systems) benennen,
  • können reaktives, verteiltes Programmieren (Actor Programming) erklären,
  • können Techniken zur digitalen Representation und zum Serialisieren von Daten (Encoding) erläutern,
  • können Verfahren zur Funktionsweise von Netzwerken (Communication) beschreiben,
  • können Standards zur Strukturierung und Anfrage von Daten (Data Models and Query Languages) angeben,
  • können Algorithmen und Datenstrukturen zum verteilten Arbeiten mit Daten (Storage and Retrieval) erläutern,
  • können Techniken zur Gewährleistung von Ausfallsicherheit und Verfügbarkeit (Replication and Partitioning) beschreiben,
  • können Techniken zur Gewährleistung von Konsistenz und Einigkeit (Consistency and Consensus) beschreiben,
  • können Algorithmen für verteiltes Transaktionsmanagement (Transactions) verstehen,
  • können Frameworks zur verteilten Stapelverarbeitung datenintensiver Aufgaben (Batch Processing) und zur verteilten Datenstromverarbeitung (Stream Processing) erläutern,
  • können die Funktionsweise verteilter Datenbankmanagement Systeme (Distributed DBMSs) erklären,
  • können Grundlagen der verteilten Anfrageverarbeitung (Distributed Query Optimization) erklären,
  • sind in der Lage, diese Kenntnisse praktisch in der Programmierung datenintensiver, verteilter Algorithmen anzuwenden,
  • sind in der Lage, wissenschaftliche Arbeitsweisen beim eigenständigen Erkennen, Formulieren und Lösen von Problemen anzuwenden,
  • sind in der Lage, über wissenschaftliche Inhalte frei zu sprechen, sowohl vor einem Publikum als auch in einer Diskussion.

Voraussetzungen

Keine. Empfohlen werden die Kompetenzen, die in dem Modul Algorithmen und Datenstrukturen sowie Datenbanksysteme vermittelt werden.


Verwendbarkeit

Importmodul aus dem M.Sc. Informatik.

Es kann im FB12 verwendet werden im Studiengang bzw. in den Studiengängen

  • B.Sc. Data Science
  • B.Sc. Informatik
  • M.Sc. Data Science
  • M.Sc. Informatik
  • M.Sc. Mathematik
  • M.Sc. Wirtschaftsinformatik
  • M.Sc. Wirtschaftsmathematik

Im Studiengang B.Sc. Informatik kann das Modul im Studienbereich Informatik Wahlpflichtmodule absolviert werden.


Literatur

  • Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017, 978-1449373320
  • Distributed Systems, Maarten van Steen and Andrew S. Tanenbaum, 2017, 978-1543057386
  • Principles of Distributed Database Systems, M. Tamer Özsu and Patrick Valduriez, 2011, 978-1441988331
  • Web-Scale Data Management for the Cloud, Wolfgang Lehner and Kai-Uwe Sattler, 2013, 1489997717
  • Introduction to Parallel Computing, Zbigniew J. Czech, 2017, 978-1107174399
  • Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services, Brendan Burns, 2017, 978-1491983645
  • Spark: Big Data Cluster Computing in Production, Ilya Ganelin and Ema Orhian and Kai Sasaki and Brennon York, 2016, 978-1119254010
  • Reactive Messaging Patterns with the Actor Model, Vaughn Vernon, 2015, 978-0133846836
  • Mining Massive Datasets, Jure Leskovec and Anand Rajaraman and Jeffrey David Ullman, 2014, 978-1107077232
  • Algorithmische Geometrie, Rolf Klein, 2005, 978-3540209560



Bitte beachten Sie:

Diese Seite beschreibt ein Modul gemäß dem im Wintersemester 2025/26 aktuellsten gültigen Modulhandbuch. Die meisten für ein Modul gültigen Regeln werden nicht durch die Prüfungsordnung festgelegt, und können daher von Semester zu Semester aktualisiert werden. Folgende Versionen liegen im Online-Modulhandbuch vor:

  • WiSe 2016/17 (kein Äquivalent)
  • SoSe 2018 (kein Äquivalent)
  • WiSe 2018/19 (kein Äquivalent)
  • WiSe 2019/20 (kein Äquivalent)
  • WiSe 2020/21 (kein Äquivalent)
  • SoSe 2021 (kein Äquivalent)
  • WiSe 2021/22 (kein Äquivalent)
  • WiSe 2022/23 (kein Äquivalent)
  • WiSe 2023/24 (kein Äquivalent)
  • WiSe 2025/26

Das Modulhandbuch enthält alle Module, unabhängig vom aktuellen Veranstaltungsangebot, vergleichen Sie dazu bitte das aktuelle Vorlesungsverzeichnis in Marvin.

Die Angaben im Online-Modulhandbuch wurden automatisch erstellt. Rechtsverbindlich sind die Angaben der Prüfungsordnung. Wenn Ihnen Unstimmigkeiten oder Fehler auffallen, sind wir für Hinweise dankbar.