Hauptinhalt

CS 671 — Datenintegration
(engl. Data Integration)

Niveaustufe, Verpflichtungsgrad Vertiefungsmodul, Wahlpflichtmodul
Lehr- und Lernformen,
Arbeitsaufwand
Vorlesung (2 SWS), Übung (2 SWS),
180 Stunden (60 Std. Präsenzzeit, 120 Std. Selbststudium)
Leistungspunkte,
Voraussetzungen zum Erwerb
6 LP
Studienleistung(en): Erreichen von mindestens 50 Prozent der Punkte aus den wöchentlich zu bearbeitenden Übungsaufgaben und mündliche Präsentation der Lösung von mindestens zwei der Übungsaufgaben.
Prüfungsleistung: Klausur oder mündliche Prüfung (Einzelprüfung)
Sprache,
Benotung
Englisch,
Die Benotung erfolgt mit 0 bis 15 Punkten gemäß der Prüfungsordnung für den Studiengang M.Sc. Data Science.
Dauer des Moduls,
Häufigkeit
Ein Semester,
Jedes Sommersemester
Modulverantwortliche(r) Prof. Dr. Thorsten Papenbrock, Prof. Dr. Bernhard Seeger

Inhalt

  • Datenmodelle und Anfragesprachen
  • Daten Extraktion und Aufbereitung
  • Ähnlichkeitsmaße für einfache und komplexe Datentypen
  • Metadaten- und Abhängigkeitssuche
  • Schematransformation und -abbildung
  • Datentransformation und -reinigung
  • Entitätensuche und -auflösung
  • Architekturen integrierter Informationssysteme
  • Praktische Übung der Datenintegration

Qualifikationsziele

Die Studierenden

  • kennen Grundlegende Ähnlichkeitsmaße für einfache und komplexe Datentypen (Data Matching),
  • kennen Verfahren zur Metadatenextraktion und zur Bestimmung von Datenabhängigkeiten (Data Profiling),
  • kennen Techniken zur Abbildung, Integration und Transformation von Schemata und deren Daten (Schema Alignment),
  • kennen Algorithmen zur Erkennung und Auflösung von Duplikaten und anderer Datenfehler (Entity Resolution),
  • kennen Architekturen und Funktionsweisen moderner, integrierter Informationssysteme (Integrated Information Systems),
  • haben praktische Fähigkeiten im Umgang mit heterogenen, verunreinigten Daten und deren Integration,
  • sind in der Lage, wissenschaftliche Arbeitsweisen beim eigenständigen Erkennen, Formulieren und Lösen von Problemen anzuwenden,
  • sind in der Lage über wissenschaftliche Inhalte frei zu sprechen, sowohl vor einem Publikum als auch in einer Diskussion.

Voraussetzungen

Keine. Empfohlen werden die Kompetenzen, die in dem Modul Algorithmen und Datenstrukturen sowie Datenbanksysteme vermittelt werden.


Verwendbarkeit

Importmodul aus dem M.Sc. Data Science.

Es kann im FB12 verwendet werden im Studiengang bzw. in den Studiengängen

  • B.Sc. Data Science
  • B.Sc. Informatik
  • M.Sc. Data Science
  • M.Sc. Informatik
  • M.Sc. Mathematik
  • M.Sc. Wirtschaftsinformatik
  • M.Sc. Wirtschaftsmathematik
  • LAaG Informatik

Im Studiengang B.Sc. Informatik kann das Modul im Studienbereich Informatik Wahlpflichtmodule absolviert werden.


Literatur

  • Ulf Leser, Felix Naumann: Informationsintegration (dpunkt, 2006)
  • AnHai Doan, Alon Halevy, Zachary Ives: Principles of Data Integration (Morgan Kaufmann, 2012)
  • Ziawasch Abedjan, Lukasz Golab, Felix Naumann, Thorsten Papenbrock: Data Profiling Synthesis Lectures on Data Management (Morgan & Claypool, 2018)
  • George Papadakis, Ekaterini Ioannou, Emanouil Thanos, Themis Palpanas: The Four Generations of Entity Resolution (Morgan & Claypool, 2021)



Bitte beachten Sie:

Diese Seite beschreibt ein Modul gemäß dem im Wintersemester 2023/24 aktuellsten gültigen Modulhandbuch. Die meisten für ein Modul gültigen Regeln werden nicht durch die Prüfungsordnung festgelegt, und können daher von Semester zu Semester aktualisiert werden. Folgende Versionen liegen im Online-Modulhandbuch vor:

Das Modulhandbuch enthält alle Module, unabhängig vom aktuellen Veranstaltungsangebot, vergleichen Sie dazu bitte das aktuelle Vorlesungsverzeichnis in Marvin.

Die Angaben im Online-Modulhandbuch wurden automatisch erstellt. Rechtsverbindlich sind die Angaben der Prüfungsordnung. Wenn Ihnen Unstimmigkeiten oder Fehler auffallen, sind wir für Hinweise dankbar.