Vorträge
Mit einer Woche Verspätung
stelle ich nun Ihnen die Themen in unserem Seminar vor. Zunächst einmal
möchte ich mich bei Ihnen für diese Verzögerung entschuldigen
und hoffe, daß Sie trotzdem noch motiviert sind, bei unserem Seminar
sich zu beteiligen. Als Basisliteratur zum Seminar empfiehlt sich der Artikel
[CD 97]. Es wird vorausgesetzt, daß alle Studierende des Seminars
diesen Artikel kennen. Die Vortragenden können also insebesondere
beim Aufschreiben der Zusammenfassung und beim Vortrag von diesen Vorkenntnissen
ausgehen. Neben diesem Artikel wird auch das Skript Datenbanksysteme I
vorausgesetzt, das insbesondere ein Kapitel zum Thema Datawarehousing enthält.
Empfehlenswert ist darüberhinaus [Man 97], der eine Übersicht
zum Thema Data Mining gibt. Im folgenden möchte ich nun die einzelnen
Vorträge vorstellen.
Integration von heterogenen Datenquellen
Ein DW führt Daten
aus verschiedenen Quellsystemen zusammen. Diese Quellsysteme sind autark
und wissen nicht, daß ihre Daten in ein DW aufgenommen werden sollen.
Eines der wichtigsten Probleme ist deshalb, wie nun ein Abgleich der Daten
z. B. Adressen durchgeführt werden kann. Dieses grundlegende Problem
wird in [CohA 98] diskutiert und in [CohB 98] ein entsprechendes System
vorgestellt.
Mengenorientiertes Einfügen
In diesem Vortrag geht
es um ein grundlegendes Problem: wie kann in einer Indexstruktur wie z.
B. einem B+-Baum eine Menge von Datensätzen effizient eingefügt
werden. Offensichtlich läßt sich dies dadurch bewerkstelligen,
daß die zur Indexstruktur gehörende Methode zum Einfügen
einzelner Datensätze pro einzufügenden Datensatz einmal aufgerufen
wird. Dies ist aber nicht sehr effizient. In den Artikeln [BHS 98] und
[JNS+ 97] werden zwei verschiedene Ansätze vorgestellt, die eine schnellere
Verarbeitung beim mengenorientierten Einfügen ermöglichen. Mengenorientiertes
Einfügen ist einem DW wichtig, da i. a. die Änderungen aus den
Quellsystemen erst gesammelt und dann im Pulk in das DW propagiert werden.
Implementierung des Datenwürfels durch
eine multidimensionale Indexstruktur
Die Datenwürfel
eines DW können auf zwei verschiedene Weisen implementiert werden.
Eine Möglichkeit besteht darin eine relationale Datenbanksystem hierfür
zu verwenden. Die andere Möglichkeit liegt in der Verwendung einer
speziellen Speicherstruktur. Auf Grund des mehrdimensionalen Charakters
der Daten empfiehlt sich hierbei eine mehrdimensionale Datenstruktur zu
verwenden. Die dabei auftretenden Probleme - insbesondere das Problem des
mengenorientierten Einfügen - werden in [RKR 97] und [KR 98] betrachtet.
Bitmap-Indizes (1 oder 2 Vorträge)
Mit den neuen Anforderungen
im Bereich des DW wurde vor wenigen Jahren eine neue Indexstruktur entwickelt,
die sogenannte Bitmap-Join Indexstruktur, die innerhalb kürzester
Zeit auch bereits in einigen kommerziellen Systemen wie z. B. ORACLE implementiert
wurde und dem Benutzer zur Verfügung steht. Verschiedene Varianten
dieser Klasse von Indexstrukturen werden in [OQ 97] und [WB 98] diskutiert.
In [CI 98] wurde das Problem der Leistungsbeurteilung von Bitmap-Indexstrukturen
betrachtet. Wir haben uns noch nicht entschieden, ob auf Grund des großen
Stoffumfangs in diesem Bereich nicht zwei Vorträge gehalten werden
sollen.
Auswahl von materialisierten Sichten
Eine der wichtigsten
Problemstellungen in einem DW stellt die Auswahl der sogenannten materialisierten
Sichten des Datenwürfels dar, die physisch redundant abgelegt werden.
Ziel dabei ist es, Anfragen im Datenwürfel möglichst effizient
zu unterstützen unter der Nebenbedingung, daß die Nebenkosten
bei Änderungsoperationen niedrig sind. Da die Anzahl möglicher
Sichten exponentiel in der Anzahl der Dimensionen des Würfels ansteigt,
muß man sich bei der Auswahl auf wenige Sichten beschränken.
Wie findet man nun geeignete Sichten? Erste Antworten dazu wurden in [HRU
96] gegeben. Eine ausführliche Behandlung des Problems unter weitaus
realistischeren Annahmen als in dem oben referenzierten Bericht findet
man in [BPT 97].
Erkennen von Assoziationsregeln (2 Vorträge)
Eines der wichtigsten
Aufgaben im Bereich des Data Mining ist das Erkennen von Assoziationsregeln.
Typischerweise sind z. B. Anbieter von Waren wie z. B. ALDI, LIDL, TEGUT,
... an dem typischen Verhalten eines Käufers interessiert (Warenkorbanalyse).
Das Ziel der Warenkorbanalyse ist es, Mengen von Waren zu finden, die häufig
zusammen im Warenkorb liegen. Eine in den USA oft genanntes Beispiel für
eine (durch Data Mining entdeckte ?) Regel ist, daß Windeln und Bier
oft zusammen eingekauft werden. Zu diesem Themenkomplex werden verschiedene
Vorträge angeboten. Im ersten Vortrag, sollen die prinzipiellen Verfahren
vorgestellt werden, um Assoziationsregeln bei der Warenkorbanalyse zu erkennen
[AIS 93], [AS 94].
Im zweiten Vortrag soll
die Implementierung von Assoziationsregeln diskutiert werden. In [TUA+
98] wird auf eine Verallgemeinerung des Konzepts von Assoziationsregeln
und statt SQL die Sprache Datalog [Ull 88] zur Formulierung von Regeln
benutzt wird. Eine Implementierung von Assoziationsregeln mittels relationaler
Datenbanktechnologie wird in [STA 98] vorgestellt.
Clusterung von großen Datenmengen
Algorithmen zur Bildung
von großen Datencluster sind integraler Bestandteil beim Data Mining.
Es gilt dabei aus einer Datenmenge Gruppen von möglichst ähnlichen
Datensätzen zu finden. Zwei Ansätze [ZRL 96] und [GRS 98] sollen
in diesem Vortrag diskutiert und verglichen werden.
Anfragen in Zeitreihen
In diesem Vortrag soll
das Problem der Suche nach ähnlichen Zeitreihen untersucht werden.
Als Grundlage dienen dabei [FRM 94], [YJF 98]. Beispiele von Zeitreihen
sind z. B. Börsenkurse oder das Schlafverhalten von Patienten (das
am Klinikum in Marburg untersucht wird). Durch das Auffinden ähnlicher
Zeitreihen erhofft man sich Prognosen über zukünftige Ereignisse
zu erstellen.
On-Line Berechnung von Anfragen
Die schnelle Berechnung
von Aggregaten ist eine der wichtigsten Aufgaben eines OLAP Servers. Heutige
DBMS unterstützen solche Anfragen in der Form, daß der Benutzer
zunächst die Anfrage in SQL formuliert und dann auf das Ergebnis wartet
(bzw. warten muß). Auf Grund der sehr großen Datenmengen sind
bei diesem Vorgehen die Antwortzeiten nicht akzeptabel. Da der Benutzer
i. a. nicht unbedingt am exakten Ergebnis interessiert ist, sondern sich
auch mit einer Approximation zufrieden gibt, stellt sich die Frage, nach
schnellen Verfahren zur approximativen Berechnung von Anfragen. Eine Lösung
dazu wird in [HHW 97] dargestellt. Dabei werden während die Anfrage
läuft, vorläufige approximative Ergebnisse dem Benutzer zur Verfügung
gestellt.
Literatur
Die Berichte werden als Postscript-Dateien
in
diesem
Directory den Studierenden des Seminars zur Verfügung gestellt.
Beachten Sie dabei, daß der Zugriff nur von einem Rechner des Fachbereichs
Mathematik der Uni Marburg erlaubt ist. Es gibt im Semesterapparat auch
einen Ordner, wo die Berichte eingesehen werden können.
[AAB+ 96] R. Agrawal, A.
Arning, T. Bollinger, M. Mehta, J. Shafer, R. Srikant, "The Quest Data
Mining System", Proc. of the 2nd Int'l Conference on Knowledge Discovery
in Databases and Data Mining, Portland, Oregon, August 1996.
[AIS 93] Rakesh Agrawal,
Tomasz Imielinski, Arun N. Swami: Mining Association Rules between Sets
of Items in Large Databases: SIGMOD Conference 1993: 207-216
[AS 94] R. Agrawal and
R. Srikant, "Fast Algorithms for Mining Association Rules", Proc. of the
20th Int'l Conf. on Very Large Databases, Santiago, Chile, Sep. 1994.
[BHS 98] Jochen van den
Bercken, Steffen Heinz, Bernhard Seeger: On Supporting Bulk Insertions
in Multidimensional Index Structures Efficiently, submitted for publication.
[BPT 97] Elena Baralis,
Stefano Paraboschi, Ernest Teniente: Materialized Views Selection in a
Multidimensional Database. VLDB 1997: 156-165
[CD 97] Surajit Chaudhuri,
Umeshwar Dayal: An Overview of Data Warehousing and OLAP Technology. SIGMOD
Record 26(1): 65-74 (1997)
[CI 98] Chee Yong Chan,
Yannis E. Ioannidis: Bitmap Index Design and Evaluation. SIGMOD Conference
1998: 355-366
[CohA 98] William W. Cohen:
Integration of Heterogeneous Databases Without Common Domains Using Queries
Based on Textual Similarity. SIGMOD Conference 1998: 201-212
[CohB 98] William W. Cohen:
The Whirl Approch to Integration: An overview. submitted to publication
[FRM 94] Christos Faloutsos,
M. Ranganathan and Yannis Manolopoulos Fast Subsequence Matching in Time-Series
Databases, Proc. ACM SIGMOD, Minneapolis MN, May 25-27, 1994, pp. 419-429
[GRS 98] Sudipto Guha,
Rajeev Rastogi, Kyuseok Shim: CURE: An Efficient Clustering Algorithm for
Large Databases. SIGMOD Conference 1998: 73-84
[HHW 97] Joseph M. Hellerstein,
Peter J. Haas, Helen Wang: Online Aggregation. SIGMOD Conference 1997:
171-182
[HRU 96] Venky Harinarayan,
Anand Rajaraman, Jeffrey D. Ullman: Implementing Data Cubes Efficiently.
SIGMOD Conf. 1996: 205-216
[JNS+ 97] H. V. Jagadish,
P. P. S. Narayan, S. Seshadri, S. Sudarshan, Rama Kanneganti: Incremental
Organization for Data Recording and Warehousing. VLDB 1997: 16-25
[KJF 97] Flip Korn, H.V.
Jagadish and Christos Faloutsos Efficiently Supporting Ad Hoc Queries in
Large Datasets of Time Sequences ACM SIGMOD, Tucson, AZ, pp. 289-300, May
1997
[KR 98] Yannis Kotidis,
Nick Roussopoulos: An Alternative Storage Organization for ROLAP Aggregate
Views Based on Cubetrees. SIGMOD Conference 1998: 249-258
[LQA 97] Wilburt Labio,
Dallan Quass, Brad Adelberg: Physical Database Design for Data Warehouses.
ICDE 1997: 277-288
[Man 97] Heikki Mannila:
Methods and problems in data mining (a tutorial). Proceedings of International
Conference on Database Theory (ICDT'97), Delphi, Greece, January 1997,
F. Afrati and P. Kolaitis (ed.), p. 41-55
[OQ 97] Patrick E. O'Neil,
Dallan Quass: Improved Query Performance with Variant Indexes. SIGMOD Conference
1997: 38-49
[RKR 97] Nick Roussopoulos,
Yannis Kotidis, Mema Roussopoulos: Cubetree: Organization of and Bulk Updates
on the Data Cube. SIGMOD Conference 1997: 89-99
[TUA+ 98] Dick Tsur, Jeffrey
D. Ullman, Serge Abiteboul, Chris Clifton, Rajeev Motwani, Svetlozar Nestorov,
Arnon Rosenthal: Query Flocks: A Generalization of Association-Rule Mining.
SIGMOD Conference 1998: 1-12
[Ull 88] Jeffrey D. Ullman:
Principles of Database abd Knowledge-Base Systems, Vol. I+II, Computer
Science Press, 1988
[WB 98] Ming-Chuan Wu,
Alejandro P. Buchmann: Encoded Bitmap Indexing for Data Warehouses. ICDE
1998: 220-230
[YJF 98] Byoung-Kee Yi,
H. V. Jagadish, Christos Faloutsos: Efficient Retrieval of Similar Time
Sequences Under Time Warping. ICDE 1998: 201-208
[ZRL 96] Tian Zhang, Raghu
Ramakrishnan, Miron Livny: BIRCH: An Efficient Data Clustering Method for
Very Large Databases. SIGMOD Conf. 1996: 103-114