Datenintegration

Bei der Datenintegration werden Daten aus verschiedenen Quellen kombiniert und den Benutzern eine einheitliche Sicht auf sie ermöglicht. Dieser Prozess wird in einer Vielzahl von Situationen von Bedeutung, die sowohl kommerzielle (z.B. wenn zwei ähnliche Unternehmen ihre Datenbanken zusammenführen müssen) als auch wissenschaftliche (z.B. die Kombination von Forschungsergebnissen aus verschiedenen bioinformatischen Repositorien) Bereiche umfassen. Die Datenintegration tritt immer häufiger auf, da das Volumen (d.h. große Datenmengen) und die Notwendigkeit, vorhandene Daten gemeinsam zu nutzen, explodieren. Sie ist in den Mittelpunkt umfangreicher theoretischer Arbeiten gerückt, und zahlreiche offene Probleme bleiben ungelöst.

 

Probleme mit der Kombination heterogener Datenquellen, oft auch Informationssilos genannt, unter einer einzigen Abfrageschnittstelle bestehen seit einiger Zeit. In den frühen 1980er Jahren begannen Informatiker, Systeme für die Interoperabilität heterogener Datenbanken zu entwickeln. Das erste Datenintegrationssystem, das auf strukturierten Metadaten basiert, wurde 1991 an der University of Minnesota für die Integrated Public Use Microdata Series (IPUMS) entwickelt. IPUMS verwendete einen Data-Warehousing-Ansatz, der Daten aus heterogenen Quellen in ein einziges Ansichtschema extrahiert, transformiert und lädt, damit Daten aus verschiedenen Quellen kompatibel werden. Durch die Interoperabilität Tausender von Bevölkerungsdatenbanken hat IPUMS die Machbarkeit einer groß angelegten Datenintegration demonstriert. Der Data Warehouse-Ansatz bietet eine eng gekoppelte Architektur, da die Daten bereits physisch in einem einzigen abfragbaren Repository abgeglichen sind, so dass die Lösung von Abfragen in der Regel wenig Zeit in Anspruch nimmt.

Der Data-Warehouse-Ansatz ist für Datensätze, die häufig aktualisiert werden, weniger praktikabel, so dass der Extraktions-, Transformations- und Ladeprozess (ETL) zur Synchronisation kontinuierlich neu ausgeführt werden muss. Schwierigkeiten ergeben sich auch beim Aufbau von Data Warehouses, wenn man nur eine Abfrageschnittstelle zu zusammengefassten Datenquellen und keinen Zugriff auf die vollständigen Daten hat. Dieses Problem tritt häufig auf, wenn mehrere kommerzielle Abfragedienste wie Reise- oder Kleinanzeigen-Webanwendungen integriert werden.

Ab 2009 favorisierte der Trend in der Datenintegration eine Lockerung der Kopplung zwischen den Daten[Zitierung erforderlich] und die Bereitstellung einer einheitlichen Abfrageschnittstelle für den Zugriff auf Echtzeitdaten über ein vermitteltes Schema, das den direkten Abruf von Informationen aus Originaldatenbanken ermöglicht. Dies steht im Einklang mit dem damals üblichen SOA-Ansatz. Dieser Ansatz basiert auf Mappings zwischen dem vermittelten Schema und dem Schema der Originalquellen und wandelt eine Anfrage in spezialisierte Abfragen um, die dem Schema der Originaldatenbanken entsprechen. Solche Zuordnungen können auf zwei Arten spezifiziert werden: als Zuordnung von Entitäten im vermittelten Schema zu Entitäten in den Originalquellen (der "Global As View" (GAV)-Ansatz) oder als Zuordnung von Entitäten in den Originalquellen zum vermittelten Schema (der "Local As View" (LAV)-Ansatz). Der letztgenannte Ansatz erfordert komplexere Schlussfolgerungen, um eine Abfrage auf das vermittelte Schema zu lösen, macht es aber einfacher, neue Datenquellen zu einem (stabilen) vermittelten Schema hinzuzufügen.

Seit 2010 befasst sich ein Teil der Arbeiten in der Datenintegrationsforschung mit dem semantischen Integrationsproblem. Dieses Problem befasst sich nicht mit der Strukturierung der Architektur der Integration, sondern mit der Lösung semantischer Konflikte zwischen heterogenen Datenquellen. Wenn beispielsweise zwei Unternehmen ihre Datenbanken zusammenführen, haben bestimmte Konzepte und Definitionen in ihren jeweiligen Schemata wie "Ertrag" zwangsläufig unterschiedliche Bedeutungen. In einer Datenbank kann es Gewinne in Dollar (eine Gleitkommazahl) bedeuten, während es in der anderen die Anzahl der Verkäufe (eine ganze Zahl) darstellen kann. Eine gemeinsame Strategie zur Lösung solcher Probleme ist der Einsatz von Ontologien, die explizit Schema-Begriffe definieren und so zur Lösung semantischer Konflikte beitragen. Dieser Ansatz stellt eine ontologiebasierte Datenintegration dar. Andererseits erfordert das Problem der Kombination von Forschungsergebnissen aus verschiedenen bioinformatischen Repositorien eine Benchmarking der aus verschiedenen Datenquellen berechneten Ähnlichkeiten für ein einziges Kriterium, wie beispielsweise den positiven Vorhersagewert. Dadurch sind die Datenquellen direkt vergleichbar und können integriert werden, auch wenn die Art der Experimente unterschiedlich ist.

Ab 2011 wurde festgestellt, dass die aktuellen Datenmodellierungsmethoden jeder Datenarchitektur eine Datenisolierung in Form von Inseln mit unterschiedlichen Daten und Informationssilos verleihen. Diese Datenisolierung ist ein unbeabsichtigtes Artefakt der Datenmodellierungsmethodik, das zur Entwicklung disparater Datenmodelle führt. Unterschiedliche Datenmodelle bilden, wenn sie als Datenbanken instanziiert werden, unterschiedliche Datenbanken. Es wurden verbesserte Datenmodellmethoden entwickelt, um das Datenisolierungs-Artefakt zu beseitigen und die Entwicklung integrierter Datenmodelle zu fördern. Ein erweitertes Datenmodellierungsverfahren rekonstruiert Datenmodelle, indem es sie um strukturelle Metadaten in Form von standardisierten Dateneinheiten erweitert. Als Ergebnis der Neufassung mehrerer Datenmodelle teilt sich der Satz der neuformierten Datenmodelle nun eine oder mehrere Gemeinsamkeitsbeziehungen, die die strukturellen Metadaten, die diesen Datenmodellen jetzt gemeinsam sind, betreffen. Commonality-Beziehungen sind ein Peer-to-Peer-Typ von Entitätsbeziehungen, die die standardisierten Datenentitäten mehrerer Datenmodelle miteinander verbinden. Mehrere Datenmodelle, die dieselbe Standarddateneinheit enthalten, können an derselben Gemeinsamkeitsbeziehung teilnehmen. Wenn integrierte Datenmodelle als Datenbanken instanziiert werden und aus einem gemeinsamen Satz von Stammdaten richtig gefüllt werden, dann werden diese Datenbanken integriert.

Seit 2011 sind Datendrehscheibenansätze von größtem Interesse als vollständig strukturierte (typischerweise relationale) Enterprise Data Warehouses. Seit 2013 sind die Ansätze für Datenseen auf das Niveau von Data Hubs gestiegen. (Siehe alle drei Suchbegriffe Popularität bei Google Trends.) Diese Ansätze kombinieren unstrukturierte oder variierte Daten an einem Ort, erfordern aber nicht unbedingt ein (oft komplexes) Master-Relationsschema, um alle Daten im Hub zu strukturieren und zu definieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.