Kai Liu, Vignesh Prabhakar, Chau Vu, Jennifer Crawford und Joseph Waite
Die Generierung von Knowledge Graph Embeddings (KGEs) zur Darstellung von Entitäten (Knoten) und Beziehungen (Kanten) in großen Wissensgraphen-Datensätzen ist ein anspruchsvolles Problem beim Repräsentationslernen. Dies liegt hauptsächlich daran, dass die Einbettungen/Vektordarstellungen, die erforderlich sind, um den gesamten Datenumfang in einem großen heterogenen Graphen zu kodieren, eine hohe Dimensionalität aufweisen müssen. Die Ausrichtung einer großen Anzahl von Vektoren erfordert viel Platz, was durch die Projektion der Einbettungen auf höhere Dimensionen erreicht wird. Dies ist keine skalierbare Lösung, insbesondere wenn wir erwarten, dass der Wissensgraph größer wird, um mehr Daten aufzunehmen. Alle Bemühungen, die Einbettungen auf eine geringere Anzahl von Dimensionen zu beschränken, könnten problematisch sein, da unzureichender Platz zur räumlichen Ausrichtung der großen Anzahl von Einbettungen/Vektordarstellungen innerhalb einer begrenzten Anzahl von Dimensionen zu schlechten Schlussfolgerungen bei nachgelagerten Aufgaben wie der Linkvorhersage führen könnte, die diese Einbettungen nutzen, um die Wahrscheinlichkeit der Existenz eines Links zwischen zwei oder mehr Entitäten in einem Wissensgraphen vorherzusagen. Dies ist insbesondere bei großen biomedizinischen Wissensgraphen der Fall, die mehrere unterschiedliche Entitäten wie Gene, Krankheiten, Signalwege, biologische Funktionen usw. in Beziehung setzen, die für die Anwendung von Wissensgraphen in der Arzneimittelforschung klinisch relevant sind. Die Größe der biomedizinischen Wissensgraphen ist daher im Vergleich zu typischen Benchmark-Wissensgraphen-Datensätzen viel größer. Dies stellt eine enorme Herausforderung bei der Generierung von Einbettungen/Vektordarstellungen guter Qualität dar, um die latente semantische Struktur des Graphen darzustellen. Versuche, diese Herausforderung durch Erhöhung der Dimensionalität der Einbettungen zu umgehen, führen häufig zu Hardwarebeschränkungen, da die Generierung hochdimensionaler Einbettungen rechenintensiv und oft nicht durchführbar ist. Um die latente Struktur solcher groß angelegten Wissensgraphen (KGs) praktisch darzustellen, schlägt unsere Arbeit ein Ensemble-Lernmodell vor, bei dem der vollständige Wissensgraph in mehrere kleinere Untergraphen aufgeteilt wird und KGE-Modelle Einbettungen für jeden einzelnen Untergraphen generieren. Die Ergebnisse der Linkvorhersage aus den an jedem Untergraphen trainierten KGE-Modellen werden dann aggregiert, um einen konsolidierten Satz von Linkvorhersagen über den gesamten Wissensgraphen hinweg zu generieren. Die experimentellen Ergebnisse zeigten eine signifikante Verbesserung der rangbasierten Bewertungsmetriken bei aufgabenspezifischen Linkvorhersagen sowie bei allgemeinen Linkvorhersagen in vier Open-Source-Datensätzen zu biomedizinischen Wissensgraphen.