Die Grenzen des Semantic Web

2. November 2011 um 18:42 4 Kommentare

Es gibt mehrere Gründe dafür, warum das Semantic Web, so wie es vor etwa zehn Jahren vorgeschlagen wurde, nicht funktioniert. Die wesentlichen Kritiken sind bereits vor mehreren Jahren vorgebracht worden und haben seitdem nichts von ihrer Gültigkeit verloren. Inzwischen ist deshalb eher von „Linked Data“ statt von „semantisch“ die Rede, ohne jedoch auf die Werbewirkung von „semantischen Technologien“ zu verzichten.

Aufgrund der hohen Erwartungen, die so am Leben erhalten werden, gibt es immer wieder Erstaunen, wenn die Versprechen eingelöst werden sollen. Letzt Woche wurde beispielsweise von einer Praxis-Studie berichtet, bei der einige einfache Fragen mit verknüpften RDF-Daten beantwortet werden sollten (Reck, Ronald P., Kenneth B. Sall and Wendy A. Swanbeck: Determining the Impact of Eric Clapton on Music Using RDF Graphs: Selected Challenges of Semantics Across and Within Datasets. Balisage 2011). Die Studie erinnerte mich an den vergeblichen Versuch im letzten Jahr, eine einfache Frage mit Linked Data zu beantworten. Schuld sind anscheinend die uneinheitlichen und inkonsistenten Daten. Genaugenommen sind es aber die Menschen und die Realität, welche sich einfach nicht an starre Schemas und Regeln halten wollen, sondern in unzählige Einzelfälle zerfallen. Deshalb ist der Versuch, menschliches Beurteilungsvermögen automatisieren zu können, eine Illusion.

Die Grenzen des Semantic Web liegen dort, wo Menschen verschiedene Quellen beurteilen und aus unterschiedlichen Informationen Schlussfolgerungen ziehen. Diese Schlussfolgerungen haben aber wenig mit automatischen Schlussfolgerung und Inferenz-Regeln zu tun, sondern mit dem gesunden Menschenverstand und persönlichen Entscheidungen. Kein noch so ausgeklügeltes System kann uns die Aufgabe abnehmen, selber den Verstand zu benutzen.

Wie die Studien zeigen, führt der Versuch, denken zu automatisieren, im Semantic Web zu sinnlosen und falschen Ergebnissen. Dies passiert umso schneller, je mehr Daten aus verschiedenen Quellen zusammengeführt, und ohne Nachzudenken (d.h. automatisch) mit Schlussfolgerungsregeln zu weiteren Daten verarbeitet werden („Six degrees of fallacy“). Deshalb ist es sinnvoller, Quellen einzeln und gezielt auszuwählen. Dies gilt vor allem für die Auswahl von Ontologien und automatischen Ableitungsregeln. Dass dabei Ontologie je nach Anwendungsfall umgedeutet und verändert werden, ist unumgänglich. Andernfalls müsste für jede Anwendung eine komplett eigene Ontologie erstellt werden.

Trotz aller Kritik halte ich Semantic Web und Linked Data jedoch nicht für Mythen vom Paradies auf Erden: Solange man sich darüber bewusst ist, dass sich Menschen nicht grundsätzlich ändern lassen, ist es nicht nur legitim sondern unverzichtbar,
daran zu arbeitem dem Paradies näher zu kommen. Das heisst nicht, dass wir irgendwann im Semantischen Datenhimmel ankommen; zumindest lassen sich aber einige Probleme der Aggregation von Metadaten mit RDF etwas abmildern – nicht mehr und nicht weniger.

4 Comments »

RSS feed for comments on this post. TrackBack URI

  1. Dem Paradies ein Schritt näher gelangen wir mit Linked OPEN Data. Schade dass Du das nicht erwähnst. Ich arbeite seit Jahren an Datenintegration. Mit OFFENEN Daten komme ich viel schneller viel weiter, und teilweise gehts sogar NUR mit Open Data.

    Comment by dr0ide — 3. November 2011 #

  2. Ich sehe Linked Data eher als Technologie, die sowohl für geschlosse als auch für offene Datenquellen eingesetzt werden kann. Gleichwohl ist die offene Variante vorzuziehen, auch weil sich Daten dann besser mit anderen anderen Quellen kombinieren lassen. Open Data ist jedenfalls ein anderer Punkt auf der Liste der Gründe warum das Semantic Web nicht ideal funktionieren kann. Zum Glück ist Open Data eine der Punkte, der sich verbessern lässt, indem Daten freigegeben werden. Bei dem von mir angesprochenen Punkt sieht das anders aus: die einzige Lösung wäre, allen Menschen die gleiche Weltsicht vorzuschreiben.

    Comment by jakob — 3. November 2011 #

  3. Hallo Jakob,

    dein Post hat mich dazu gebracht, einmal Gründe zu nennen, warum Menschen überhaupt auf die Idee kommen, Computer wären intelligent bzw. könnten ein „Semantisches Netz“ bilden, siehe http://www.uebertext.org/2011/11/weshalb-computer-nicht-verstehen.html.

    Adrian

    Comment by Adrian Pohl — 8. November 2011 #

  4. Es gibt sicherlich viele andere Beispiele für das Problem, z.B. warum gerade so etwas wie „owl:sameAs“ mit extremer Vorsicht zu verwenden ist. In der Wikipedia gibt es ja diverse Sprachversionen für ein Thema. Diese Beziehungen der Sprachversionen könnte folglich übersetzt werden mit „owl:sameAs“. Dies macht die dbpedia aber sinnvollerweise NICHT, denn das würde z.B. hierzu führen:

    http://en.wikipedia.org/wiki/Academic_department
    owl:sameAs
    http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%84%D0%B5%D0%B4%D1%80%D0%B0_%28%D0%BF%D0%BE%D0%B4%D1%80%D0%B0%D0%B7%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%29
    owl:sameAs
    http://de.wikipedia.org/wiki/Lehrstuhl
    owl:sameAs
    http://en.wikipedia.org/wiki/Professor#Named_professorships

    (Quelle: https://twitter.com/#!/hauschke/status/159249839480258560 )

    Und das ist wirklich nicht gut.

    Comment by dr0ide — 17. Januar 2012 #

Sorry, the comment form is closed at this time.