OpenStreetMap

Analyse des Open-Data-Angebots der DB

Posted by Nakaner on 14 November 2015 in German (Deutsch)

Die Deutsche Bahn hat vor einigen Tagen ihr Open-Data-Portal eröffnet und ein paar erste Datensätze eingestellt. Ich mir diese Datensätze jetzt mal angesehen und mit eigenem Wissen und OSM-Daten verglichen.

Die meisten Datensätze stehen unter der CC-BY 4.0. Da die CC-BY eine Namensnennung verlangt, dürfen diese Daten derzeit noch nicht für OSM genutzt werden. Die DB ist gewillt, uns eine Ausnahmegenehmigung zu erteilen. Ich rechne damit, dass wir diese im Laufe der kommenden Woche erhalten.

UPDATE: Die Erlaubnis liegt uns NOCH NICHT VOR. Bitte die Daten nicht in OSM nutzen!

Stuttgart 21

Die Datensätze von DB Projekt Stuttgart–Ulm GmbH sind die einzigen Datensätze, die derzeit unter der CC-0 verfügbar sind (und deshalb rechtlich keinerlei Beschränkungen unterliegen). Es stehen drei Datensätze zur Verfügung. Sie sind derzeit die einzigen echten Geodaten, alle anderen Datensätze im Portal sind reine Sachdaten.

  • "Geodaten der Tunnelachsen"
  • "Geodaten der Gleisanlagen"
  • "Geodaten der Webcam-Standorte"

Alle drei Datensätze werden als Shapefiles mit EPSG:3857 (Web Mercator) bereitgestellt. Es ist davon auszugehen, dass bei der DB selbst ein andere Bezugssystem zur Planung verwendet wird – höchstwahrscheinlich das DB-Ref, eine Gauß-Krüger-Abbildung, die jedoch von den Gauß-Krüger-Systemen der Vermessungsverwaltungen abweicht [1]. Wie die Daten in Web Mercator transformiert wurden (das ist keine einfache Umrechnung, sondern ein Datumsübergang) wird nicht offengelegt. Diese Frage muss geklärt sein, bevor die Daten in OSM übernommen werden.

In den Datensätzen sind nur die Planfeststellungsabschnitte enthalten, die auch schon planfestgestellt sind. Der Abschnitt um den Flughafen herum fehlt. Hier läuft noch immer das Planfeststellungsverfahren.

Der Datensatz "Geodaten der Gleisanlagen" enthält bei den Tunnel die Flächen der Tunnel, der Querschläge, der Rettungszufahrten, die Rettungsplätze an den Portalen, die Stollen der Zwischenangriffe sowie einige oberirdische Streckenabschnitte (viele sind es ja nicht). Auch die neuen Tunnel der Stadtbahnstrecken um den Hauptbahnhof, die verlegt werden, sind enthalten.

Der Datensatz "Geodaten der Tunnelachsen" enthält die Achsen der Tunnel. Hier sind nur die Tunnel mit Gleisen enthalten (also keine Querschläge und Zwischenangriffsstollen). Beim Fildertunnel fehlt die Oströhre, welche im Datensatz "Geodaten der Gleisanlagen" enthalten ist. Bei der Stadtbahntrasse unter der Heilbronner Straße fehlt auch ein Teil einer Röhre, der im anderen Datensatz als Fläche enthalten ist. Zwischen Bad Canstatt und Untertürkheim sind auch oberirdische Abschnitte enthalten, die im anderen Datensatz fehlen.

"Geodaten der Webcam-Standorte" enthält die Webcam-Standorte als Punkte. Dieser Datensatz ist nur bedingt brauchbar. Er enthält Links auf die Bilder der Kameras. Die Punkte befinden sich nicht am Standort der Kamera, sondern mitten im Blickfeld der Kamera. Dieser Datensatz ist ungeeignet.

Aufgrund der fehlenden Informationen zum Datumsübergang treffe ich hier keine Aussagen über die Lageunterschiede zwischen den bestehenden OSM-Daten und den Daten der DB.

Stationsdaten

Die Datensätze "Stationsdaten" und "Bahnsteigdaten" sind nach DB Station & Service AG und DB Regionetz Infrastruktur (RNI) getrennt. RNI ist eine Tochter der DB, die in einigen Netzen regionaler Bedeutung die Gleise und Bahnhöfe betreibt. Der Rest (der Großteil aller DB-Stationen) wird von DB Station & Service AG betrieben.

Diese Datensätze stehen als CSV und XSLX zur Verfügung. Die Tabelle Stationsdaten enthält folgende Spalten:

  • Bundesland
  • BM (Bahnhofsmanagement) – enthält einen der folgenden Werte: Aachen, Augsburg, Bamberg, Berlin, Berlin Hauptbahnhof, Bielefeld, Bonn, Braunschweig, Bremen Hbf, Chemnitz, Cottbus, Darmstadt, Dortmund, Dresden, Duisburg, Düsseldorf, Erfurt, Essen, Frankfurt (Oder), Frankfurt a.M., Freiburg, Friedrichshafen, Gera, Gießen, Göttingen, Hagen, Halle (Saale), Hamburg, Hannover, Kaiserslautern, Karlsruhe, Kassel, Koblenz, Köln, Leipzig, Magdeburg, Mainz, Mannheim, München, Münster (Westf), Nürnberg, Osnabrück, Potsdam, Regensburg, Rosenheim, Rostock, Saarbrücken, Schleswig-Holstein, Schwerin, Stralsund, Stuttgart, Ulm, Würzburg
  • Bf. Nr. (Bahnhofsnummer) – eine ein- bis vierstellige Nummer für jeden Bahnhof, Nr. 1 bis 7079 sind anscheinend alphabetisch vergeben, neuere Stationen haben Nummern ab 7081 erhalten. Die Nummer wird im Datensatz Bahnsteigdaten verwendet, in der Reiseauskunft kann man sie nicht verwenden.
  • Station – der Name der Station (Kommentar siehe unten)
  • "Bf DS100 Abk." – Betriebsstellenkürzel nach DS100, ein alphabetischer Code (gelegentlich mit Leerzeichen), bei Stationen, die aus mehreren Betriebsstellen bestehen (z.B. Berlin Hbf) ist nur ein Kürzel angegeben
  • Kat. Vst – Kategorie der Verkehrsstation. Die DB hat für jede Station eine Bahnhofskategorie festgelegt (siebenteilige Skala). Danach werden die Stationsgebühren berechnet, die ein Eisenbahnverkehrsunternehmen bei einem Halt dort zu entrichten hat. Eine Liste in PDF-Form dürfen wir schon seit 2008 nutzen, getaggt wird das mit railway:station_category. Derzeit besteht jedoch der Trend bei den Bahnmappern, diese Daten durch ein selbstkreiertes internationaleres Schema zu ersetzen, welches näher an der Fahrplanrealität ist und von kaufmännischen Interessen befreit ist.
  • Straße
  • PLZ
  • Ort
  • Aufgabenträger – die Gesellschaft, die dort den Schienenpersonennahverkehr bestellt
  • Verkehrsverbund – "0", falls keiner existent
  • Fernverkehr – "ja" oder "nein" (siehe unten)
  • Nahverkehr – dto.

In der Spalte "Station" kommen Abkürzungen vor. Regionen, die als Namenszusatz verwendet werden (z.B. "Württ") sind abgekürzt. Ortsnamen sind ausgeschrieben. In Berlin scheint sich die Schreibweise des Stationsnamens meist an die Beschilderung vor Ort zu halten. Außerhalb Berlins stimmt das nicht. In den Daten steht "Wolfgang (Kr. Hanau)", vor Ort steht aber nur "Wolfgang". Selbiges gilt für "Forchheim (b Kalrsruhe)", welche auf den Schildern auf dem Bahnsteig "Forchheim", auf dem gelben Aushangfahrplan vor Ort "Forchheim (b Karlsruhe)" heißt. Die zum Fahrplanwechsel im Dezember 2014 erfolgte Umbenennung von "Bad Friedrichshall-Jagstfeld" in "Bad Friedrichshall Hbf" ist enthalten.

Die Daten in den Spalten Straße, PLZ und Ort sind mit denen auf bahnhof.de identisch. Diese stammen aus Geocoding. Man sieht das ganz schön an Haltepunkten, in deren Umgebung keine Gebäude (also Objekte mit Hausnummer) stehen. Für Seddin wird als Adresse "Kunersdorfer Str. 1, 14554 Seddin" geführt. Dieses Gebäude steht aber auf der anderen Seite des Güterbahnhofs und ist 380 bis 390 Meter vom Haltepunkt entfernt! Desweiteren sind diese Daten veraltet. Aufgrund einer Kommunalreform heißt die Gemeined mittlerweile "Seddiner See", Ortsteil Neuseddin. Mit dem Haltepunkt Baitz ist es sogar noch schlimmer. Hier wird als Adresse "Bahnhofstr. 1, 14822 Brück" genannt. Das ist 5,2 km Luftlinie entfernt! Ok, wer dort landet ist nur noch 760 m Luftlinie vom Bahnhof "Brück (Mark)" entfernt, der an derselben Strecke eine Station weiter Richtung Berlin liegt. ;-)

Interessant ist, dass bei den neuen Stationen entlang der Strecke Bad Friedrichshall Hbf–Sinsheim-Steinsfurt, die erst seit Anfang Mai bedient werden, die Adresse fehlt. Auf bahnhof.de steht hingegen eine.

Ich frage mich, weshalb DB Station & Service AG die Adressdaten überhaupt unter der CC-BY 4.0 veröffentlicht hat. Hat man dort keine Kenntnis vom Datenbankschutzrecht?

Fazit: Wer sich auf die Adressen in diesen Daten und auf bahnhof.de verlässt, ist verlassen. In OSM gehören die Daten auch nicht. Sie sind erstens urheberrechtlich unsauber und zweitens verschlechtern sie die Datenqualität von OSM.

Die Spalten Aufgabenträger und Verkehrsverbund habe ich nicht geprüft. Bei der Spalte "Fernverkehr" gab es wieder Anlass zum Lachen. In weiten Teilen ist die Spalte "Fernverkehr" zwei Jahre alt, stellenweise fünfzehn.

  • Dillenburg, Haiger, Herborn (Dillkreis) (vor zwei Jahren ein EC-Zugpaar)
  • Bad Nauheim (letztes Jahr einzelne Züge in der Tagesrandlage),
  • Bullay DB, Cochem, Wittlich Hbf, Trier Hbf (seit einem Jahr fahren keine Fernzüge mehr nach Trier)
  • Bremerhaven Hbf, Bremerhaven-Lehe Pbf
  • Lehrte
  • Tarp
  • Munster (Örtze)
  • Klinge, Forst (Lausitz)
  • Kronach
  • Pegnitz
  • Schweinfurt Hbf
  • Lutherstadt Eisleben, Sangerhausen, Nordhausen, Leinefelde, Heilbad Heiligenstadt
  • Magdeburg-Buckau
  • Kehl
  • Eberbach (da ist bestimmt niemand in der Zeile verrutscht, weder Dallau noch Eicholzheim haben/hatten Fernverkehr)
  • Heilbronn Hbf (schön wär's, den IR Rennsteig hat man uns 2001 genommen. Oder glaubt DB Station & Service AG an den Erfolg von Der Schnellzug?)

Dessau Hbf hat der Tabelle zufolge keinen Fernverkehr. Das stimmt leider nicht. Freitags hält gegen halb fünf nachmittags der IC 1933 (hat keinen Gegenzug). Er tat das auch schon zeitweise im Fahrplanjahr 2014. Auch Hünfeld fehlt. Dort hält der Mo-Fr IC 1950 Berlin–Leipzig–Bebra–Frankfurt (Di-Fr nur ab Bebra). Der Gegenzug dazu, der IC 2398 hält nicht in Schlüchtern.

Bahnsteigdaten

Auch dieser Datensatz ist nach DB Station & Service AG und RNI getrennt. Wie schon in den Kommentaren im Open-Data-Portal von anderen Usern kritisiert, werden Kommata als Dezimaltrenner verwendet. Folgende Spalten sind vorhanden:

  • bf_nr (Bahnhofsnummer, siehe dazu das Stationsverzeichnis)
  • bahnsteig – Bahnsteigbezeichnung (ein Bahnsteig hat mehere Kanten!), z.B. B01 für Gleis 1, B02 für Gleis 2+3
  • bahnsteigkante_bw_auf_bs – wie vor Ort angeschrieben, z.B. "1", "2", "3"
  • örtliche_bezeichnung – z.B. "Gleis 1", "Gleis 2"
  • nettobaulängen_m – Länge der Bahnsteigkante. Die nutzbare Bahnsteiglänge ist kürzer, das merkt man an Stumpfgleisen, da hier noch ein paar Meter für den Prellbock verlorengehen
  • höhe_bahnsteigkante_cm – Höhe über Schienenoberkante

Bei all meinen Stichproben mit Bahnhöfen, die kürzlich neue Bahnsteige erhalten haben, waren die Bahnsteighöhen aktuell: Weinheim (Bergstraße), Bad Friedrichshall Hbf, Crivitz, Roßlau (Elbe) Pbf, Coswig (Anhalt). Wie es mit Höhen im Altbestand aussieht, habe ich nicht geprüft.

Ein Problem sind hingegen die Bahnsteige, die in ihrer Länge unterschiedlich hoch sind. In Osterburken ist der Bahnsteig an Gleis 1 südlich des Reisendenübergangs 76 cm über Schienenoberkante hoch (S-Bahn-Standard), nördlich davon sind es unter 40 cm. In den DB-Daten steht der Bahnsteig sei 76 cm hoch und 235 m lang. Verschwiegen wird, dass ca. 90 m davon nicht 76 cm hoch sind. An Gleis 2 ist es genauso.

An ausgewählten Stationen habe ich die Bahnsteiglängen mit denen in OSM verglichen. Die OSM-Bahnsteiglängen sind nicht immer verlässlich. Oft sind Bahnsteige von Bing abgezeichnet. Gerade bei unbefestigten Bahnsteigen, deren Oberfläche wie eine gemähte Wiese aussehen, kann man auf dem Luftbild schlecht Anfang und Ende ermitteln. Daher habe ich Bahnsteige verglichen, an denen ich schon vorbeigefahren bin und sie dabei per Videomapping erfasst habe. An allen Bahnsteigen lagen die Unterschiede im Bereich der Messgenauigkeit. Diese Daten sind ok (und aktuell).

Betriebsstellenverzeichnis

Dieser Datensatz enthält die DS100-Kürzel für Betriebsstellen. Auch nicht bundeseigene Eisenbahnen und ausländische Betriebsstellen sind enthalten. Unter Betriebsstellen versteht man Bahnhöfe, Anschluss-, Ausweichanschluss-, Abzweig-, Überleitstellen, Haltepunkte, Blockstellen, Streckenwechsel, Betreiberwechsel usw. Der Datensatz hat folgende Tabellen:

  • Abk (Abkürzung)
  • Kurzname
  • Ländercode
  • Locationcode
  • Gültig ab

Kurzname ist wirklich ein Kurzname. Für maschinelle Anwendungen ist er nur sehr eingeschränkt geeignet. Den Langnamen kann man sich leider nicht einfach aus dem Stationsverzeichnis holen (in beiden steht das DS100-Kürzel), da erstens nicht alle Betriebsstellen Bahnhöfe oder Haltepunkte des Personenverkehrs sind und zweitens eine Station (von DB Station & Service AG) aus mehreren Betriebsstellen bestehen kann.

Bei den Nicht-DB-Betriebsstellen sind die Spalten "Ländercode", "Locationcode" und "Gültig ab" nicht ausgefüllt. Ausländische Betriebsstellen kann man aber an einem X als ersten Buchstaben im Kürzel erkennen.

Der Ländercode entspricht nicht dem politischen Land entspricht, in dem die Betriebsstelle liegt. Er ist vielmehr eine Kennzeichnung, dass die Betriebsstelle von der DB betrieben wird. DB-Bahnhöfe auf Schweizer Staatsgebiet, die aufgrund des Staatsvertrags von 1852 von der DB betrieben werden, tragen ein deutsches Kürzel (R* für Direktion Karlsruhe) und haben den Ländercode "DE".

Netzradar

Den Netzradar-Datensatz habe ich mir nicht genauer angesehen, da er für OSM nicht interessant ist.

[1] Da Vermessung Ländersache ist, gab/gibt es in Deutschland 16 verschiedene geodätische Bezugssysteme. An den Ländergrenzen gibt es Spannungen zwischen den Systemen von bis zu 2 Meter! Aus diesem Grund pflegt die DB ihr eigenes geodätisches Bezugssystem, da ihre Trassen eben des Öfteren über Bundesländergrenzen hinweggehen.

EDIT: Typo

Comment from Streckensucher on 14 November 2015 at 17:46

In dem Datensatz „Betriebsstellenverzeichnis“ fehlen 3½ Betriebsstellen der Harzer Schmalspurbahn (HSB): Gernrode, Bad Suderode, Quedlinburg-Quarmbeck. Wenn der Schmalspurteil von Quedlinburg eine eigene Betriebsstelle ist, fehlt der auch – genauso wie der Schmalspurteil von Wernigerode. Die übrigen Betriebsstellen der HSB habe ich nur stichprobenhaft geprüft und gefunden.

Auffallend ist: Quedlinburg (teilweise), Quedlinburg-Quarmbeck und Bad Suderode wurden erst nach 1994 von Normal- auf Schmalspur umgespurt. In Gernrode wechselt die HSB hinter dem Schmalspurbahnhof auf die ex-Normalspurtrasse.

Comment from Nakaner on 14 November 2015 at 18:21

Im NE-Bereich scheinen noch ein paar Probleme zu schlummern. Zwar ist die Liste bei der Albtal-Verkehrs-Gesellschaft (Stadtbahn Karlsruhe/Heilbronn) schon deutlich aktueller – Stationen, die in den 90er-Jahren bei den Umbauten auf Stadtbahnbetrieb neu eingerichtet wurden, sind enthalten, aber an einer Stelle fällt mir die Zuordnung schwer:

RLSS Langensteinb.Er.
RLBB Langensteinbach
RLSB Langensteinbach

Was davon ist jetzt ist jetzt Langensteinbach Schießhüttenäcker, Langensteinbach Bahnhof und Langensteinbach St. Barbara? https://www.openstreetmap.org/#map=15/48.9155/8.5108

Aber die Umbenennung von Ettlingen Freibad in Ettlingen Albgaubad fehlt. Die DB kennt diesen Bahnhofsteil/Haltepunkt noch als "Ettlingen Freibad". Die Umbennung scheint mindestens fast zwanzig Jahre her zu sein.

Auch bei den Haltestellen der Verkehrsbetriebe Karlsruhe (Straßenbahn Karlsruhe) scheint die Zeit stehen geblieben zu sein. Seit dem 18. November 2013 ist der "Südabzweig" Marktplatz–Poststraße gesperrt, mittlerweile sind Teile davon restlos entfernt. Dennoch kennt die Liste noch die Haltestelle "Marktplatz (Pyramide)", welche heute mitten in der Baustelle liegt.

Comment from DBOpenData on 16 November 2015 at 17:45

Habe gerade die sehr detaillierte Analyse der Daten gesehen. Vielen Dank !

Wir werden mit den entsprechenden Datenlieferanten in den Dialog gehen, wie wir dieses wertvolle Feedback nutzen können. Bitte keine schnellen Aktivitäten erhoffen, wir müssen da erstmal einen Modus Operandi finden. :-(

Aber wir möchten solche Ergebnisse auf jeden Fall in den Quellsystemen nutzen! ^mb

Login to leave a comment