OpenStreetMap

Suppression de tags inutiles par script

Posted by Pieren on 7 September 2011 in French (Français)

Voila. Le script supprimant le tag "note:qadastre" sur près de 5 millions de bâtiments en France et qui tournait par intermittence depuis quelques semaines est arrivé au bout de son job. Pour se faire, j'ai utilisé les extractions des régions françaises ainsi que les DOM par Geofabrik, ce qui m'a permis de faire tourner le script sur plusieurs régions en parallèle pour augmenter un peu le rythme.
En effet, cette opération m'aura surtout permis de constater à quel point l'API d'OSM est tombé bien bas au niveau des performances. Pour simplement supprimer un tag sur un way, j'ai dû limiter mes uploads à 100 ways sinon j'avais trop d'erreurs de la part du serveur. Au début, j'avais essayé de faire des gros uploads uniques à l'intérieur d'un seul changeset. Mais cela avait pour effet de créer une multitude de changesets qui sont eux-mêmes sujets à problèmes dans le serveur (lors de l'ouverture ou de la fermeture) et qui ralentissent encore un peu plus le process. Pour finir, j'ai trouvé le meilleur compromis avec des changesets les plus gros possible comprenant des petits paquets d'upload (100 ways comme je l'ai dit).
J'ai déjà entamé le nettoyage du tag "note:import-bati" (il en reste 1.8 millions) et je pourrais enfin passer à autre chose de plus intéressant. Au total, j'aurais supprimé 8 millions de tags inutiles rien qu'avec ces deux "notes:" qui ont été malheureusement ajoutés avec les imports massifs et incontrolés du bati cadastral. A eux deux, ils représentaient 80% des tags "note" sur l'ensemble du monde alors qu'ils n'apportaient aucune information.
Je pense que nous n'avons pas fini de nous plaindre de la mauvaise qualité de cet import du cadastre car trop de contributeurs n'ont pas respecté les consignes de vérifications et de contrôle qualités comme nous le suggérions et ont privilégier la quantité à la qualité. La région la plus concernée est celle du nord-pas-de-calais.

Comment from vincent_95 on 7 September 2011 at 21:00

Merci pour cette initiative.
As-tu pu constater une baisse "sensible" du volume des données brutes, par exemple sur les extracts Geofabrik ?

Hide this comment

Comment from Pierre-Alain Dorange on 8 September 2011 at 05:16

Merci de ce travail salutaire.

Hide this comment

Comment from Pieren on 8 September 2011 at 09:07

> As-tu pu constater une baisse "sensible" du volume des données brutes, par exemple sur les extracts Geofabrik ?

"sensible" non. Mais je n'ai pas fait de suivi précis sur ce point. J'ai juste le sentiment que cela a freiner l'augmentation continu de la base. J'ai surtout fait cela pour mettre un coup d'arrêt à la progression de ces tags dans la base puisque l'import du bâti ne s'arrête pas et les auteurs du script qadastre ne semblaient pas vouloir renoncer à ce tag dans leurs fichiers mis à disposition sur leur site (ce qu'ils semblent avoir fait maintenant).
Résoudre le problème du tag "source=cadastre" aurait sans doute un impact beaucoup plus grand mais nous n'avons pas encore de solution satisfaisante pour l'instant.

Hide this comment

Leave a comment

Parsed with Markdown

  • Headings

    # Heading
    ## Subheading

  • Unordered list

    * First item
    * Second item

  • Ordered list

    1. First item
    2. Second item

  • Link

    [Text](URL)
  • Image

    ![Alt text](URL)

Login to leave a comment