Votre panier est actuellement vide !
Open data. Donner, protéger ou partager

Écrit par
dans
Faut-il ouvrir le robinet des données de transports à grands flots, en exigeant des transporteurs qu’ils mettent tout sur la place numérique publique, comme l’ont demandé les députés le 27 janvier par l’adoption, contre l’avis du gouvernement, d’un amendement surprise pendant les débats sur le projet de loi Macron ? L’open data est certes dans l’ère du temps. De plus en plus de collectivités locales ouvrent leurs données, au premier rang desquelles celles liées à la mobilité, qu’il s’agisse des réseaux de transport public urbain, des VLS ou des parkings publics. Rennes a ouvert le bal en 2010, bientôt suivie par les agglomérations de Montpellier, Lyon, Strasbourg, Toulouse (la première à avoir ouvert le temps réel), Bordeaux, Nantes, Nancy, Issy-les-Moulineaux, quelques régions (Auvergne, Alsace…) et départements. Mais le sujet est complexe. Il a d’ailleurs fait l’objet d’un comité du débat national piloté par l’Agence française pour l’information multimodale et la billettique (Afimb) pour harmoniser les positions et obtenir un consensus, en amont du projet de loi numérique. Président du débat, Francis Jutand, directeur scientifique de l’Institut Mines Télécom devait remettre son rapport au secrétaire d’Etat chargé des Transports, Alain Vidalies, le 12 mars.
L’idée : étendre l’ouverture des données publiques aux acteurs hors périmètre de la loi Cada de 1978, en créant la notion « d’information d’intérêt général ». Le but : la simplification de l’accès aux diverses sources de données de transport dans le but de stimuler les initiatives, les innovations, et, in fine, d’améliorer les qualités des transports. Louable, simple sur le papier, l’objectif se heurte à de multiples contraintes : formats utilisables par tous, licences, définition des données et limites du secret des affaires… Sans parler des freins psychologiques ou financiers. C’est pourquoi, de l’avis du député UDI Bertrand Pancher, fervent défenseur de l’open data, l’amendement voté est trop flou. Le texte demande à toute entreprise assurant « un service régulier de transport public de personnes » de rendre accessible les horaires théoriques, de manière « à permettre leur réutilisation aisée ». Rien sur les aspects pratiques, les modalités d’application étant renvoyées à un décret en Conseil d’Etat, rien sur les informations en temps réel, pourtant les plus utiles du point de vue du voyageur…
Il faut dire que les députés visaient là principalement la SNCF, qui bien qu’ayant ouvert 52 jeux de données – contre 18 il y a un an – notamment Transilien, y compris le temps réel, ou son référentiel des gares (voir https://data.sncf.com), répugne à diffuser les données commerciales du TGV. Sollicitée pour une interview, elle nous a opposé un refus de principe au nom d’une actualité brûlante… Il faudra donc se contenter des déclarations d’intention de son directeur Digital, Yves Tyrode qui, le 10 février, évoquait leur ouverture selon un modèle freemium. « Les start-up, les utilisateurs qui utilisent peu de données ne paieront pas, ou très peu, l’accès à ces données.
En revanche, les gros utilisateurs – je pense en particulier aux multinationales du Net – paieront davantage », a-t-il dit, sans dévoiler de tarif.
Un modèle qui a déjà séduit le Grand Lyon.
Il faut dire aussi, comme le souligne un participant au comité du débat, que « le retour sur investissement à l’open data est encore relativement faible. Il y a peu d’applications très pertinentes et surtout durables. » A titre de contre-exemple, le partenariat entre la RATP et Sharette, start-up présente à son opendatalab, qui devrait aboutir au lancement cet été d’une appli de covoiturage local dynamique, en rabattement sur les TC.
Il y a encore quelques années, le Gart s’inquiétait de la monétisation des informations par les géants du web, par l’intermédiaire de la publicité. Les AO finançant la mise à disposition des données d’informations voyageurs, il préconisait « l’instauration d’une redevance d’usage ». Un argumentaire abandonné au profit d’une redevance prenant en compte les coûts supplémentaires engendrés par la mise à disposition des données temps réel, qu’opérateurs et AO s’accordent à juger élevés.
C’est l’une des raisons du « oui mais » à l’ouverture qui ressort de la position de l’UTP en juillet 2014. Les opérateurs souhaitent conserver la maîtrise des données dont ils sont propriétaires. L’UTP suggérait de ne pas ouvrir les données « enrichies » comme les infos en temps réel ou celles issues des services d’information multimodaux. Ou encore, pour cause de secret commercial, les taux de remplissage et les composants de la tarification. L’argumentaire repose sur le risque de délivrer une fausse information au voyageur « susceptible d’engager la responsabilité juridique de l’opérateur. » De manière générale, sont considérées comme sensibles, toutes les données qui pourraient servir à un concurrent. C’est ainsi que la SNCF, entreprise publique qui se prépare à l’ouverture à la concurrence, juge que ses données TGV relèvent du champ concurrentiel (aérien, autocar, et plus tard nouvel entrant ferroviaire). La RATP de son côté cite la validation dans les bus, détaillée par ligne, par arrêt et à la minute. En réponse, le rapport de l’Afimb préconise l’agrégation : « les données d’usage et billettiques pourraient être mises à disposition sous une forme agrégée ». Pour reprendre l’exemple
du bus, elles seraient agrégées sur une tranche horaire pour tous les jours de la semaine.
« Dans le domaine de l’open data, la mobilité occupe une place à part car la demande des réutilisateurs est forte, c’est par les transports – à Rennes – que l’open data a été popularisé, et c’est là qu’on trouve le plus d’utilisations sauvages quand les données ne sont pas ouvertes », juge de son côté Simon Chignard, consultant, formateur et auteur d’« Open data, comprendre l’ouverture des données publiques ». Le rapport de Francis Jutand prend en compte les craintes des acteurs en proposant une classification. Ainsi, trois classes couvriraient les services publics de transports : la première regroupe la topographie des réseaux et les horaires théoriques ; la deuxième, tout ce qui relève du temps réel, la troisième, les OD, données de validation et de sûreté. Seules les deux premières s’ouvrent totalement, sauf l’offre tarifaire si elle « alourdit inutilement la présentation ». Les nouveaux services de mobilité (VLS, autopartage, aires de covoiturage courte distance et stationnement) sont pris en compte sur le même principe.
Les conditions de réutilisation préconisées sont celles de la licence ouverte Etalab. Lorsque leur accès est payant, cette licence serait complétée d’une clause de tarification dont « le prix ne couvre que les coûts supplémentaires engendrés par la mise à disposition. » Concernant les services concurrentiels, le risque d’abus de position dominante de la part des Gafa (Google, Amazon, Facebook, Apple) est mis en avant. « Il ressort que le risque de captation de la valeur des données est crédible », peut-on lire. L’ouverture ne devrait donc être réalisée qu’« accompagnée de mesures robustes permettant de prévenir l’abus de position dominante d’un fournisseur de service d’information ». Le comité estime que l’Europe devrait effectuer la régulation, via un règlement « sur le modèle de ce qui a été fait pour les systèmes informatisés de réservation dans le transport aérien ». La France n’est par ailleurs pas en retard puisque selon l’open data barometer de janvier 2015, elle est 4e derrière la Grande-Bretagne, les Etats-Unis et l’Allemagne, et même 3e (après Grande-Bretagne et Danemark) selon le global open data index 2014 où elle n’était que 12e en 2013. « Les applis mobiles sont la face la plus visible de l’open data, rappelle Simon Chignard. Or une offre de conseil, d’analyse et de prédictif se développe, à l’instar de QUCIT qui fait de l’analyse prédictive des stations de VLS pour en optimiser le remplissage et la maintenance. » Gageons que l’imagination des développeurs sera sans borne.
Cécile NANGERONI
Des freins et des coûts à l’open data
Financiers, techniques, psychologiques, les freins à l’ouverture des données sont de tous ordres. Le Cerema les a identifiés pour expliquer les difficultés rencontrées par certaines collectivités dans le tout récent ouvrage Démarches open data en collectivité – l’éclairage des données de mobilité de David Caubel et David Dubois. « Il y a tout d’abord une mauvaise compréhension de ce qu’est l’open data et de ses enjeux, or elle est nécessaire pour motiver les décideurs à ouvrir leurs données », explique Laurent Chevereau, chef de projet multimodalité au Cerema, coordinateur de l’ouvrage.
Viennent ensuite, en vrac : le manque de confiance dans la qualité de sa propre donnée ; la crainte des agents d’avoir du travail supplémentaire (corrections, fourniture d’explications…) ; les questions juridiques (droit d’auteur, droit de diffusion, de rediffusion, licences etc.) et économiques (gratuit, payant, freemium*) sources de questionnements réels, mais aussi de peurs. « Dans les services, l’idée d’ouvrir peut aussi être vécue comme une perte de pouvoir, parce qu’on n’est de fait plus les seuls experts », souligne-t-il.
Naturellement, la question « combien ça coûte ? » ne manque jamais d’être mise sur la table, surtoutquand il s’agit de mettre en ligne des info en temps réel. Montage de projet, plateforme de mise à disposition des données, état des lieux par catégories et formats, animation éventuelle de la communauté open data (un poste au moins), les centres de coûts sont multiples. « D’après les quelques témoignages que nous avons recueillis, l’investissement initial pour la plateforme va de 20 000 à 85 000 euros et parfois la version 2 coûte aussi cher », continue Laurent Chevereau. Le fonctionnement coûterait 5 000 euros annuels à Montpellier, 37 000 à Nantes, la Loire-Atlantique et les Pays de la Loire (qui font plateforme commune). Quant aux moyens humains, ils iraient d’un demi à trois équivalents temps plein. Enfin, tri et nettoyage représentent une somme, « mais il y a un intérêt pour le producteur qui peut bénéficier des améliorations apportées par la communauté. De plus, en réutilisant en interne ses propres données ouvertes, selon le principe “eating your own dog food“, on peut en analyser la qualité ». Quant à la principale motivation pour ouvrir ses données, sans surprise, c’est une question d’image positive associée à la collectivité. Et comme aucune ne souhaite être noyée dans la masse, elles préfèrent généralement avoir leur propre site d’open data plutôt que d’utiliser le portail data.gouv.fr.
C. N.
* Contraction de free et premium.
Pour en savoir plus : http://www.territoires-villes.cerema.fr/open-data-les-travaux-du-cerema-a1219.html
Trois questions à Bertrand Pancher
Bertrand Pancher est député (UDI) de la Meuse, il s’était engagé il y a un an à présenter une proposition de loi pour encourager l’ouverture des données publiques.
VR&T. Pourquoi est-il urgent d’imposer aux transporteurs d’ouvrir toutes leurs données ?
Bertrand Pancher. Urgent, oui et non. Oui, parce que l’ouverture des données est vraiment un des enjeux importants pour le développement économique, puisque ça crée de l’activité, mais aussi pour la démocratie car le partage de l’information renforce les liens entre nos concitoyens, les entreprises et les décideurs publics. Non, dans la mesure où une concertation nationale est en cours dans le cadre de la préparation du projet de loi numérique car c’est un sujet complexe et technique. L’imposer dans le cadre d’un amendement à la loi Macron, je pense que c’est une erreur. On n’était pas à quelques mois près. Je suis même peiné de ce camouflet infligé au gouvernement.
VR&T. Des décrets d’application sont néanmoins nécessaires, qui préciseront les modalités techniques… Quels sont les aspects techniques qui posent encore question ?
B. P. Le premier touche aux formes de mise à disposition qui conviennent, à la façon de regrouper et transférer les informations, notamment sur un site par collectivité ou un site national. Le deuxième, la qualité des données : brutes, consolidées ? Jusqu’à quel niveau de détails impose-t-on l’ouverture ? La troisième question, c’est celle de la gratuité. Tout le monde dit « ça doit être gratuit », mais qui paye ? L’usager, le contribuable… Par ailleurs, Vinci, qui exploite des parkings, gagne de l’argent avec ces données publiques. Puisque sur cette question il y a un comité du débat national et une future loi, si j’étais à la place du gouvernement, je ne les prendrais tout simplement pas ces décrets ! L’opinion publique est suffisamment troublée par la rapidité des décisions en France.
VR&T. Est-il souhaitable d’ouvrir les données temps réel et que répondre aux transporteurs inquiets de la réutilisation mercantile de leurs données par les géants de l’Internet ?
B. P. Il faut prendre garde à ne pas créer d’obligation qui soit hors de portée des opérateurs et notamment de la SNCF. Ces données sont-elles considérées comme publiques ? Sont-elles fiables ? Cela coûte-t-il de les mettre à disposition ? Ces questions font naturellement partie du débat. L’inquiétude des transporteurs est légitime car l’appropriation des données, c’est l’appropriation des futures richesses. On est quand même aussi dans une compétition économique. Il n’est pas question de dire puisque c’est « gratos », on reprend tout et l’on fait du business avec les données. Non vraiment cet amendement, c’est de la diarrhée législative !
Propos recueillis par Cécile NANGERONI
Navitia encourage la réutilisation des données
« Si vous avez des données, sans tri ni mise en forme, c’est un peu comme avoir de l’essence sans moteur », a comparé Guillaume Crouïgneau, directeur général de Canal TP, la filiale de Keolis, spécialisée dans le numérique, lors de l’Open World Forum de novembre dernier. Face à la masse de données disponibles, trois problèmes peuvent en effet venir compliquer le travail du développeur : « la multitude d’émetteurs et de formats de données, la diversité des modes de transports et bien sûr, le fait que ce que tout le monde veut, dans toutes les villes du monde, c’est pouvoir combiner tous les modes de transports », listait-t-il. D’où l’idée de créer la plateforme d’open service avec l’API navitia.io, censée faciliter et encourager la réutilisation des données.
Sur un seul site, on trouve tous les jeux de données en rapport avec la mobilité dans les villes du monde qui les ont ouvertes, comme Rennes, Toulouse, Lyon, Nantes ou San Francisco, pour ne citer qu’elles. Des données au format GTFS organisées selon l’interface de programmation (API) Navitia. Par le biais de son site, Canal TP reçoit le feed-back des utilisateurs, mais aussi des contributions directes destinées à améliorer le logiciel d’information-voyageurs déjà utilisé par une quarantaine d’agglomérations en France. « L’objectif est de créer avec la communauté ouverte une plateforme de services pour promouvoir les transports publics », poursuit Guillaume Crouïgneau. « L’initiative a déjà donné lieu à plusieurs utilisations dans des applications comme Mytripset, Mappy, HomeNow ou Flat Turtle notamment », précise Bertrand Billoud, directeur marketing de Canal TP.
De plus, sachant que jusqu’à aujourd’hui, la très grande majorité des applications d’information-voyageurs ou de calcul d’itinéraires sont proposées par les exploitants de transport public et que « chacun dans son coin travaillait à créer son calculateur d’itinéraire, nous avons en avril dernier, ouvert notre propre logiciel Navitia », poursuit-il. Un logiciel resté propriétaire pendant 10 ans, désormais en open source sous licence AGPL. « C’est dans le partage et l’échange de savoir-faire que vient la valeur de nos technologies. Et l’innovation ouverte, c’est un continuum, souligne Guillaume Crouïgneau. Un peu comme tous les ingrédients d’un plat bio doivent être bio, tout doit être ouvert : les data, l’API et les codes sources. »
Seul petit bémol : les données ouvertes des réseaux de transport public qui restent très majoritairement au niveau des horaires théoriques. Notamment parce que diffuser les infos temps réel coûte en dispositifs techniques pour les développeurs, en serveur, en bande passante… Le faire via navitia.io permet de libérer ces données à moindre coût, grâce à une diffusion mutualisée. Bref, un dispositif gagnant-gagnant. Car « quand on ouvre les codes, on change la culture de l’entreprise, sa façon de travailler, assure encore le patron de Canal TP. On ne voit plus le monde de manière bipolaire avec d’un côté des clients, de l’autre des concurrents ! ». C. N.
La RATP a entamé sa révolution
D’abord réticente, la RATP a pris le train de l’open data il y a un peu moins de deux ans.
A coups d’événements et de concours, elle stimule activement les développeurs
qui proposent ainsi des services utiles, mais ne touchant pas à son cœur de métier.
On se souvient que par le passé, la RATP était très chatouilleuse sur la propriété de ses données. Elle avait notamment argué de la propriété intellectuelle de son plan des lignes de métro pour interdire à une start-up – en l’occurrence CheckMyMetro – de l’utiliser dans son appli mobile. C’est terminé, le transporteur a fait sa révolution numérique
et libéré un grand nombre de données (http://data.ratp.fr.) parmi lesquelles le fameux plan. Le schéma est utilisable à loisir en respectant la licence qui impose naturellement de ne pas le dénaturer : on peut y ajouter des informations sur les commerces de proximité par exemple, mais pas supprimer des lignes. « Comme tous ceux qui se sont lancés, avant de le faire, nous étions opposés à l’open data, reconnaît Dominique de Ternay, le directeur marketing. Culturellement, ce n’est pas évident : c’est le fruit de notre travail, ça nous coûte etc. »
Le transporteur francilien se penche tout de même sur la question en 2011. Petit benchmarking pour s’apercevoir que le phénomène devient incontournable et qu’ouvrir ses données peut présenter des avantages, « notamment pour le développement de services additionnels dont nous ne souhaitons pas forcément avoir la paternité », poursuit-il. Elle se lance dans l’open data en août 2012. Prête à innover sur ce qui ressort de son cœur de métier – recherche d’itinéraire, géolocalisation des arrêts de bus à proximité, horaires de passage en temps réel – la RATP n’a en effet pas forcément l’envie d’investir en développements pour des applis jugées plus périphériques voire anecdotiques – destinées à occuper son temps de transport par exemple. Autre exemple typique : l’accessibilité. « On ne s’en désintéresse pas, mais on préfère laisser faire ceux qui ont l’information la plus complète sur la chaîne de l’accessibilité, car ces experts feront bien mieux que nous, d’autant qu’ils connaissent également très bien les attentes de ce public », poursuit-il.
Il y a parfois aussi des obstacles techniques. L’opérateur reçoit ainsi une amicale pression pour diffuser l’info sur la disponibilité en temps réel de ses ascenseurs et escaliers mécaniques. « On y travaille activement et durablement, assure Dominique de Ternay. Mais tous nos équipements n’étant pas télésupervisés, c’est très compliqué de fournir une information fiable liée aux pannes. » Pour la même raison technique avouée, elle ne sait pas ouvrir ses données de temps réel. « Pour des questions d’hébergement, de vitesse de transmission d’une grande quantité d’informations et de fiabilité, prévient-il. Mais nous n’y sommes pas opposés ». Dans certains cas, la RATP accepte cependant de diffuser une « donnée imparfaite, mais en prévenant la communauté », plutôt que de ne rien ouvrir du tout. Mais imparfaite ne signifie pas erronée. Aussi énorme soit-il, un fichier comprenant des millions de données doit être stable pour que la RATP accepte de le diffuser. « ce que nous diffusons permet de construire un système de recherche d’itinéraire très performant », assure-t-il encore.
L’avantage de l’open data, c’est aussi de développer des relations avec la communauté des développeurs, un univers qui lui était auparavant totalement inconnu. Elle échange notamment régulièrement avec l’association OpenStreetMap. La RATP a ainsi organisé en octobre 2013 son openDataLib et un an plus tard un concours d’applications (Bang ! Bang ! Challenge). Le jury de ce hackathon a primé Métropoly, jeu d’aventures pour jouer avec les passagers de sa rame, ainsi que PimpMonTrajet fondé sur l’utilisation des émetteurs Beacon pour transmettre automatiquement des infos par SMS selon l’envie des voyageurs. De son côté, le public a plébiscité le projet #MDRatp ou comment découvrir ses voisins de trajet sous un autre jour grâce à une série de stickers collés sur les vitres des rames de métro…
C. N.
Entretien. Francis Jutand : « Nous devons encourager la création de communautés de PME innovantes »
Le directeur scientifique de l’Institut Mines Télécom a présidé le comité du débat national sur l’open data dans les transports qui a donné lieu à un rapport de 148 pages remis le 12 mars au secrétaire d’Etat aux Transports, Alain Vidalies. Francis Jutand nous explique les principes qui doivent présider à la libération des données produites par tous les opérateurs de mobilité.
Ville, Rail & Transports. Quelle sera la philosophie des règles d’ouverture des données de transport ?
Francis Jutand. Il n’y a pas de transport qui ne soit pas en situation de concurrence, fondamentalement. Il ne s’agit plus de s’inscrire simplement dans le cadre de la loi Cada qui visait les données publiques, mais d’aller plus loin. Car peu importe au fond que le service soit géré en régie, qu’il soit conventionné, délégué sous concession… Ce qui doit guider la démarche d’ouverture, c’est tout simplement l’intérêt général. C’est le moyen de mettre fin à ce que j’ai appelé “le gruyère“ car aujourd’hui, en fonction du statut de l’opérateur ou selon la façon dont le service public est rendu, certaines données sont accessibles, d’autres ne le sont pas. C’est difficilement acceptable pour créer un calculateur d’itinéraire. D’où notre préconisation pour que toutes les données qui sont produites par un opérateur de mobilité soient ouvertes. Sachant que l’ouverture se comprend comme la capacité à les réutiliser pour développer des services. La licence Etalab est parfaitement adaptée, sa seule contrainte est d’être vertueux sur l’usage et de citer les données sources.
VR&T. Toutes les catégories de données doivent-elles être traitées de la même manière ?
F. J. Naturellement non. Nous proposons de les classifier dans trois catégories différentes. Dans la première – celle qui comprend topographie, arrêts, structure du réseau, données horaires théoriques et offre tarifaire – les données seront ouvertes sans condition. La deuxième classe englobe tout ce qui touche au temps réel et les services du ministère tiendraient une liste à jour. Elle pourrait s’ouvrir mais cette fois sous conditions parce qu’il y a des questions de sécurité sous-jacentes. Prenant l’exemple d’un accident dans le tunnel de Fourvière ; imaginons qu’un calculateur propose un itinéraire de détournement et engendre une congestion monstre du trafic, ce sera une catastrophe. Donc le gestionnaire de crise doit pouvoir reprendre la main. Enfin, troisième type de données, celles à caractère commercial, typiquement liées à la fréquentation. Elles seront ouvertes pour un usage de recherche et d’analyse, mais pas forcément réutilisables dans le cadre de la création de service, ou alors encore une fois sous conditions. C’est pourquoi, nous préconisons de les diffuser sous une forme agglomérée.
VR&T. Qu’en est-il de la propriété de la donnée, notamment quand sa diffusion donnera lieu à rémunération ? S’agit-il de l’exploitant ou de l’autorité organisatrice ?
F. J. Nous avons évité ce débat. D’ailleurs, il n’est pas sûr que le terme de “propriété“ soit défini. Nous préférons nous appuyer sur la notion d’intérêt général dans le but de faciliter la vie des utilisateurs. Puisqu’il y aura un égal accès aux données, les autorités organisatrices pourront bien entendu s’en emparer pour produire leurs propres services. Si une AO traite les données en produisant de la valeur ajoutée, elle peut ensuite en faire ce qu’elle veut, comme toute entreprise privée le ferait.
VR&T.? Comment la classification élaborée s’applique-t-elle à la SNCF ? En particulier à ses données TGV ?
F. J. On pourra utiliser ses données relatives à tous les services conventionnés,TER et Intercités. En revanche, les données relatives aux services qu’elle crée en situation de concurrence, donc celles du TGV, ont été exclues dans un premier temps. J’ai cependant cru comprendre que la SNCF envisageait de les rendre accessibles, même en l’absence d’obligation formelle. La recommandation générale que nous prônons est d’aller vers un espace de données publiques et privées qui soit ouvert. D’ailleurs, l’Europe, qui travaille sur le sujet, ira probablement vers une préconisation d’ouverture. Nous renvoyons donc la question à l’échelle européenne. Il n’est sans doute pas inutile de gagner un peu de temps car des plateformes pourraient utiliser les données pour réaliser un service de qualité – comme un calculateur d’itinéraire – ce qui leur permettrait d’attirer une clientèle, puis de les monétiser via le référencement, comme cela s’est fait avec les hôtels. On recommande toutefois à la SNCF de commencer dès maintenant à développer des services. De plus, si elle pratique l’open data de manière volontaire, elle peut y mettre les contions qu’elle souhaite, comme par exemple du “share alike“. Dans ce cadre, ceux qui utilisent et enrichissent s’engagent à rendre ouvertes leurs contributions. On crée ainsi des espaces coopératifs. JE pense qu’il y a beaucoup de valeur ajoutée à créer des calculateurs multimodaux et temps réel à l’échelle des agglomérations. Mais nous n’en sommes plus à l’ère des grands projets d’Etat. Nous devons encourager la création de communautés de PME innovantes.
Propos recueillis par Cécile NANGERONI
Grand Paris Express. Des données pour concevoir des services innovants
En juin 2014, la Société du Grand Paris (SGP) promettait d’ouvrir ses données devant 170 contributeurs à l’appel à manifestations d’intérêt sur le numérique. Chose faite le 3 mars 2015, avec les premiers jeux sur data.gouv.fr, en format ouvert : études sur le fuseau et position prévisionnelle des gares de la ligne 15 sud ; prévisions des temps de trajets et de correspondances pour les gares du Grand Paris Express ; fréquences des trains à l’heure de pointe du matin pour les lignes 14, 15, 16, 17 et 18. A mesure de l’avancement du projet, la SGP ouvrira de nouvelles données, tout en actualisant les anciennes. A venir prochainement : les chantiers, études d’impact environnemental, évaluations socio-économiques et projets architecturaux de gares (3D).
Capitaine Train simplifie les données ferroviaires
La jeune entreprise vend des billets de trains sur Internet grâce aux données fournies par les entreprises ferroviaires. Des données qu’elle doit parfois obtenir au « forcing ».
Pour Capitaine Train, la jeune entreprise qui vend des billets de trains par Internet, les données des opérateurs de transports sont essentielles. Ce n’est, bien sûr, pas son cœur de métier, mais c’est indéniablement le socle de son activité. Sans ces données, impossible de proposer son offre de transport à ses clients. Or ces données de transports, qui regroupent aussi bien, les origines-destinations des trains, les horaires, le quai de départ, d’arrivée et celui des correspondances, Capitaine Train a eu du mal à les obtenir auprès de la SNCF, au moins au début de son activité. Une situation que Daniel Beutler, directeur général de Capitaine Train, non seulement comprend, mais accepte, mi-diplomate, mi-philosophe. « C’est normal qu’un grand groupe comme la SNCF, ne donne pas facilement accès à ses données. Il a une notion de prestige et la volonté de ne pas déprécier la qualité de ses données. Il faut du temps pour se connaître et s’apprécier. Capitaine Train était une jeune entreprise qui bousculait les habitudes, il fallait qu’on assoie auprès de la SNCF notre crédibilité technique notamment ».
Pour avoir accès aux données de la SNCF, Capitaine Train a dû se satisfaire du statut d’agence de voyage. « C’était le seul moyen d’avoir accès aux données », explique Daniel Beutler. Mais ce statut ne lui convenait et ne lui convient toujours pas car « c’est à la fois inexact et réducteur, poursuit-il. D’abord nous n’avons pas d’agence physique, nous vendons uniquement par Internet. Ensuite, notre modèle économique est différent des agences puisque nous ne prenons pas de commission auprès des clients. Nous nous rémunérons grâce aux importants volumes de billets vendus pour le compte des transporteurs ».
Capitaine Train revendique plutôt le statut de partenaire, comme avec la DB, pour qui elle est un canal de vente officiel par Internet. Pour pouvoir vendre des billets, Capitaine Train s’est plongé, dès ses débuts, dans l’informatique. Pendant deux ans, entre 2009, au lendemain de la décision de l’Autorité de la concurrence obligeant la SNCF à ouvrir ces données, et 2011, lorsque la version bêta du site a été lancée, Capitaine Train a dû affronter ces problèmes de données. Car les agences de voyages, dont Capitaine Train a le statut, ne sont pas directement connectées aux données de la SNCF réunies sur Résarail, mais indirectement via un système de réservation (Global distribution system). Or les informations y sont déjà encodées par VSC Technologies, puisqu’elles sont destinées au site Voyages-sncf.com. « Prenez les gares par exemple, dit Daniel Beutler. Elles ont un code propre à la SNCF, mais qui n’a pas de sens en dehors. Pour construire notre architecture ouverte et capable d’évoluer, nous devions créer notre propre nomenclature ». Les quelques ingénieurs de Capitaine Train ont passé deux ans à mettre au point une solution informatique satisfaisante, plus fluide car uniquement axée sur le train, et qui ne s’encombre pas des propositions d’autres modes de transports. Malgré tout, le système informatique de Capitaine Train a, depuis, ajouté toutes les offres de la SNCF, y compris Ouigo, les trains étrangers comme ceux de la DB, ou privés comme les trains de Thello. La recherche d’une simple origine-destination devient un véritable défi informatique, mêlant différentes combinaisons de trajets et de tarifs. Et même si aujourd’hui, l’analyse et la simplification des données de la SNCF sont au point chez Capitaine Train, Daniel Beutler plaide pour une mise à disposition des données – sous une forme la plus pure possible – à même d’être utilisées telles quelles.
Ces développements informatiques sont aujourd’hui l’atout de Capitaine Train. Alors que quelques opérateurs de transport parlent de monétiser leurs données, comme l’a notamment évoqué Yves Tyrode directeur digital et communication à la SNCF, le 12 février à l’occasion des Techdays de Microsoft, en tout cas pour les gros utilisateurs, Daniel Buttler n’a pas envie de payer. « D’abord, nous n’avons pas la taille de Google ni des autres géants du net », avance-t-il. Certes, il reconnaît que Capitaine Train tire un bénéfice de ses données à travers la vente de billets, mais relativise le bénéfice en précisant que l’entreprise y apporte une grande valeur ajoutée.
Quant à la crainte qu’inspirent les GAFA (Google, Apple, Faceboock, Amazon) aux opérateurs de transports, qui y voient une intermédiation rampante, les privant de la distribution de leurs billets, grande source de revenus, Daniel Beutler ne voit pas les choses de la même manière. « Le ferroviaire est un domaine très complexe. Généralement, le modèle de Google, c’est un marché de masse, mais superficiel qui n’entre pas trop dans le détail », juge l’ancien responsable des ventes de la DB pour l’Europe de l’ouest, arrivé chez Capitaine Train, il y a quelques mois. La volonté de la SNCF de protéger ses données n’est d’ailleurs pas partagée par la DB. Lorsque Google est venu à Paris il y a environ deux ans, demander à la SNCF l’accès à ses bases informatiques, le géant a été éconduit, alors que le lendemain, il obtenait le feu vert de la DB, à Berlin. Une attitude qui a surpris les Français, avant de les irriter. La DB avait aussi ouvert à Google les données concernant les trains internationaux de sa filiale commune avec la SNCF, Aleo !
Yann GOUBIN
Témoignage. « Il nous faut des données brutes et normalisées »
La donnée transport est essentielle pour Instant System, entreprise informatique qui construit des systèmes d’aide au déplacement. Selon elle, il faut des données régulièrement mises à jour et faciles à collecter grâce à des normes communes.
Instant System est une entreprise informatique qui conçoit des systèmes d’aide aux déplacements pour le compte de collectivités, d’AOT, ou d’opérateurs de transports. Pour elle, la donnée transport, c’est sa matière première. Sans les précieuses informations sur les déplacements, les gares, les arrêts, les horaires, les statistiques d’embouteillages, la disponi-
bilité des vélos, ou
d’autres paramètres indirectement liés aux transports comme la météo, pas moyen de nourrir les applications informatiques qui constituent les plateformes intelligentes de mobilité qu’elle développe. Alors évidemment, le vote des députés contraignant les opérateurs à ouvrir leurs données, est perçu comme une bonne chose, qui « va dans le sens d’un plus grand attrait pour les transports publics », commente Yann Hervouet, PDG d’Instant System.
Ce qui ne l’empêche pas d’émettre quelques souhaits annexes. D’abord concernant la fiabilité de ces données. « Il est important que les données, même statiques, soient régulièrement mises à jour », afin d’intégrer les nouvelles dessertes par exemple, ou qu’elles tiennent compte des changements d’horaires des périodes de vacances scolaires, même courtes, pendant lesquelles beaucoup de réseaux de taille moyenne allègent leur service. Il est également nécessaire d’adopter des normes communes de diffusion des données (Siri, Neptune, GTFS) afin de faciliter la collecte. « On constate souvent que les données sont un peu prêtes à l’emploi », comme si elles étaient destinées aux fameux étudiants « startuppers » qui ont seulement besoin d’enrichir un site ou un projet avec les deux fonctions les plus demandées : les « origines-destinations » ou les « départs à l’arrêt ».
Instant System, qui a dépassé ce stade, a besoin de décortiquer les informations afin de proposer des fonctions plus avancées. Les horaires de passages vont nourrir ses algorithmes plus complexes de calcul d’itinéraires, et proposer des alternatives à un automobiliste en cas de travaux ou de météo exécrable. D’où le souhait de l’entreprise de disposer de données brutes et non d’interface de programmation (API). Quant à payer, ça n’est pas dans les habitudes de la maison. « Habituellement, nous n’achetons pas les données, qui sont fournies par nos clients », explique Yann Hervouet. Mais il défend aussi le principe de la gratuité à des fins de travail et d’expérimentation. « Nous avons développé de notre propre chef une application pour la région toulousaine, qui sert de démonstrateur et qui s’appuie sur les données ouvertes par Tisséo, raconte-t-il. Il nous aurait été difficile de le faire si les données avaient été payantes ».
Yann GOUBIN
Quid du crowdsourcing
A l’heure où les députés obligent les opérateurs de transports à ouvrir leurs données, la demande n’est-elle pas obsolète ? N’est-on pas déjà passé à l’étape suivante, celle de la collecte des données auprès des utilisateurs de transport, via le crowdsourcing, dans l’esprit du partage de données ? Déjà, l’application Tranquilien, proposée par la SNCF en Ile-de-France, et développée à l’origine par Rand Hindi, fondateur de Snips, s’appuie notamment sur la géolocalisation des voyageurs, pour estimer leur répartition dans une rame et en déduire le taux d’occupation des voitures. C’est également sur le crowdsourcing des automobilistes que fonctionne l’application d’embouteillages Waze, ou encore son pendant pour les transports en commun Moovit.
Malgré ces exemples, le crowdsourcing n’est pas la panacée. « C’est bien sûr efficace dans certains cas, mais ça ne permet pas, par exemple, de prédire une situation, souligne Yann Hervouet, PDG d’Instant System. Avec Waze, les premiers automobilistes pris dans un embouteillage permettent, certes, d’informer les suivants, mais pour eux-mêmes, rien ne leur a permis d’y échapper… » De même, le crowdsourcing n’empêchera pas le voyageur de ne pas trouver de bus à son arrêt habituel, parce que celui-ci aura été déplacé à cause de travaux. Dans ce cas, rien ne remplace l’information fournie par l’opérateur de transports, qui la connaît souvent bien avant l’événement. A condition bien sûr qu’il la diffuse dans son flux d’open data…
Y. G.
A Rennes, l’open data a boosté les développements d’applis de mobilité
Les Rennais n’ont que l’embarras du choix devant les nombreuses applis transports astucieuses créées depuis l’ouverture des données. En plus de la sienne, Keolis en a labellisé six de qualité, ce qui lui permet de surveiller que leur mise à jour est effectuée régulièrement.
Pionnière de l’open data, l’agglomération de Rennes a ouvert ses données en octobre 2010. Un peu plus de quatre ans après, aucun regret. « C’est vraiment une volonté politique, une intention de transparence, raconte Hervé Letort, vice-président chargé de la communication et de la citoyenneté à Rennes Métropole. Nous voulions donner un vrai pouvoir d’invention à toute personne souhaitant utiliser nos données publiques, afin de les rendre utiles », L’agglo avait le pressentiment que les data touchant à la mobilité seraient prisées. Bingo ! Dès le concours « data connexion » lancé jusqu’en mars 2011, avec à la clé 50 000 euros, la majorité des applis inventées touchent à la mobilité. Aujourd’hui sur la cinquantaine de développements, la moitié est spécifique au transport. En 2012, les données temps réel du réseau Star sont venues enrichir la base et les possibilités pour les développeurs, les passionnés et autres start-up.
Le résultat a même été tellement bluffant que l’exploitant a labellisé certains produits, ce qui lui permet de vérifier que les mises à jour sont faites. « Keolis s’est bien sûr intéressé aux applis et devant la qualité de ces outils, en a reconnu officiellement six, dont Handimap qui est dédiée au transport des PMR, poursuit l’élu. C’est un avantage et un aiguillon pour Keolis dont l’appli Starbusmétro s’est aussi inspirée de ce qu’ont fait les autres. » Du coup, les Rennais n’ont que l’embarras du choix en matière d’application pour le calcul d’itinéraire, les horaires, les VLS etc. Entre Rengo Rennes, qui a même essaimé depuis à Strasbourg, Bordeaux ou Nantes en gardant la dénomination Rengo, Go2Rennes, qui intègre les données des parkings et des places disponibles, Rennes Bus Métro qui géolocalise l’utilisateur et lui annonce la distance jusqu’au Vélo Star le plus proche… « C’est l’usage qui crée l’outil, avec des demandes de plus en plus spécifiques, considère Hervé Letort. Ainsi, on a vu se créer un produit pour un lycée : quel bus à la sortie du cours. Il y a une demande d’étudiants de pouvoir éditer un billet de retard etc. Il y a aussi un effet boomerang pour le gestionnaire de services car le retour des usagers lui permet de se questionner sur le positionnement de son offre. »
Il semble que de plus en plus, les données de transports soient utilisées en surcouche dans le cadre d’une appli de services ou de loisirs, via un lien « comment y aller », ce que fait déjà l’appli Keolis officielle pour les événements ponctuels locaux. En cours de développement aussi, l’appli qui compare les temps de déplacement auto-transports en commun, et propose en temps réel un itinéraire de substitution. Rennes Métropole n’a posé aucune limite à l’ouverture de ses données et n’en considère aucune comme confidentielle, pas même celles liées aux tarifs. « Elles sont préparées et normalisées, prêtes à être utilisées et actualisées de manière permanente », ajoute l’élu. Ce qui nécessite 1,5 équivalent temps plein. Malheureusement, la SNCF ne suit pas les mêmes traces et les informations liées aux TER ne sont pas divulguées. Fâcheux pour les applis de mobilité multimodale. La prochaine étape ?
Cécile NANGERONI
A Lyon, des données gratuites pour favoriser l’innovation
« Métropole Intelligente » habituée aux expérimentations de technologies numériques dans les usages quotidiens, Lyon a créé trois licences permettant de réutiliser ses données.
Depuis début 2013, la métropole de Lyon dispose d’une plateforme web de diffusion des données publiques et privées de l’agglomération (smartdata devenu data.grandlyon.com, principal outil de sa politique open data dont la mobilité urbaine constitue un vecteur prioritaire (48 données sur 536 disponibles au total). « Notre politique est de développer au maximum l’information numérique pour favoriser le report modal », indique Gilles Vesco, en charge des Nouvelles mobilités à la Métropole.
Pour faciliter le report modal et les déplacements tous modes, le Grand Lyon a créé des services de mobilité multimodale dont la centrale de mobilité OnlyMoov’ (ex-Info-trafic) et le calculateur Optimod’ sont les plus emblématiques de ces réseaux fédérateurs basés sur les ITS et se nourrissant à l’open data du Grand Lyon. Avec un objectif prioritaire : « renforcer les capacités d’innovation des acteurs de l’agglomération et permettre avant tout au secteur privé de créer des services innovants, facteurs de croissance et de création d’emplois », indique Antoine Courmont, chargé de projet Open Data au Grand Lyon.
Priorité donc aux applications des start-up et autres boîtes spécialisées dans les ITS qui peuvent aujourd’hui bénéficier – et plus encore demain – de la réutilisation des données collectées et croisées sur la plateforme.
« On compte une trentaine d’opérateurs producteurs de données avec lesquels nous avons passé une convention. In fine, nous garantissons la bonne utilisation des données grâce au filtre du licencing », explique Gilles Vesco. Des opérateurs dont les principaux acteurs sont le Grand Lyon et le Sytral (depuis février 2015 seulement) à côté des partenaires Bolloré, JCDecaux, Aéroport de Lyon, parkings, SNCF, autocaristes, départements couverts par l’aire métropolitaine, etc. Tous mettent à disposition leurs données gratuitement (dans 99 % des cas) selon le principe de la licence ouverte Etalab destinée à favoriser la réutilisation commerciale des données, par exemple celles sur « les chantiers perturbants » du Grand Lyon intégrées par les transporteurs routiers.
Cependant, deux autres niveaux de licence prévoient une déclaration-authentification sur l’usage des données pour des raisons de compatibilité avec les politiques publiques d’intérêt général (licence engagée) et une possibilité de redevance en fonction du chiffre d’affaires (licence associée). Dans ce dernier cas, la redevance peut aller jusqu’à 450 000 euros par an pour un opérateur type Google, mais beaucoup moins pour les acteurs à moindre audience (50 000 euros pour moins de 600 000 visites par mois) et même être gratuite pour moins de 300 000 visites par mois. « Ce principe garantit un écosytème concurrentiel équitable et évite les monopoles potentiels des géants de l’internet. La finalité est bien de multiplier les applis et de booster le marché », précise Antoine Courmont.
Selon Gilles Vesco, les demandes en accès « licence associée » connaissent une forte augmentation : 60 demandes pour début 2015 contre 140 en 2014. Outre sept jeux lancés et de nombreuses demandes en cours d’instruction, d’autres sont signées ou très avancées, dont le navigateur Optimod’/Cityway, le compagnon routier CompaLyon/Tekigo, le calculateur GeoVélo, le système carto/GPS Here Navtech, etc.
Claude FERRERO
Première mondiale avec Optimod’Lyon
Le 30 avril, Optimod’Lyon deviendra le premier navigateur urbain multimodal prédictif. Mieux que le temps réel, il permettra de prévoir le trafic à une heure et d’adapter son itinéraire ou son mode de déplacement en conséquence. Fruit de la collaboration de 13 partenaires, Optimod’ a bénéficié d’un investissement de 7 millions d’euros, dont 50 % de l’Ademe.
C. F.