Nos références

Type de projet

Activité

Événements

Mots-clés

2020
2021
2022
2023
2024
2025

Rosetta

Harvard Medical School
1 / 3

La vue "Dataset Overview" sert à chercher des protéines ou gènes "marqueurs" d'une population de cellules par rapport au reste du jeu de données.

2 / 3

La vue "Group Integration" permet de surligner une population de cellules d'un jeu de données dans le diagramme UMAP de toutes les cellules de tous les jeux de données du projet.

3 / 3

La vue "Flow-like Genomics" permet d'appliquer des filtres en cascade, pour observer les cellules résultantes dans un diagramme UMAP.

Harvard Medical School

Rosetta

Le projet Immunological Genome (ImmGen) entretient divers outils web d'immunologie et de biologie computationnelle.

Nous accompagnons la Harvard Medical School (HMS) en redéveloppant complétement l'une des applications web du projet ImmGen, Rosetta, anciennement basée sur R Shiny, dédiée à l'exploration de jeux de cellules, suivant leurs expressions géniques et protéiques.

L'application intègre de multiples nuages de points, projections UMAP et cartes de chaleur basés sur canvas. Côté serveur, les cellules et leurs expressions sont indexées dans une base Elasticsearch, et les calculs métiers sont exécutés en Python avec la bibliothèque ScanPy.

Un projet de Développement sur-mesure

Visualisation de données Python Elasticsearch DevOps Science des données Performance Web React

Theme crawler

Will & Agency
1 / 4

Le moteur de recherche: chaque colonne du CSV devient un filtre adapté à son contenu.

2 / 4

Dans la configuration du schéma, l'utilisateur peut configurer les types de données des colonnes et extraire des mots-clefs à partir d'une ou plusieurs colonne(s) de texte.

3 / 4

Des réseaux de cooccurrence peuvent être générés depuis n'importe quelle(s) colonne(s) de texte.

4 / 4

Une fois construit le réseau est ouvert dans un nouvel onglet dans Gephi Lite. Gephi Lite est paramétré par l'application pour montrer la bonne légende et appliquer un filtre par défaut (plus grande composante connexe).

Will & Agency

Theme Crawler 2.0

Theme Crawler est un outil d'analyse de co-occurrence de termes développé par Will&Agency pour accompagner leurs consultants dans leurs projets d'analyse des réseaux sociaux. Nous avons collaboré avec eux pour concevoir une nouvelle version, axée sur trois améliorations majeures : une plus grande flexibilité dans l'import des données, une exploration enrichie des métadonnées et de meilleures visualisations de réseaux de co-occurrences.

Notre objectif principal était de permettre l'analyse à partir de toute source de données tabulaires contenant du texte et des métadonnées. Les fournisseurs de données pouvant changer, l'outil devait rester adaptable et compatible avec différents formats.

Une fois un fichier CSV importé, l'outil construit automatiquement un moteur de recherche à facettes à partir des données ingérées. Cela permet aux analystes d'explorer le jeu de données et de lire le contenu de manière plus efficace.

Tous les fournisseurs n'incluent pas d'analyse sémantique dans leurs exports, et lorsqu'ils le font, les résultats manquent souvent de précision. Pour répondre à ce besoin, nous avons ajouté une fonctionnalité d'extraction de mots-clés, permettant aux analystes de générer des extractions sémantiques à partir de n'importe quelle colonne de texte en utilisant spaCy.

Les réseaux de co-occurrences peuvent désormais être construits à partir de n'importe quelle colonne de mots-clés et ouverts dans Gephi Lite via son API broadcast. Cette intégration offre un accès à une plateforme complète de visualisation de réseaux, sans nécessiter de développement supplémentaire.

Un projet de Développement sur-mesure

Datascape Gephi Lite SHS Traitement automatique des langues Elasticsearch Python React Science des données PostgreSQL

OSRD

SNCF Réseau
Événement

Lancement du projet OSRD

Un événement interne à la SNCF présente les différents outils métier d'OSRD aux premiers utilisateurs.

Paris, France

Événement

OSRD#2

Un événement organisé par l'équipe d'OSRD pour annoncer les premiers utilisateurs industriels du projet.

Paris, France

1 / 3

L'éditeur d'infrastructure dans OSRD permet de modifier les méta-données des différents éléments d'infrastructure (sections de ligne, signaux, aiguillages...), ou encore de corriger les erreurs d'imports des données d'infrastructure.

2 / 3

La vue "warpée" permet d'enrichir les graphiques espaces temps classiques de la SNCF, avec des données d'infrastructure exhaustives, ou encore du contexte géographique grâce aux données OpenStreetMap.

3 / 3

L'éditeur d'infrastructure permet aussi d'explorer les anomalies d'infrastructure, qui empêchent de faire des simulations correctes. Ces anomalies peuvent ensuite être corrigées manuellement, ou souvent automatiquement.

SNCF Réseau

OSRD : éditeur ferroviaire open source

Nous accompagnons les équipes du projet OSRD en participant au développement d'une application web Open Source rassemblant divers outils d'édition et de gestion d'une infrastructure ferroviaire. Nous intervenons plus particulièrement sur les interfaces web permettant l'édition de l'infrastructure dans un outil cartographique avancé. Nous intervenons également sur certaines briques de visualisation comme le graphique espace-temps.

Si ce projet est centré pour le moment sur l'infrastructure française il a pour vocation à terme à être utilisable dans d'autres contextes. Il fait à ce titre partie de la OpenRail Association qui coordonne les efforts transnationaux de convergence des outils open source ferroviaires.

Un projet de Code et Données ouvertes

Performance Web MapLibre React Visualisation de données Industrie

Gephi Lite

Gephi
Événement

Gephi Week 2022

On se rencontre avec la communauté Gephi. Benoit aide à mettre à jour le connecteur Neo4J, Alexis aide à développer un plugin pour l'export Retina, et Paul aide à faire avancer les spécifications du format GEXF. Aussi, on commence à imaginer Gephi Lite.

Paris, France

Événement

Gephi Week 2024

On se rencontre avec les développeurs de Gephi. On intègre la métrique connected-closeness dans Gephi Lite. On planifie tous ensemble la mise à jour du site web de Gephi, et on debug Gephi Lite.

Copenhague, Danemark

Version

Gephi Lite v0.4

C'est surtout de la maintenance, mais aussi on peut afficher des images dans les noeuds.

Version

Gephi Lite v0.3

Cette version introduit principalement la recherche dans le graphe ainsi que la légende. Plus d'info dans ce fil Twitter.

Version

Gephi Lite v0.2

Première sortie "publique" après un sprint dédié à rendre cette première version aussi utilisable que possible.

Version

Gephi Lite v0.1

Le premier prototype de Gephi Lite qui fonctionne. Sortie plutôt confidentielle.

1 / 3

Sélection "rectangle" dans un graphe dans Gephi Lite

2 / 3

Filtrage dans un graphe dans Gephi Lite

3 / 3

Affichage d'images dans les noeuds dans Gephi Lite

Gephi

Gephi Lite

Développer une version web et allégée de Gephi

Nous avons pris en charge le développement de Gephi Lite, une initiative visant à créer une version allégée et plus accessible du célèbre outil d'analyse de réseaux, Gephi. Notre équipe a conçu et développé Gephi Lite pour répondre à une demande croissante d'outils d'analyse de réseaux sociaux simples d'utilisation, sans sacrifier la profondeur des analyses.

Ce projet, réalisé grâce à notre expertise approfondie en matière de visualisation de données et de développement d'applications web de cartographies de réseaux, souligne notre engagement envers le développement open-source et le soutien aux communautés académiques et de recherche.

Un projet de Code et Données ouvertes

Visualisation de données React Sigma.js Analyse visuelle Sites web statiques Performance Web Gephi Lite

LETTERBOX

C²DH
Mise en prod

Letterbox

Déploiement de l'outil pour l'équipe de recherche.

1 / 3

Les principales vues de LETTERBOX permettent de rapidement voir, pour un type de données et une requête, les entrées d'autres types les plus reliées.

2 / 3

LETTERBOX fonctionne également comme un moteur de recherche plus classique, où les utilisateurs peuvent parcourir la liste des entities d'un type donné.

3 / 3

Capture d'écran de l'interface d'édition de LETTERBOX.

Centre for Contemporary and Digital History (C²DH), Université du Luxembourg

LETTERBOX

Le projet LETTERBOX, porté par l'Université du Luxembourg, vise à exposer l'infrastructure des sociétés écrans au Luxembourg, en utilisant des méthodes numériques normalement utilisées par des historiens.

Dans ce cadre, nous avons développé une application Web pour aider les chercheurs du projet. L'application permet d'une part d'explorer un corpus de données extraites du journal officiel du Luxembourg, et formé de compagnies, de personnes, d'adresses et de pays. D'autre part, elle permet aux chercheurs à modifier les données extraites, par exemple en réunissant deux entités nommées différemment mais qui représentent en fait la même compagnie, ou encore en corrigeant des erreurs d'extraction des données.

Les données sont indexées à la fois dans une base Elasticsearch - qui permet de la recherche floue dans les extraits textuels originels, et dans une base Neo4j - qui permet d'explorer le réseau des relations entre les compagnies, personnes, adresses, pays...

Un projet de Développement sur-mesure

Humanités numériques Analyse visuelle React Elasticsearch Neo4j

Grounding AI

TANTlab, Université technique du Danemark
Mise en prod

ouverture de Grounding AI

Ouverture de l'exposition Grounding AI au Danmarks Teknisk Museum.

Helsingør, Danmark

1 / 4

La carte complète, imprimée sur du vinyle, laisse les visiteurs "explorer" les données physiquement.

2 / 4

L'application présente la carte, à côté d'un panneau contextuel qui affiche la légende, ou des données sur le sujet sélectionné.

3 / 4

L'application fonctionne également sur mobile, pour permettre aux visiteurs de l'exposition de la visiter en même temps qu'ils parcourent la carte physique.

4 / 4

Les visiteurs peuvent consulter des avis positifs et négatifs sur chaque sujet, généré par un LLM nourri du corpus complet.

The Techno-Anthropology Lab, Aalborg University Université technique du Danemark

Grounding AI

Le projet Grounding AI est un projet de recherche, visant à cartographier comment la littérature scientifique mentionne les algorithmes, l'apprentissage automatique, ou encore l'intelligence artificielle.

Un des volets de ce projet a consisté en la construction d'une cartographie, imprimée sur 100m² de vinyle, et exposée au Musée technique du Danemark. La carte a été construite ainsi :

  • Un corpus de publications scientifiques mentionnant les sujets recherchés a été constitué.
  • Toutes les publications ont été vectorisées dans un plongement sémantique.
  • Un algorithme a permis d'extraire des groupements de publications proches sémantiquement (des sortes de "sujets"), et de les nommer automatiquement
  • Les publications et les sujets ont été placées sur un plan, grace à la technique UMAP.
  • Enfin, Mathieu Jacomy a généré l'image qui a servi pour l'impression de la carte physique.

Notre rôle a été de développer une application web mobile pour accompagner cette carte physique. Cette application, au design réactif, permet au visiteurs de l'exposition :

  • De parcourir la carte numérique, pour s'orienter sur la carte physique.
  • De chercher un sujet en particulier, pour en avoir plus d'informations.
  • D'avoir des informations sur le projet de recherche dans son ensemble.

Techniquement, l'application est développée en TypeScript avec React, avec des indexes montés dans le navigateur directement pour la recherche. Les données étant assez compactes, l'application est entièrement servie par GitHub Pages comme un site statique, et son processus de build est entièrement intégré dans les GitHub Actions.

Un projet de Valorisation de données

Humanités numériques Visualisation de données React IIIF Performance Web Sites web statiques

TUT

Will & Agency, Université technique du Danemark, TANTlab, Agora
1 / 3

Le moteur de recherche permettant de filtrer par métadonnée et par la position sur la carte de proximité.

2 / 3

Les textes sont groupés par document. En lisant le document à chaque paragraphe l'interface montre les autres paragraphes les plus proches sémantiquement dans le corpus.

3 / 3

L'interface d'administration permet de créer un dataset puis simplement de lancer les traitements de plongement de mots.

Will & Agency Université technique du Danemark The Techno-Anthropology Lab, Aalborg University Agora

Text Unit Tool

Text Unit Tool (TUT), développé avec des laboratoires et entreprises danois, est un outil d’exploration de grands corpus textuels. Il combine approches qualitative et quantitative en associant filtrage par métadonnées et analyse par plongement de mots.

Cette application web permet de créer un moteur de recherche à facettes à partir d’archives de courts textes (idéalement des paragraphes), structurés en documents, sources et collections. Les textes sont analysés automatiquement par un modèle de plongement, générant une carte de proximité et identifiant les textes similaires.

TUT rend ainsi accessibles à des non-spécialistes des méthodes d’analyse quantitative avancées, facilitant la navigation dans de vastes corpus.

Un projet de Développement sur-mesure

Datascape SHS Traitement automatique des langues Plongements sémantiques React Keystone.js Python Elasticsearch PostgreSQL Science des données

REG⋅ARTS

Beaux-Arts de Paris, INHA, LIR3S, UBE
Mise en prod

Lancement de Reg⋅Arts

Soirée de lancement de la base de données Reg⋅Arts

Palais des Beaux-Arts, Paris

1 / 4

La fiche élève présente les données normalisées, les données brutes (telle que transcrite) et le scan de la page du registre d'où les données ont été extraites.

2 / 4

La page "Dates d'inscription" présente le nombre d'inscription dans le temps. Grâce au filtre sur genre 'femme' on observe que les femmes se sont admises qu'à partir du vingtième siècle. L'annotation de la frise temporelle nous confirme cette information.

3 / 4

La carte des lieux de naissance des élèves né.é⋅s entre 1800 et 1830 utilisant les frontières de 1815 comme fond de carte.

4 / 4

Des cartes historiques de la ville de Paris (fournies par Paris time Machine) permettent de vérifier les changements de rue quand on s'intéresse aux domiciles des élèves. Sur cet exemple, la rue de Chaume s'appelle aujourd'hui la rue des archives.

Beaux-Arts de Paris INHA LIR3S, UBE

REG⋅ARTS Registre d’inscription à l’École des beaux-arts de Paris – 1813-1968

Le registre d’inscription de l’École des beaux-arts 1813-1968 est composé de six volumes conservés aux Archives Nationales et à l'École des beaux-arts. Le projet Reg⋅Arts propose une publication numérique de ce corpus souvent mobilisé par la recherche en histoire de l'art. Cette publication comporte un jeu de données en accès ouvert et une application web d'exploration visuelle associée. Cette dernière permet d’effectuer des recherches libres sur les élèves, les lieux de naissance, les adresses à Paris (1813-1892), les garants, mais aussi de systématiser l’interrogation de la source grâce aux filtres de recherche et leur croisement. Il est possible désormais d’interroger le registre pour en extraire, par exemple, tous les élèves nés à Dijon ayant étudié à l’École entre 1813 et 1840, ou de voir des clusters s’agréger autour de figures comme Jean-Léon Gérôme.

Nous avons accompagné l'équipe de recherche du projet sur plusieurs années. Le premier volet de notre intervention a consisté à créer un jeu de données structuré à partir des transcriptions. Ensuite nous avons conseillé et outillé le travail de normalisation et d'alignement des données. Nous avons veillé à bien conserver les données sources, pour autoriser la vérification de cette mise à distance des sources. Enfin nous avons créé un export du jeu de données au format sémantique linked-art.

Nous avons ensuite co-conçu et développé la publication web de ce jeu de données en collaboration avec Julie Blanc et Lola Duval. Cette application propose d'explorer les inscriptions dans le temps, les lieux de naissance et de domicile des élèves et les liens garants-élèves. Ces différentes modalités visuelles sont reliées par un système de filtres communs qui permet d'étudier un périmètre précis du corpus. Enfin, pour chaque élève, une page dédiée regroupe les informations liées à son ou ses inscriptions à l'école.

Conscient de la difficulté d'analyser des données de registres sur le temps long, nous avons veillé à bien contextualiser les visualisations et données présentées. La page `élèves` présente les différentes étapes ayant abouti aux données normalisées: la photo de la source et la données telle que transcrite avant normalisation. Les visualisations montrent systématiquement le nombre de données non représentées pour cause de données manquantes. Enfin les fonds de cartes géographiques ont été spécialement travaillé pour éviter un maximum d'anachronisme (Girard 2025). Cette application fonctionne totalement dans le navigateur, ce qui simplifie grandement sa maintenance.

Un projet de Développement sur-mesure

Humanités numériques PMTiles MapLibre Wikidata Sites web statiques Datascape React

La Chromobase

Sorbonne Université, CNAM
Mise en prod

Colour matters

Lancement publique de la chromobase à l'occasion du colloque Colour matters.

1 / 6

Page d'accueil de la Chromobase montrant des narratives sous forme de liste et de frise temporelle et une roue chromatique.

2 / 6

La narrative “Persoz, the birth of heritage sciences and medieval colours” avec le marqueur “Jean-François Persoz” et le lien vers sa notice mise en evidence.

3 / 6

L'objet "Register of samples and correspondence, 1850-1930: letter from Camille Koechlin to Horace Koechlin, 4 August 1861" vu dans la roue chromatique.

4 / 6

Une image IIIF sur la page de l'objet Azofuchsine 6B Bayer, CNAM Musée des Arts et Métiers, Paris.

5 / 6

Un texte en cours d'édition : un sélecteur de notices "personne" est ouvert, et propose les personnes déjà présentes dans la base prêtes à être liées.

6 / 6

Une page dédiée de l'éditeur permet de créer des notices en cherchant/important/liant depuis Wikidata.

Sorbonne Université CNAM

La Chromobase raconte le tournant chromatique entre 1851 et 1867 engendré par l'invention des colorants synthétiques.

Chromobase est une base de données en accès libre produite par CHROMOTOPE, un projet financé par l'ERC et dirigé par Charlotte Ribeyrol. Ce programme de recherche explore ce qu'il est advenu de la couleur dans l'Europe industrielle durant la seconde moitié du XIXe siècle. Chromobase montre comment les nouveaux matériaux et techniques de coloration inventés dans les années 1850 ont engendré de nouvelles façons de penser la couleur dans la littérature, l'art, ainsi que dans l'histoire des sciences et des techniques. L'histoire extraordinaire de cette « Révolution de la couleur » du XIXe siècle est racontée à travers une série de récits interdisciplinaires entrelacés, rédigés par des experts de la couleur du monde entier.

Nous avons développé une méthodologie basée sur des récits, où les textes écrits par les chercheurs servent de source à partir desquelles sont créées des données. Le processus éditorial annote les textes fournis par les chercheurs, en reliant des entités telles que des personnes, des organisations, des objets, des techniques, des événements, des couleurs ou des références. Chaque texte édité ajoute ainsi de nouveaux points de données à la base, formant peu à peu un corpus complet d'acteurs (humains et non humains) ayant joué un rôle dans notre objet d'étude. Chaque auteur décide quels éléments spécifiques mettre en avant en en parlant dans son récit. Ainsi, chaque donnée est, par construction, sélectionnée et contextualisée par des textes auxquels il est possible de se référer pour en apprendre davantage sur leurs rôles et leurs interactions.

Pour alimenter ce processus, nous avons développé un gestionnaire de contenu basé sur Keystone.js, incluant des fonctionnalités dédiées telles que l'édition de lien vers des notices dans l'éditeur de texte, un module d'import de données Wikidata ou encore un format de téléchargement d'images haute définition utilisant le générateur de tuiles IIIF bIIIF. La base de données est ensuite transformée en site web statique à l'aide de Astro. Ce site, designé par Julie Blanc, propose une structure hypertextuelle favorisant la sérendipité, et des interfaces visuelles et interactives mettant en avant la matérialité des couleurs du XIXe siècle.

Un projet de Développement sur-mesure

Astro Keystone.js Système de gestion de contenu Datascape Annotations Visualisation de données IIIF Sites web statiques Humanités numériques PostgreSQL

Conseil sigma.js pour G.V()

G.V()
G.V()

Conseil et développement sigma.js

G.V() est une plateforme d'exploration de bases de données graphes, conçue avec des technologies web, notamment sigma.js.

Nous les accompagnons pour améliorer et optimiser leur intégration optimale de sigma.js. En outre, l'équipe G.V() nous sponsorise régulièrement pour développer de nouvelles fonctionnalités open-source, ou encore déboguer et optimiser la base de code de sigma.js.

Un projet de Conseils et accompagnement

Visualisation de données Sigma.js Industrie

Plateforme LASSO

UMRAE, ETIS
Mise en prod

Lasso

La première version a déjà la quasi-totalité des fonctionnalités.

Mise en prod

Lasso

Une nouvelle version qui ajoute la gestion du son et des images dans l'outil d'exploration.

1 / 3

La plateforme LASSO propose d'explorer plusieurs paysages sonores créés par les chercheurs du projet.

2 / 3

Deux cartes sont synchronisées pour faciliter la comparaison de variables: 'agrément' à gauche, niveaux de bruits standards à droite.

3 / 3

Pour chaque point de la carte, on retrouve les valeurs des variables composant le paysage sonore : temps de présence d'oiseaux, du traffic, de voix, niveau sonore et les deux variables émotionnelles agrément et animation.

Unité Mixte de Recherche en Acoustique Environnementale (UMRAE) ETIS, Équipe Traitement de l'Information et Systèmes

Renouveler notre compréhension des paysages sonores urbains

The LASSO platform est une plateforme web publiant des jeux de données spatio-temporel décrivant des paysages sonores. Ces jeux de données ont été produits en collaboration par des équipes de recherche de l'Université de Gustave Eiffel et de l'Université de Cergy-Pontoise. Cette plateforme vise à présenter les avantages de la cartographie des paysages sonores qui propose une approche perceptive beaucoup plus fine que les cartes de bruits standards. Elle fournit aux chercheurs et décideurs des jeux de données exclusifs ainsi qu'un démonstrateur des potentiels d'analyse de cette approche.

Cette plateforme a pour ambition de participer à une meilleure compréhension du rôle que les paysages de données ont à jouer dans la construction des environnements urbains de demain.

Nous avons conçu et développé cette plateforme en une application react sans serveur utilisant la technologie de cartographie vectorielle MapLibre.

Un projet de Valorisation de données

MapLibre React Datascape Sites web statiques SHS

Sigma.js

Sigma.js
Événement

Sprint sigma.js v2.0

Avec les gens du médialab de Sciences-Po, on se réunit quelques jours à Nantes pour finaliser la version 2.0 de sigma.js. On en profite pour refaire complètement le site, et les exemples de code.

Nantes, France

Version

Sigma.js v3.0

Inclut une refonte complète du système de programme, et une réécriture de tout le tooling.

Version

Sigma.js v2.0

La première version de sigma.js basée sur Graphology.

OuestWare et Sciences-Po médialab

Version

React Sigma v1.0

La bibliothèque "officielle" pour utiliser sigma.js dans des applications React.

Benoit Simard

1 / 2

L'application de démonstration du site sigmajs.org

2 / 2

Un exemple d'intégration métier chez ConspiracyWatch

Sigma.js

Sigma.js

Améliorer et maintenir une bibliothèque JavaScript open source

Nous développons et maintenons sigma.js, une bibliothèque JavaScript open source dédiée à l'affichage de graphes. Nous utilisons cette bibliothèque dans une bonne partie de nos projets.

Nous pouvons développer à la demande des fonctionnalités métier dédiées à nos clients, ou des fonctionnalités plus génériques - open-source autant que possible. Nous maintenons également React Sigma, qui facilite l'utilisation de sigma.js dans des applications basées sur React.

Un projet de Code et Données ouvertes

Visualisation de données Sigma.js Performance Web Analyse visuelle

Découvrir la diversité des métiers de la MEL

Métropole Européenne de Lille, Datactivist
1 / 4

Une animation sur la page d'accueil représente la communauté des agents formant la MEL se recomposant par pôle et métiers les plus peuplés.

2 / 4

La cartographie des entités représente l'organisation de la MEL en pôle, directions, services... Quand une entité est sélectionnée, un panneau affiche la liste des entités qui y sont liées, ainsi qu'un bouton permettant de créer une cartographie personnalisée depuis cette entité.

3 / 4

La cartographie personnalisée permet de créer un réseau en y ajoutant successivement les entités, compétence ou métier d'intérêt. Soit en les cherchant, soit en les découvrant dans le voisinage des éléments déjà ajoutés.

4 / 4

Un tutoriel interactif présente les différents modes d'interaction de l'application. Le tutoriel met en évidence les boutons et déclenche automatiquement certaines actions pour mieux illustrer leurs impacts.

Métropole Européenne de Lille Datactivist

Découvrir la diversité des métiers d'une métropole

La Métropole Européenne de Lille (MEL) emploie de nombreux collaborateurs pour animer les services qu'elles offrent à ses administrés. De la jardinière au comptable, une très grande diversité de métiers et de compétences sont mobilisés dans cette grande organisation publique. Nous avons travaillé en collaboration avec les équipes de Datactivist à la création d'une série d'outils d'exploration visuelle permettant de se plonger dans l'environnement professionnel de la MEL.

Il s'agit de démystifier cette grande organisation en révélant les détails des services, métiers et compétences qui l'animent. Pour des personnes extérieures à l'organisation qui pourraient par exemple souhaiter rejoindre l'organisation mais aussi pour les agents de la MEL qui souhaitent se situer voire identifier des pistes d'évolutions de carrière.

Pour répondre à ces objectifs nous avons conçus deux modes d'exploration : tout représenter ou construire une représentation de proche en proche en fonction de ces intérêts. Dans les deux cas, un soin particulier a été porté à l'accompagnement des utilisateurs en proposant une navigation par menu contextuel ainsi que des tutoriels interactifs détaillant les modes d'interactions avec les visualisations.

Un projet de Valorisation de données

React Sigma.js Sites web statiques Ressources Humaines

Une nouvelle version de GraphCommons

Graph Commons
Mise en prod

GraphCommons

Cette nouvelle version bêta entièrement refaite de GraphCommons a nécessité plus d'un an de développement.

Mise en prod

GraphCommons

Une nouvelle version avec du rendu côté serveur, qui améliore entre autres le référencement.

1 / 3

Dans un grand graphe sur la 'dataviz', le nœud 'Benjamin Ooghe-Tabanou' est sélectionné. Ses voisins sont mises en évidence sur le graph et dans le panneau de droite qui présente également les attributs du nœud.

2 / 3

La fonctionnalité payante 'Hub' permet de créer de multiples vues sur une même graphe de connaissance. Sur cet écran nous créons une vue à partir d'une recherche de chemins allant des universités aux outils en passant par les personnes.

3 / 3

Une vue permet d'isoler une partie du graphe de connaissance d'un Hub. Le panneau de droite contient sur cet écran la légende des choix de couleurs reflétant le modèle de données du graphe.

Graph Commons

Une nouvelle version de GraphCommons

Depuis 2021, nous développons et maintenons pour GraphCommons leur plateforme web de cartographie, d'analyse et de partage de données-réseaux. Ce projet a sollicité toute notre expertise en réseaux - de la modélisation et des bases de données jusqu'à la visualisation, ainsi qu'en développement web. Nous avons ainsi intégré Neo4j côté données, ainsi que sigma.js et graphology côté client. Le site est basé sur Next.js et React. Nous continuons à développer régulièrement de nouvelles fonctionnalités, tout en maintenant l'application.

Un projet de Conseils et accompagnement

DevOps Analyse visuelle Neo4j React Sigma.js Visualisation de données

Configuration management database

1 / 3

Page de recherche, à travers les différents types de noeuds

2 / 3

Page d'un noeud, avec son réseau égocentré, la liste de ses voisins directs et ses métadonnées

3 / 3

Exploration des réseaux en plein écran

Client confidentiel

Configuration management database

Exploration d'une CMDB à l'aide de réseaux égocentrés

Un des plus grands groupes industriels français possédant l'intégralité de son système informatique (CMDB) dans une base Neo4j, avait besoin d'une interface d'exploration de son infrastructure.

L'application se compose d'un moteur de recherche, et d'une page pour chaque noeud du graphe, présentant son voisinage et ses métadonnées. Pour avoir un moteur de recherche efficace (tolérance d'erreurs, recherche sur différents champs), nous avons indexé les données dans un ElasticSearch.

L'interface est développée avec Angular, et Node pour l'API - le tout avec TypeScript.

Un projet de Développement sur-mesure

Analyse visuelle Angular Elasticsearch Neo4j Sigma.js Datascape Industrie

Archelec

Sciences Po
Mise en prod

Archelec

La première version comprend le moteur de recherche, ainsi que les pages professions de foi.

Mise en prod

Archelec

Cette nouvelle version embarque la page des visualisations de données.

1 / 4

Un moteur de recherche par facettes de professions de foi des candidat⋅e⋅s aux élections législatives.

2 / 4

Répartition visuelle des documents sélectionnés par année et par département.

3 / 4

Visualisation des profils des candidat⋅e⋅s: pyramide des âges, professions, soutiens...

4 / 4

Pour une profession de foi, les métadonnées peuvent être comparées au document original hébergé par Internet Archive.

Sciences Po

Explorer les professions de foi des élections de la Ve République

Depuis 2013, la Bibliothèque de Sciences Po pilote la mise en ligne des archives électorales réunies par le Centre de recherches politiques (CEVIPOF) et désormais conservées au Département archives de la Bibliothèque : un fonds unique de professions de foi de candidats aux élections (législatives, mais aussi présidentielles, européennes, etc.) depuis 1958.

Après l'avoir publié sur Internet Archive, la Bibliothèque de Sciences Po nous a confié la conception et le développement sur-mesure d'une application d'exploration du corpus, afin d'exploiter la très riche indexation de plus de trente mille documents. Nous avons développé une application web qui permet de filtrer les professions de foi par élection, circonscription, groupe politique, profil des candidat⋅e⋅s...

Les résultats du filtrage peuvent ensuite être explorés en listes, en visualisations de données ou téléchargeables en CSV. Enfin le document original est consultable grâce au lecteur fourni par Internet Archive. Ainsi les choix d'indexation faits par les bibliothécaires et archivistes du projet peuvent être confrontés au document source.

Un projet de Valorisation de données

Elasticsearch React Datascape Humanités numériques

Retina

CIS - CNRS
1 / 4

Première étape: configurer Retina pour le graphe à partager.

2 / 4

Retina permet de filtrer sur différents champs de données, et de changer la taille et la couleur des noeuds.

3 / 4

Le champs de recherche permet de chercher les noeuds, sur leur label ou leurs autres attributs de données.

4 / 4

Sélectionner un noeud permet d'afficher ses attributs et ses relations.

Centre Internet et Société (CIS - CNRS)

Retina

Retina est une application web open-source qui permet de partager en ligne des visualisations de réseaux, sans besoin d'avoir une application serveur à entretenir. Initié par Tommaso Venturini et le Centre Internet et Société du CNRS en 2021, Retina est utilisé par divers acteurs, notamment dans la communauté des utilisateurs de Gephi. Nous l'avons également utilisé comme base pour développer avec WeDoData la cartographie du Web complotiste francophone, pour Conspiracy Watch.

L'interface permet de choisir quels champs de données utiliser pour la taille et la couleur des noeuds, de filtrer les noeuds, ou encore de chercher dans les noeuds. Techniquement, tout se passe dans le navigateur, et tout l'état de l'application est décrit dans l'URL, et les fichiers de données sont chargés depuis n'importe quel serveur qui permet le Cross-origin resource sharing, comme par exemple GitHub Gist.

Un projet de Code et Données ouvertes

Visualisation de données React Sigma.js Analyse visuelle Sites web statiques Performance Web Humanités numériques

HOPPE-Droit

Bibliothèque Cujas
Mise en prod

HOPPE-Droit

Cette première version contient déjà l'essentiel de l'application.

Mise en prod

HOPPE-Droit

Cette version, dans le cadre de notre contrat de maintenance, ajoute la gestion des collections, et met à jour les dépendances du code.

1 / 3

Recherche par facettes des auteurs de la collection

2 / 3

Réseau auteurs-éditeurs liés par leurs productions pédagogiques communes

3 / 3

Généalogie d'un éditeur retraçant les association, acquisition...

Bibliothèque Cujas

HOPPE-Droit

Explorer une collection d'ouvrages pédagogiques en droit français du XIXe-XXe siècles

HOPPE-Droit vise à l’élaboration et la publication d'une collection de notices bibliographiques de productions pédagogiques en droit des XIXe et XXe siècles. Nous avons conçu et développé un outil d’exploration qui permet d’étudier les évolutions du droit français à travers les manuels utilisés pour son enseignement depuis le XIXe siècle.

Le corpus est édité par l'équipe CUJAS dans la base de données Heurist. Ces données sont exportées par l'API et indexées dans un ElasticSearch en prenant soin de conserver la complexité des dates aux différents niveau de précision (date annuelle, au jour près) et d'incertitude. Une application web permet d'explorer et visualiser le corpus sous différents angles: productions, auteurs, éditeurs, réseaux de co-publication, généalogies...

Un projet de Développement sur-mesure

Elasticsearch Heurist React Sigma.js Datascape Humanités numériques

Tremulator 2.0

Florida State University
1 / 6

Une annotation en court d'édition : une géométrie complexe capture le signe sur l'image haute définition du manuscript, un formulaire permet d'associer à l'image des données (ici, une transcription de la transformation et un indicateur de certitude).

2 / 6

La page 334 du manuscript Hatton 116 contenant 12 annotations de quatre types. La couleur de l'annotation indique son type.

3 / 6

Une liste des annotations permet de parcourir rapidement les annotations d'une collection en comparant leurs données associées.

4 / 6

Création d'un nouveau type d'annotation nommé Marginal Gloss. Une couleur lui est associée pour facilement distinguer les différents types. Un formulaire est construit pour recueillir les données décrivant le signe annoté.

5 / 6

Les numérisations de manuscript peuvent être ajoutées à une collection en chargeant des images locales, des images distantes ou un manifeste IIIF distant.

6 / 6

Tremulator permet de créer sa propre collection de numérisation à annoter. Pour chaque image le total du nombre d'annotation est indiqué.

Florida State University

Tremulator 2.0 : collecter des données en annotant

Les manuscrits médiévaux portent rarement de marques directes de propriété, mais les chercheurs peuvent repérer des signes d’usage — annotations, ponctuation ou notes marginales — pour comprendre comment ces livres étaient lus et étudiés. Un exemple célèbre est celui de la « Main tremblante de Worcester », un moine du XIIIe siècle qui a annoté des textes en vieux anglais, utilisant une ponctuation originale pour déchiffrer et interpréter cette langue ancienne. Ses interventions révèlent à la fois sa méthode d’apprentissage et les passages qui retenaient particulièrement son attention, offrant un éclairage unique sur les pratiques de lecture médiévales.

Pour analyser ces traces de manière systématique, Prof. David Johnson utilise des annotations numériques afin de capturer et d’indexer les interventions des lecteurs sur les images des manuscrits. Contrairement à la transcription classique, cette méthode se concentre uniquement sur les marques laissées par les lecteurs, créant ainsi une base de données exploitable pour des analyses quantitatives. En combinant une lecture attentive des annotations individuelles avec des techniques d’analyse à grande échelle, les chercheurs peuvent dégager des tendances et des motifs sur l’ensemble des collections, reliant ainsi l’étude détaillée à l’analyse globale.

L’application Tremulator 2.0 a été conçue pour soutenir cette démarche, en utilisant les standards IIIF pour accéder à des images haute résolution et en permettant la création de schémas d’annotation personnalisés pour divers besoins de recherche. Elle offre la possibilité de collecter, explorer et exporter des données. Cet outil s’avère précieux non seulement pour l’étude des manuscrits, mais aussi pour les humanités numériques, l’histoire de l’art et d’autres domaines nécessitant l’analyse de données visuelles irrégulières.

Un projet de Développement sur-mesure

Humanités numériques Annotations IIIF React PostgreSQL

Digitization of Everyday Life

TANTlab
1 / 3

Un moteur de recherche de passage d'entretiens et d'observations de terrain

2 / 3

Chaque document du corpus a sa propre page web.

3 / 3

Les documents ont été découpés en segment. Chaque segment peut être référencé et qualifié par des tags.

The Techno-Anthropology Lab, Aalborg University

La numérisation de la vie quotidienne pendant la pandémie

Nous avons développé une application web qui permet à une équipe de recherche d'analyser un corpus d'observations ethnographiques en permettant de naviguer et qualifier le matériel collecté. Ce corpus a été collecté pendant le confinement lié au COVID-19 entre avril et juin 2020 au Danemark. Il contient 222 entretiens, 84 journaux, et 89 observations de terrain.

Cette étude fait partie du projet "The Grammar of Participation: The Digitization of Everyday Life During the Corona Crisis" qui a été mené par des chercheurs du Centre for Digital Welfare de la IT University of Copenhagen et du Techno-Anthropology Lab de la University of Aalborg.

Cet outil n'est pas accessible publiquement. L'accès aux données est réservé à l'équipe de recherche. Les copies d'écran ci-dessous ont été réalisé avec de fausses données.

Un projet de Valorisation de données

Elasticsearch React Humanités numériques

TOFLIT18

LEDA, Paris Dauphine, PSL
1 / 3

Les flux de commerce exportés depuis Nantes entre 1720 et 1780

2 / 3

Optimisation du calcul du taux de couverture des classifications

3 / 3

Le permalien du réseau de termes des exports de Nantes au XVIIIe siècle

LEDA, Paris Dauphine, PSL

TOFLIT18

TOFLIT18 est un outil d'exploration visuelle du commerce par marchandise de la France au XVIIIe siècle. Nous avons amélioré cet outil créé par le médialab de Sciences Po en optimisant les requêtes Neo4j et en ajoutant une table de données de flux de commerce ainsi qu'un système de permaliens.

Un projet de Code et Données ouvertes

Humanités numériques Neo4j React Sigma.js Datascape

Bibliograph

CIS - CNRS
Mise en prod

Bibliograph

Cet outil avec un périmètre bien défini est publié après un premier sprint avec le client, puis quelques itérations rapides.

1 / 3

Première étape: importer un corpus au format CSV.

2 / 3

Après parsing et indexation: définition des filtres.

3 / 3

Enfin, le réseau de co-référence avec des noeuds de métadonnées est visualisé.

Centre Internet et Société (CIS - CNRS)

Bibliograph

Bibliograph est un outil en ligne que nous avons créé avec et pour Tommaso Venturini dans le but d'équiper ses recherches sur les dynamiques des communautés scientifiques. Notre mission consistait à reproduire une méthode d'analyse par co-références déjà implémentées en python dans un outils en ligne allant jusqu'à l'exploration visuelle des réseaux produits. Une contrainte très forte de temps nous a poussé à choisir de réaliser ce projet en un atelier intensif colocalisé avec le client. En naviguant entre idées et contraintes à l'aide d'une méthode agile nous sommes parvenu à produire un outil simple et efficace de scientométrie conforme au besoin en un temps très court.

Un projet de Valorisation de données

Analyse visuelle React Sigma.js Visualisation de données Sites web statiques Humanités numériques

RICardo

Centre d'Histoire de Sciences Po
1 / 3

Cette frise incite à considérer le contexte géopolitique dans l'analyse du commerce

2 / 3

Utilisation d'une heatmap pour comparer l'importance relative des partenaires commerciaux

3 / 3

Exploration de la base de taux de change par des small-multiples

Centre d'Histoire de Sciences Po

RICardo

RICardo est un projet de recherche dédié au commerce entre les nations, de la Révolution industrielle à la veille de la Seconde Guerre mondiale.

Nous avons amélioré l'application web existante :

  • Refonte des visualisations existantes
  • Nouvelles visualisations des taux de change et des statuts politiques
  • Ajout de permaliens avec les paramètres des visualisations sur toutes les pages

Lire notre post de blog "De nouvelles visualisations pour RICardo" pour découvrir les détails de cette prestation.

Un projet de Valorisation de données

Humanités numériques Datascape Visualisation de données Angular

Hyphe

Sciences Po médialab
1 / 3

Tests fonctionnels du processus d'indexation

2 / 3

Configuration du serveur Hyphe à déployer (Hyphe Browser)

3 / 3

Choix des capacités du serveur cloud à déployer (Hyphe Browser)

Sciences Po médialab

Hyphe

Indexation de contenu web et déploiement automatisé sur OpenStack

Hyphe est un crawler web conçu pour les chercheurs en sciences sociales, et développé par le médialab de Sciences-Po.

Nous y avons ajouté les fonctionnalités suivantes :

  • Indexation textuelle automatique des corpus web par extraction puis indexation multiprocess des contenus dans ElasticSearch
  • Déploiement automatique de serveurs Hyphe chez des hébergeurs compatibles OpenStack

Un projet de Code et Données ouvertes

Humanités numériques Python Elasticsearch DevOps

RadioPolice

WeDoData
1 / 3

Réseaux de cooccurrences de termes du thème "(il)légitimité"

2 / 3

Voisins de "palet" dans le réseau de cooccurrence des termes significatifs

3 / 3

Construction du thème "outrage" à l'aide d'une requête dans Kibana

WeDoData

RadioPolice

Analyse visuelle et extraction sémantique des thèmes d'un corpus de tweets

En réponse à un besoin d'analyse sémantique d'un corpus de tweets, nous avons mis en place une chaîne d'extraction de thèmes de ce corpus, par analyse des cooccurrences et filtrage de tokens par CHI². Nous avons également sorti un outil en ligne pour explorer les communautés thématiques, sous forme de réseaux de cooccurrences des termes.

Dans le cadre de la publication du corpus par David Dufresne et le journal Mediapart, nous avons ensuite proposé l'usage d'ElasticSearch et Kibana pour former des requêtes correspondant à chacun des thèmes définis par l'équipe éditoriale, et aggréger les indicateurs représentés dans l'interface finale conçue et développée par WeDoData, Etamin Studio et Philippe Rivière / Visions carto.

Un projet de Valorisation de données

Journalisme de données Python Traitement automatique des langues Science des données Analyse visuelle Elasticsearch Kibana

Exposition-test

EnsadLab
1 / 2

Extrait du schéma de l'infrastucture de données

2 / 2

Extrait du schéma de l'infrastucture physique

EnsadLab

Exposition-test

Spécifications de l'infrastructure de données d'une exposition interactive

Nous avons conçu l'infrastructure des données d'une exposition observant ses visiteurs : spécifications des flux de données depuis les systèmes de captation, jusqu'aux mur-écrans projetant les visualisations en passant par les processus d'analyse, d'archivage et de rendus graphiques.

L'exposition ayant été annulée à cause de l'épidémie de COVID-19, nous n'avons pas pu passer en production pour le moment.

Un projet de Conseils et accompagnement

Humanités numériques Données temps réel Visualisation de données

Développement pour Oscaro.com

Oscaro.com

Dashboards Kibana

Client confidentiel

Tableaux de bords de suivi de production

Développement de plugins métier pour Kibana

Notre client, un acteur industriel, voulait distribuer des tableaux de bord dans un de leur produit. Après une brève étude, Kibana a semblé la meilleure option, mais manquait certaines fonctionnalités.

Nous avons développé un plugin pour Kibana avec ces fonctionnalités (intégration des tableaux de bords dans une page sur mesure, styles personnalisés).

Un projet de Conseils et accompagnement

Industrie Kibana Elasticsearch Visualisation de données

Sous-traitant Neo4j

Neo4j
Neo4j

Sous-traitant Neo4j

Nous intervenions pour le compte de Neo4j chez plusieurs de leurs clients pour les assister dans leurs projets de graphes. Cela allait de la mission d'expertise sur Neo4j ou de chargement et/ou de visualisation de données, à la réalisation d'innovation labs, de prototypes, voire de projets web complets.

Un projet de Conseils et accompagnement

Neo4j Visualisation de données Industrie