Une nouvelle technologie pour l'analyse coopérative des Big Data

Ajouter à mes favoris

Voir la traduction automatique

#Actualités du secteur

{{{sourceTextContent.title}}}

{{{sourceTextContent.subTitle}}}

{{{sourceTextContent.description}}}

L'apprentissage en essaim pourrait ainsi favoriser et accélérer considérablement la collaboration et l'échange d'informations dans la recherche, notamment dans le domaine de la médecine. Des experts du DZNE, de l'université de Bonn, de la société de technologie de l'information Hewlett Packard Enterprise (HPE) et d'autres institutions de recherche en font état dans la revue scientifique "Nature".

La science et la médecine deviennent de plus en plus numériques. L'analyse des volumes d'informations qui en résultent - appelés "big data" - est considérée comme une clé pour de meilleures options de traitement. "Les données de la recherche médicale sont un trésor. Elles peuvent jouer un rôle décisif dans le développement de thérapies personnalisées, adaptées à chaque individu de manière plus précise que les traitements conventionnels", a déclaré Joachim Schultze, directeur de la médecine systémique au DZNE et professeur à l'Institut des sciences de la vie et des sciences médicales (LIMES) de l'Université de Bonn. "Il est essentiel pour la science d'être en mesure d'utiliser de telles données de manière aussi complète et provenant d'autant de sources que possible."

Cependant, l'échange de données de recherche médicale entre différents lieux, voire entre pays, est soumis à des réglementations en matière de protection et de souveraineté des données. Dans la pratique, ces exigences ne peuvent généralement être mises en œuvre qu'au prix d'efforts importants. En outre, il existe des obstacles techniques : Par exemple, lorsque d'énormes quantités de données doivent être transférées numériquement, les lignes de données peuvent rapidement atteindre leurs limites de performance. Compte tenu de ces conditions, de nombreuses études médicales sont confinées localement et ne peuvent pas utiliser des données disponibles ailleurs.

Dans ce contexte, une collaboration de recherche dirigée par Joachim Schultze a testé une nouvelle approche pour évaluer les données de recherche stockées de manière décentralisée. Elle s'est appuyée sur la toute jeune technologie "Swarm Learning" développée par HPE. Outre la société informatique, de nombreuses institutions de recherche de Grèce, des Pays-Bas et d'Allemagne - y compris des membres de la "German COVID-19 OMICS Initiative" (DeCOI) - ont participé à cette étude.

Le Swarm Learning combine un type particulier d'échange d'informations entre les différents nœuds d'un réseau avec des méthodes issues de la boîte à outils de l'"apprentissage automatique", une branche de l'intelligence artificielle (IA). La clé de voûte de l'apprentissage automatique est constituée par des algorithmes qui sont entraînés à détecter des modèles dans des données et qui, par conséquent, acquièrent la capacité de reconnaître les modèles appris dans d'autres données. "L'apprentissage en essaim offre de nouvelles possibilités de collaboration dans la recherche médicale et dans le monde des affaires. L'essentiel est que tous les participants puissent apprendre les uns des autres sans avoir à partager des données confidentielles", a déclaré le Dr Eng Lim Goh, vice-président principal et directeur de la technologie pour l'intelligence artificielle chez HPE.

En fait, avec Swarm Learning, toutes les données de recherche restent sur place. Seuls les algorithmes et les paramètres sont partagés - en quelque sorte, les leçons apprises. "Swarm Learning répond aux exigences de la protection des données de manière naturelle", a souligné Joachim Schultze.

Contrairement à l'"apprentissage fédéré", dans lequel les données restent aussi localement, il n'y a pas de centre de commande centralisé, a expliqué le scientifique de Bonn. "L'apprentissage en essaim se déroule de manière coopérative sur la base de règles sur lesquelles tous les partenaires se sont mis d'accord à l'avance. Cet ensemble de règles est capturé dans une blockchain" Il s'agit d'une sorte de protocole numérique qui régit l'échange d'informations entre les partenaires de manière contraignante, elle documente tous les événements et toutes les parties y ont accès. "La blockchain est l'épine dorsale de Swarm Learning", a déclaré Schultze. "Tous les membres de l'essaim ont les mêmes droits. Il n'y a pas de pouvoir central sur ce qui se passe et sur les résultats. Il n'y a donc, en un sens, aucune araignée qui contrôle la toile de données."

Ainsi, les algorithmes d'IA apprennent localement, à savoir sur la base des données disponibles à chaque nœud du réseau. Les résultats de l'apprentissage de chaque nœud sont collectés sous forme de paramètres via la blockchain et traités intelligemment par le système. Les résultats, c'est-à-dire les paramètres optimisés, sont transmis à toutes les parties. Ce processus est répété plusieurs fois, ce qui améliore progressivement la capacité des algorithmes à reconnaître les modèles à chaque nœud du réseau.

Les chercheurs apportent maintenant la preuve pratique de cette approche en analysant des images radiographiques des poumons et des transcriptomes : Ces derniers sont des données sur l'activité des gènes des cellules. Dans l'étude actuelle, l'accent a été mis spécifiquement sur les cellules immunitaires circulant dans le sang - autrement dit, les globules blancs. "Les données sur l'activité génétique des cellules sanguines sont comme une empreinte moléculaire. Elles contiennent des informations importantes sur la façon dont l'organisme réagit à une maladie", a déclaré Schultze. "Les transcriptomes sont disponibles en grand nombre, tout comme les images radiographiques, et ils sont très complexes. C'est exactement le type d'informations dont vous avez besoin pour l'analyse de l'intelligence artificielle. De telles données sont parfaites pour tester l'apprentissage en essaim."

L'équipe de recherche s'est penchée sur un total de quatre maladies infectieuses et non infectieuses : deux variantes de cancer du sang (leucémie myéloïde aiguë et leucémie lymphoblastique aiguë), ainsi que la tuberculose et le COVID-19. Les données comprenaient un total de plus de 16 000 transcriptomes. Le réseau d'apprentissage en essaim sur lequel les données ont été distribuées était généralement composé d'au moins trois et jusqu'à 32 nœuds. Indépendamment des transcriptomes, les chercheurs ont analysé environ 100 000 radiographies pulmonaires. Celles-ci provenaient de patients présentant une accumulation de liquide dans les poumons ou d'autres résultats pathologiques, ainsi que d'individus sans anomalies. Ces données ont été réparties sur trois nœuds différents.

L'analyse des transcriptomes et des images radiographiques a suivi le même principe : Tout d'abord, les chercheurs ont alimenté leurs algorithmes avec des sous-ensembles de l'ensemble de données respectif. Les chercheurs ont tout d'abord fourni à leurs algorithmes des sous-ensembles de l'ensemble de données respectif, notamment des informations indiquant quels échantillons provenaient de patients et quels échantillons provenaient d'individus n'ayant rien trouvé. La reconnaissance de formes apprise pour "malade" ou "sain" a ensuite été utilisée pour classer d'autres données, en d'autres termes, elle a été utilisée pour trier les données en échantillons avec ou sans maladie. La précision, c'est-à-dire la capacité des algorithmes à distinguer les individus sains des individus malades, était d'environ 90 % en moyenne pour les transcriptomes (chacune des quatre maladies a été évaluée séparément) ; dans le cas des données radiologiques, elle était comprise entre 76 et 86 %.

"La méthodologie a donné ses meilleurs résultats dans le cas de la leucémie. Dans cette maladie, la signature de l'activité génique est particulièrement frappante et donc plus facile à détecter par l'intelligence artificielle. Les maladies infectieuses sont plus variables. Néanmoins, la précision était également très élevée pour la tuberculose et le COVID-19. Pour les données radiologiques, le taux était un peu plus faible, ce qui est dû à la moindre qualité des données ou des images", a commenté M. Schultze à propos des résultats. "Notre étude prouve donc que l'apprentissage en essaim peut être appliqué avec succès à des données très différentes. En principe, cela s'applique à tout type d'information pour laquelle la reconnaissance des formes au moyen de l'intelligence artificielle est utile. Qu'il s'agisse de données génomiques, d'images radiologiques, de données issues de l'imagerie cérébrale ou d'autres données complexes."

L'étude a également révélé que l'apprentissage en essaim donnait des résultats nettement meilleurs que lorsque les nœuds du réseau apprenaient séparément. "Chaque nœud bénéficie de l'expérience des autres nœuds, bien que seules les données locales soient toujours disponibles. Le concept d'apprentissage en essaim a donc passé le test pratique", a déclaré M. Schultze.

"Je suis convaincu que l'apprentissage en essaim peut donner un énorme coup de pouce à la recherche médicale et à d'autres disciplines axées sur les données. L'étude actuelle n'était qu'un test. À l'avenir, nous avons l'intention d'appliquer cette technologie à la maladie d'Alzheimer et à d'autres maladies neurodégénératives", a ajouté M. Schultze. "L'apprentissage en essaim a le potentiel pour changer véritablement la donne et pourrait contribuer à rendre la richesse de l'expérience en médecine plus accessible dans le monde entier. Non seulement les institutions de recherche, mais aussi les hôpitaux, par exemple, pourraient s'unir pour former de tels essaims et ainsi partager des informations pour un bénéfice mutuel."