James Green: La recherche est freinée par l'accès au calcul à haute performance, aux ensembles de données et aux nouvelles technologies

James Green est professeur émérite au département d'ingénierie des systèmes et de l'informatique de l'Université Carleton à Ottawa, au Canada. Ses recherches portent en partie sur la bioinformatique, la protéomique et la prédiction de la structure, de la fonction, de l'interaction et de la modification post-traductionnelle des protéines, entre autres domaines. L’informatique pour l’humanité (CFH) a eu le grand plaisir de l'interviewer dans le cadre de notre série sur les chercheurs qui utilisent nos ressources de calcul de haute performance.

Sa passion en tant que chercheur en apprentissage automatique à la recherche de réponses à de nouveaux défis est contagieuse.  Une grande partie de sa recherche est interdisciplinaire et il a appris que le succès d'un projet dépend de la capacité à trouver le bon collaborateur qui est prêt à s'investir et à travailler avec quelqu'un dont l'expertise est complémentaire. Cette idée que chacun est un apprenant permanent dans le laboratoire fait partie de son succès en tant que mentor.

Nous avons parlé de sa carrière, des défis qu'il a relevés et des projets qui n'auraient pas vu le jour sans L’informatique pour l’humanité. Il offre d'excellents conseils pour les chercheurs, et il est un excellent exemple de travail et de détermination pour tous ceux qui veulent réussir dans leur carrière de chercheur.

À quel moment de votre vie avez-vous décidé de devenir chercheur ?

Au cours de mes études de premier cycle, j'ai suivi un programme d'alternance et j'ai essayé divers emplois. J'ai constaté que les emplois axés sur la recherche étaient les plus passionnants et les plus gratifiants. Dans un de ces emplois, j'essayais de modéliser les marées noires flottant dans l'océan. C'était fantastique, l'idée que je pouvais utiliser mes compétences en matière de logiciels pour faire avancer la recherche sur un problème pratique et important m'a vraiment incité à développer ces compétences en matière de recherche et de logiciels.

Quel est le moment qui vous a rendu le plus fier en tant que chercheur ?

Je pense que j'ai atteint le stade de ma carrière où je suis le plus fier des réalisations de mes étudiants. Lorsque l'un d'entre eux fait une découverte, publie un article, obtient un prix ou une bourse, cela me procure une immense satisfaction.

Je suis fier du travail que nous effectuons dans le laboratoire et mon travail est autant celui d'un chercheur que d'un mentor ; j'essaie donc d'encourager l'excellence de la recherche dans le laboratoire.

Quel est le défi le plus important auquel les chercheurs sont confrontés aujourd'hui ?

Je travaille dans le domaine de l'apprentissage automatique pour l'informatique biomédicale et l'un des défis auxquels nous sommes confrontés est l'accès aux données. C'est un processus complexe que de commencer à collecter des données cliniques auprès des patients. Il faut établir des collaborations significatives non seulement avec les médecins, mais aussi avec le personnel infirmier et les ingénieurs cliniciens afin d'obtenir des données utiles. Si l'on considère à la fois l'approbation éthique de la recherche et l'approbation de Santé Canada pour tester un nouveau dispositif médical, et que l'on commence ensuite à recruter des patients, il faut environ deux à trois ans pour obtenir un ensemble complet de données. Ce n'est qu'une fois que j'ai les données que je peux commencer à les analyser, à en extraire la valeur et à en tirer des publications. Il est un peu difficile d'obtenir le financement du projet a l’avance pour permettre ce type de recherche ambitieuse. Les documents de recherche ne viendront que trois ans plus tard.

Dans le domaine de l'apprentissage automatique, les technologies émergentes, telles que les grands modèles linguistiques, font l'objet d'un grand battage médiatique et d'une grande excitation. Il m'est difficile de me tenir au courant de la réalité, de savoir où cela en est. Est-ce vraiment bon ? Peut-on encore l'appliquer en toute sécurité à des problèmes réels ? Peut-on lui faire confiance ?

Lorsque je parle avec des cliniciens, ils ont vu toutes ces belles déclarations selon lesquelles ChatGPT peut faire toutes sortes de choses et ils veulent maintenant l'utiliser pour guérir le cancer. C'est un problème beaucoup trop vaste, n'est-ce pas ?

Les grands modèles linguistiques n'en sont pas encore au stade où nous pouvons nécessairement faire confiance à ce qu'ils génèrent. Encore une fois, séparer le battage médiatique de la réalité est un défi et je pense que c'est la responsabilité des personnes comme moi qui travaillent dans ce domaine.

Et comme la technologie évolue tous les jours, comment se tenir au courant des nouvelles tendances de la recherche scientifique ?

Personne ne peut lire tous les nouveaux articles chaque jour. Heureusement, je passe une grande partie de mon temps à interagir avec des étudiants diplômés très brillants, chacun d'entre eux ayant son propre créneau d'expertise et faisant beaucoup de lecture pour m'aider à découvrir les nouveaux articles les plus passionnants. Outre les documents de recherche, j'essaie également de comprendre comment les technologies émergentes sont présentées aux non-spécialistes dans les médias.

Comment planifiez-vous et hiérarchisez-vous vos projets de recherche ?

Je suis à la recherche d'opportunités pour collecter des données nouvelles et uniques adaptées à des problèmes de recherche où il existe des possibilités d'impact réel.

Des données qui permettent un véritable apprentissage automatique à grande échelle. Souvent, nous essayons de prédire des choses très rares, comme des maladies ou des affections uniques. Il est beaucoup plus difficile de s'attaquer à ce problème avec l'apprentissage automatique.

Si vous appliquez un algorithme d'apprentissage automatique à un ensemble de données où seulement 1 % des personnes sont atteintes de la maladie, l'algorithme d'apprentissage automatique vous fournira très rapidement un modèle presque parfait : il dira simplement que tout le monde est en bonne santé.

Ainsi, ses mesures de performance sont presque toujours justes. Et bien sûr, c'est parfaitement inutile, n'est-ce pas ? Ce type de problème est donc intéressant, car il s'agit d'essayer de forcer le modèle à résoudre le problème plus difficile de la recherche de « l'aiguille dans la botte de foin ».

Quand avez-vous entendu parler pour la première fois de notre organisation caritative, L’informatique pour l’humanité ?

Roy Chartier, le fondateur de votre organisation, m'a contacté en 2020. Il m'a décrit à l'époque votre mission, qui consistait à prendre des équipements de calcul haute performance donnés et à trouver un hôte disposé à fournir l'énergie, le réseau et l'espace, puis à les mettre en relation avec des chercheurs désireux de disposer d'une capacité de calcul haute performance.

C'est à ce moment-là que nos intérêts de recherche se sont recoupés, alors que notre propre laboratoire s'était également orienté vers la recherche sur le COVID.

C'est à ce moment-là que nous avons travaillé avec votre organisation pendant plusieurs mois pour exploiter les ressources informatiques que vous avez mises à notre disposition.

Sans l'aide de notre organisation caritative, quels sont les projets qui ne verraient pas le jour ?

Je dirai que le principal projet qui a bénéficié des ressources informatiques était l'exploration de toutes les interactions protéiques possibles entre le SARS-CoV-2 et les protéines humaines. Nous avons prédit des centaines de milliers de combinaisons possibles de protéines inter-espèces et une telle analyse n'aurait tout simplement pas été possible sans le calcul à haute performance. Nous avons accès à certains calculs de haute performance par l'intermédiaire des consortiums nationaux, mais leur calendrier de planification a tendance à être établi un an à l'avance si vous voulez plus que l'allocation de base, ce qui est souvent insuffisant. Si vous voulez une allocation spéciale, vous devez faire une demande un an à l'avance. Je ne savais pas que le COVID arriverait un an à l'avance...

Donc, le fait de pouvoir se tourner vers L’informatique pour l’humanité, qui pouvait très rapidement mettre à disposition des ressources importantes, nous a permis de répondre très rapidement à un défi émergent.

Les résultats de cette recherche que L’informatique pour l’humanité a soutenue avec des ressources de calcul à haute performance sont décrits dans l'article « Multi-schema computational prediction of the comprehensive SARS-CoV-2 vs. human interactome » ici

Quels sont vos objectifs professionnels à long terme ?

Continuer à m'amuser en faisant de la recherche et du mentorat intéressants et qui ont un impact. J'ai un laboratoire rempli d'étudiants diplômés vraiment géniaux et enthousiastes avec lesquels je suis heureux de travailler. Je travaille avec un certain nombre de partenaires cliniques dans le domaine de l'informatique biomédicale et je suis heureux de développer l'apprentissage automatique pour tenter de résoudre ces problèmes et d'avoir un impact.

Comment se passe votre travail avec des chercheurs d'horizons différents ?

Ce que je trouve important pour une collaboration interdisciplinaire réussie, c'est la patience et l'humilité.

L'astuce consiste à trouver le bon collaborateur qui est prêt à s'investir et à travailler avec quelqu'un dont l'expertise est complémentaire. Il faut mettre son ego de côté et admettre que l'on a très peu d'expertise dans le domaine de son collaborateur.

Au fil du temps, je leur enseigne un peu l'apprentissage automatique : Qu'est-ce qui est possible, quelles approches pourraient être pertinentes, quels types de données de formation et de test sont nécessaires, comment devrions-nous mesurer le succès du problème ? Inversement, ils prennent le temps de m'enseigner le domaine d'application clinique. Quel est le problème qu'ils veulent résoudre ? Comment obtenir un impact ? Comment mesurer l'impact clinique, et pas seulement l'obtention d'un article ?

Avez-vous constaté des délais lorsque vous vous mettez en relation avec notre réseau ?

Pas que je me souvienne.

Souhaitez-vous dire quelques mots aux chercheurs qui aimeraient avoir accès à du temps de calcul avec CFH ?

Nous avons apprécié de travailler avec votre organisation parce que les personnes avec lesquelles nous étions en contact étaient tout aussi enthousiastes à l'égard de la recherche et de la résolution de ces problèmes importants ; il ne s'agissait pas simplement d'un technicien qui faisait son travail. Il s'agissait de bénévoles et d'experts passionnés qui partageaient notre enthousiasme pour la découverte et qui étaient heureux de nous faire avancer, quoi qu'il en coûte. Ce fut une expérience positive.

Previous
Previous

Saptarshi Purkayastha, Ph.D. et Robert Quick de l'Université de l'Indiana parlent de la fracture numérique et de l'IA dans un contexte post-Covid

Next
Next

Le NCSA et L’informatique pour l’humanité réaffirment leur collaboration dans une nouvelle ère d'exploration scientifique