Que fait un data scientist ?

Que fait un data scientist ?

Théoriquement, quiconque analyse des données à des fins scientifiques pourrait se qualifier de data scientist. Mais pour moi, ce terme implique également l’utilisation d’ordinateurs. Ce sont donc les ordinateurs de données qui, à mon avis, font de quelqu’un un data scientist.

J’ai également tendance à appliquer une définition légèrement plus étroite : je considère un data scientist comme une personne soucieuse de dériver des connaissances cachées à partir des tendances des données, puis de faire des prédictions basées sur celles-ci.

Pour atteindre ces objectifs, vous avez besoin de deux choses. Le premier est la capacité de manipuler, d’organiser, de normaliser, d’étiqueter, de tester, de déplacer et de rendre les données susceptibles d’être analysées. La seconde est la capacité de faire des prédictions basées sur ces données et de développer les outils d’intelligence artificielle (IA) nécessaires pour les analyser, en tirer des leçons et évoluer en tant qu’organisation.

Qu’est-ce qui fait un bon data scientist ?

Il n’est pas nécessaire d’être oncologue pour être un bon data scientist. En fait, très peu de data scientists Innovation Cancer viennent du milieu de l’oncologie. Mon équipe est composée de tout, des astrophysiciens aux analystes de sites commerciaux. Mais bon nombre de leurs compétences sont totalement transférables, je suis donc ravi de pouvoir compter sur leurs talents ici.

Je n’ai même pas étudié l’oncologie moi-même, juste l’informatique pure et la biologie moléculaire. J’ai appliqué la science des données à la découverte de médicaments lorsque j’ai débuté dans l’industrie biotechnologique. Ce n’est que lorsque je suis devenu professeur junior dans le milieu universitaire que j’ai commencé à développer les connaissances en oncologie que j’utilise aujourd’hui.

Il est facile de tomber dans le piège de penser que vous êtes prêt à réussir dans le domaine de la science des données, simplement parce que vous avez suivi une formation sur les technologies les plus récentes. Mais les outils utilisés aujourd’hui sont très différents de ceux qui seront utilisés dans deux ans. Alors, si vous ne savez qu’appuyer sur les boutons de la dernière mode, vous allez tout de suite vous perdre.

Pour être un bon data scientist, vous devez avoir une bonne maîtrise des principes fondamentaux des mathématiques et de l’informatique, ainsi qu’une très solide compréhension des méthodologies sous-jacentes permettant d’identifier les tendances et de faire des prédictions. Vous devez également comprendre les limites de tous les outils que vous utilisez et comment concevoir des questions pour vous assurer que votre expérience est à la fois impartiale et teste l’hypothèse réelle.

Les personnes « bilingues » qui peuvent « parler » à la fois l’oncologie et la science des données – prendre des problèmes biologiques complexes et les traduire en questions informatiques – sont ce que j’appelle des data scientists « translationnels ». C’est ce que je considère moi-même. Et c’est ce que j’essaie d’aider chacun des nouveaux membres de mon équipe à devenir, s’ils ne le sont pas déjà.

Comment Innovation Cancer exploite la puissance des données

En tant que scientifique spécialisé dans la découverte de médicaments et formé en biologie moléculaire, j’ai toujours été fasciné par l’idée de faire des choses à grande échelle. Rassembler toutes les données et y identifier des schémas cachés que personne d’autre ne peut voir – puis utiliser ces informations pour éclairer les efforts de découverte de médicaments – est pour moi bien plus satisfaisant que d’essayer de trouver les réponses à des questions très spécifiques. Mais nous avons bien sûr besoin des deux types de science pour faire progresser la médecine.

J’adore le processus de découverte de médicaments. Il rassemble des experts de nombreuses disciplines différentes, dont la génomique, la physique et la chimie, pour n’en nommer que quelques-unes. C’est un domaine vraiment complexe.

C’est également passionnant d’explorer la découverte de médicaments ici chez Innovation Cancer, où je travaille avec des personnes comme Andy Futreal, Ph.D., qui dirige des initiatives visant à collecter des données et à dresser le profil des patients de manière vraiment significative ; et avec Tim Heffernan, Ph.D. , qui dirige les efforts visant à explorer de nouvelles idées à travers des expériences menant au développement de nouveaux médicaments.

Innovation Cancer compte déjà de nombreuses initiatives phénoménales, comme Patient Mosaic™, qui n’existent nulle part ailleurs. Tout ce qui manquait, c’était un moyen cohérent d’exploiter ses données collectives pour piloter efficacement notre prise de décision. C’est pourquoi j’ai été recruté : développer une sorte d’« autoroute de l’information » située en plein milieu, permettant une boucle de rétroaction continue pour nous garder tous sur la bonne voie.

Bien qu’il soit encore tôt, nous avons déjà pu exploiter les connaissances de nos échantillons de patients atteints de tumeurs rares et identifier les gènes potentiels du « talon d’Achille » grâce à nos méthodes d’IA de pointe. Nous avons ensuite démontré l’importance de ces gènes grâce à notre plateforme de biologie de découverte TRACTION, et nous les faisons passer à l’étape de découverte de médicaments. Cela montre comment Innovation Cancer nos capacités uniques nous permettent de changer rapidement la façon dont nous réalisons des progrès qui profitent aux patients.

En tant que co-responsable de la modélisation informatique pour la médecine de précision dans notre Institute for Data Science in Oncology (IDSO), je dirige cette initiative avec le programme Adaptive AI-Augmented Drug Discovery and Development, « A3D3un. » J’ai délibérément inventé ce nom pour que nous puissions l’appeler « Ada ». C’est un hommage à l’une de mes héroïnes, Ada Lovelace, la première programmeuse informatique au monde.

Fille de l’aristocrate britannique et poète romantique Lord Byron, Lovelace a travaillé avec l’inventeur Charles Babbage sur des machines capables d’effectuer des calculs à grande échelle. Puis un jour, elle lui a dit : « Pourquoi ne créons-nous pas une machine qui puisse être programmée pour effectuer tous les calculs que nous voulons ? » Elle a écrit le premier programme informatique et avec cela, l’ère de la programmation informatique est née.

Pourquoi j’ai rejoint Innovation Cancer

La puissance cérébrale collective à Innovation Cancer est vraiment inégalé. Cela n’existe tout simplement nulle part ailleurs. La capacité de réaliser des progrès ne profite pas non plus plus rapidement aux patients. C’est pourquoi je crois Innovation Cancer est le seul endroit sur la planète où nous pouvons faire cela. Mais pour réussir, notre travail doit commencer et se terminer avec le patient. Cela signifie:

  • proposer chaque hypothèse sur la base des données patient existantes
  • le valider dans un cadre expérimental pertinent pour les patients
  • le porter aux étapes d’essais précliniques et cliniques dans notre propre hôpital
  • l’apporter à nos patients au chevet et à la clinique, et
  • utiliser les commentaires générés par ce processus pour affiner toute nouvelle thérapie médicamenteuse ou pratique de soins aux patients.

Pour moi personnellement, cela signifie également développer des algorithmes pour nous aider à en apprendre davantage sur le cancer et découvrir de nouvelles informations susceptibles d’affiner davantage nos processus décisionnels. Utiliser l’IA pour éclairer chacune des milliers de décisions que nos professeurs et notre personnel prennent chaque jour est ce à quoi j’ai consacré ma carrière – et précisément pourquoi j’ai rejoint Innovation Cancer.

De nombreux médicaments approuvés aujourd’hui pour traiter le cancer sont considérés comme des médicaments « pour moi aussi ». Cela signifie qu’ils suivent les traces de ceux qui les ont précédés. Mais quand vous voyez un tout nouveau médicament qui a contribué au développement entrer dans un essai clinique de phase I pour être testé pour la première fois – et que vous savez qu’il commencera bientôt à bénéficier directement aux patients – c’est vraiment la chose la plus excitante au monde. C’est là que je reçois mon buzz tous les matins, et c’est ma partie préférée du travail.

Il est trop tôt pour que tout ce sur quoi je travaille ici entre dans les essais cliniques de phase I. Mais en appliquant la science des données, nous avons déjà identifié plusieurs cibles pour le développement potentiel de thérapies dans des cancers très rares, comme le mélanome uvéal métastatique, qui est très difficile. Et c’est exactement le genre de chose que nous ne pouvons faire qu’à Innovation Cancercar vous avez besoin de tous les composants uniques de l’ensemble du parcours en un seul endroit.

Désormais, avec l’aide de bases de connaissances en IA comme la plateforme CanSAR que j’ai créée, nous serons bientôt en mesure de faire des découvertes de médicaments que même des endroits comme Innovation Cancer n’aurait pas pu le faire tout seul.

Découvrez les carrières en science des données à Innovation Cancer.