Pourquoi les données accessibles au public sont-elles importantes et comment sont-elles utilisées ?

CDD Vault  Logo Insights
22 octobre 2018
Pourquoi les données accessibles au public sont-elles importantes et comment sont-elles utilisées ? Collaborative Drug Discovery (CDD), ELN

L'avenir des données à code source ouvert et de la découverte de médicaments

Basé sur une discussion avec Ashley Farley, du groupe d'accès ouvert de la Fondation Bill et Melinda Gates, Andrew Leach de EMBL-EBI, le fournisseur de [chEMBL], Evan Bolton du MCBI/NLM du NIH, le fournisseur de PubChem, et CDD.

Voici la première partie de notre série de deux articles sur les données à code source ouvert et leur impact sur la découverte de médicaments. Pour en savoir plus, lisez la deuxième partie intitulée " Quel est l'avenir des données à code source ouvert pour la découverte de médicaments ?

Il y a un grand intérêt à augmenter la quantité et la qualité des informations partagées sur la découverte de médicaments.

Un accès plus libre aux données aide les chercheurs tout au long du processus de découverte de médicaments, leur évite de "réinventer la roue" et contribue à la recherche sur les maladies négligées.

En 2006, CDD a introduit une section publique dans le site CDD Vault , qui est par ailleurs privé.

Il y a plus de 2,5 millions de composés et de données associées sur la plateforme CDD pour ceux qui veulent partager et publier des données. Sur le site CDD , il existe une section d'accès public où la section publique de Vault est disponible.

En outre, les structures disponibles dans les données publiques de CDD sont également visibles dans PubChem, avec des liens vers les données sur la bioactivité dans CDD public. CDD continue d'ajouter et d'étendre les données accessibles au public qui existent dans CDD Vault .

La valeur des grandes bases de données à source ouverte pour la société est énorme et, en tant que communauté scientifique, nous améliorons constamment l'état de ces bases de données.

La grande base de données chEMBL, qui fait l'objet d'une grande attention, et l'énorme dépôt PubChem de données chimiques et biologiques sont deux autres exemples de bases de données publiques sur la découverte de médicaments auxquelles les chercheurs peuvent accéder.

Il serait formidable d'arriver à un point où toutes les informations concurrentielles sur la découverte de médicaments puissent être mises à la disposition de ceux qui essaient de découvrir, qu'il s'agisse du scientifique citoyen ou d'une grande société multinationale de découverte de médicaments.

À mesure que nous progressons vers cet objectif final d'une information plus ouverte et accessible, il est important d'optimiser les systèmes pour que les ordinateurs et les humains puissent accéder aux données.

Comme l'a publié le Journal of Cheminformatics, les principaux bénéficiaires immédiats des données ouvertes sont les algorithmes chimiques, qui sont capables d'absorber et de présenter des idées concises aux chimistes en activité, à une échelle qui ne pourrait être atteinte par les méthodes de publication traditionnelles.

Mais pour tirer parti des avantages de ces algorithmes chimiques numériques - qui peuvent synthétiser et présenter rapidement des données - il faudra un changement de paradigme dans la manière dont les scientifiques traduisent leurs données sous forme numérique.

Actuellement, la plupart des scientifiques saisissent leurs données d'une manière conçue pour être présentée aux humains plutôt que pour être utilisée par des algorithmes d'apprentissage automatique. Les scientifiques doivent annoter davantage le texte et les figures pour que les algorithmes puissent consommer ces données, mais l'effort supplémentaire requis pour effectuer cette annotation est rebutant pour les scientifiques.

Une solution à ce problème, publiée par CDD, est un système hybride qui combine l'apprentissage automatique basé sur le traitement du langage naturel et une interface utilisateur simplifiée conçue pour aider les scientifiques à gérer leurs données avec un minimum d'efforts.

La suppression de l'obstacle qui empêche les scientifiques d'enregistrer leurs données de manière à ce que les algorithmes de données puissent les interpréter est un premier pas vers la création d'une base de données massive et ouverte, consultable par les scientifiques du monde entier.

En tant que société, il serait très bénéfique de capturer toute cette biocuration et de s'assurer que nous construisons constamment sur cette base, au lieu de réinventer la roue ou de faire la même chose encore et encore.

Nous expliquons ici comment les chercheurs peuvent tirer le meilleur parti des bases de données actuellement disponibles, et le type d'informations que l'on peut trouver dans chEMBL et PubChem.

  • Icône de liste "1" pour CDD Vault  Blog Posts ELN

    L'accès à une vaste base d'informations qui vous permet de ne pas "réinventer la roue".

    Logo PubChem fond blanc Pourquoi les données accessibles au public sont-elles importantes et comment sont-elles utilisées ? PubChem est surtout connu comme une archive, mais c'est aussi une base de connaissances.

    PubChem est utile pour les chercheurs qui s'intéressent, non seulement aux informations chimiques, mais aussi aux activités biologiques connues d'un composé particulier.

    Les données de PubChem sont intégrées à l'ensemble de ce que recherchent les chercheurs : gènes, génomes et littérature, ainsi que propriétés physiques, comme la toxicité.

    La littérature, les données chimiques de base et les données biologiques d'une énorme base de produits chimiques sont consultables via PubChem.

    chEMBL est une base de données de molécules bioactives créée manuellement.

    Beaucoup d'entre elles sont liées à la découverte de médicaments, et c'est de là que vient l'origine d'une grande partie des données.

    Mais la base de données contient également d'autres types de molécules bioactives, notamment des petites molécules, des peptides et des anticorps thérapeutiques.

    Dans la base de données chEMBL, il y a une certaine quantité de curation sur mesure, afin d'améliorer la qualité des informations contenues dans la base.

    En outre, chEMBL partage des données avec des ressources telles que PubChem.

    Le partage et l'accessibilité des données sont essentiels.

    Sinon, les chercheurs se retrouvent dans une situation où ils ne cessent de réinventer la roue et de perdre du temps, au lieu de faire de nouvelles découvertes de manière accélérée.

  • Icône de liste "2" pour CDD Vault  Blog Posts ELN

    Trouver des réponses à vos questions en recherchant des données sur des cibles biologiques spécifiques

    logo chEMBL Pourquoi les données accessibles au public sont-elles importantes et comment sont-elles utilisées ? chEMBL contient des données sur les molécules et leurs activités contre des cibles biologiques.

    Ainsi, dans la base de données chEMBL, il est possible de poser une question telle que "montrez-moi toutes les molécules bioactives que vous avez contre cette protéine particulière, ou même contre cette famille de protéines".

    Ensuite, en utilisant les données sur ces protéines, qui sont souvent rapportées dans les publications et les documents, chEMBL affichera les informations demandées.  

    Cela permet de poser des questions complémentaires sur ces molécules.

    Un chercheur peut poser des questions telles que : "Quelles sont les sélectivités des cibles ? Quel est le statut de ces molécules ? Sont-elles en cours d'essais cliniques ? Sont-elles des médicaments commercialisés ?"

    Dans PubChem, les chercheurs peuvent utiliser la vue des données pour rassembler des informations sur une cible biologique.

    Si un chercheur s'intéresse à une cible particulière, il est inutile d'examiner des milliers de séries d'expériences différentes qui ont été réalisées.

    Au contraire, avec la vue des données, il y a une page unique où tout est regroupé dans un document où il est possible de télécharger ce contenu.

    Il devient plus facile d'agir.

    En outre, au lieu de ne voir qu'une seule cible possible, les pages basées sur les agrégateurs permettent de voir un ensemble de cibles.

    Par exemple, un chercheur peut ne pas s'intéresser à un seul GCPR, mais plutôt à tous les GCPR, ou ne pas s'intéresser à un seul récepteur de canal ionique de potassium, mais à tous les récepteurs de canal ionique de potassium.

    Les pages de l'agrégateur permettent de poser ces questions générales.  

    Il permet aux chercheurs d'avoir accès au contenu dont ils ont besoin, de le télécharger, puis d'en faire quelque chose de plus dans le cadre de leurs propres recherches.

  • Icône de liste "3" pour CDD Vault  Blog Posts ELN

    Recherche d'un grand nombre de molécules et de sous-structures en un seul endroit.

    Outre la recherche de cibles biologiques dans ces grandes bases de données, il est également possible d'effectuer des recherches de molécules.

    Par exemple, dans chEMBL, il est possible de rechercher un composé d'intérêt particulier ou d'effectuer des requêtes basées sur la sous-structure.

    Une fois les composés d'intérêt identifiés, un chercheur peut récupérer des données supplémentaires sur la bioactivité ou d'autres informations qu'il souhaite.

    Ce qui est important, c'est que tout cela est intégré dans cette ressource de base.

    Dans PubChem, environ 95 millions de petites molécules chimiques sont intégrées dans le système et près de 30 millions de produits chimiques ont un certain degré d'annotation.

    Lorsque vous recherchez une molécule dans PubChem, la base de données résume à peu près tout ce qui est connu sur un produit chimique particulier, car elle est intégrée à un certain nombre d'autres bases de connaissances.

    PubChem compte plus de 600 contributeurs de contenu.

    PubChem s'efforce de rassembler toutes les données en un seul endroit, de sorte qu'au lieu de devoir naviguer sur des dizaines de sites différents, il est possible de consulter les informations disponibles en un seul endroit.

    De plus, les chercheurs peuvent voir exactement d'où vient ce contenu et renvoyer vers cet autre site web s'ils souhaitent obtenir plus d'informations.

  • Résumé

    Comment arriver au point où nous pouvons utiliser ces outils puissants et ces grandes bases de données pour répondre à des questions grâce aux données ouvertes ? Il y a beaucoup de travail à faire pour arriver à ce point et il y a beaucoup de questions difficiles et d'obstacles actuels que nous devons surmonter pour assurer notre succès futur dans ce domaine. L'un de nos objectifs est de pouvoir innover et d'accélérer ce type de découverte de médicaments. Mais il est important que nous continuions à aller de l'avant en rendant les données sur la découverte de médicaments plus largement disponibles.

Ce blog est rédigé par des membres de la communauté CDD Vault . CDD Vault est une plateforme informatique hébergée de découverte de médicaments qui gère en toute sécurité les données biologiques et chimiques privées et externes. Elle offre des fonctionnalités de base, notamment l'enregistrement des produits chimiques, la relation structure-activité, l'inventaire des produits chimiques et les carnets de laboratoire électroniques.

Collaborative Drug Discovery (CDD) Vault Logo