BioAssay Express (un peu de dévoilement)

4 août 2016

Le logiciel BioAssay Express deCDDvous permet de convertir des essais biologiques lisibles par l'homme en texte balisé lisible par la machine. La technologie a été testée sur plus de 3000 essais MLPCN "best of Pubchem". De nouvelles idées et de nouveaux modèles peuvent être observés autour des composés "sondes" largement partagés pour valider davantage l'utilité de l'approche. Avec le modèle d'essai commun, nous avons essayé de faire de bons choix subjectifs concernant les paramètres les plus importants influençant les essais biologiques, tout en gardant un nombre minimum de catégories. Toutefois, il convient de souligner que la technologie sous-jacente peut être utilisée avec n'importe quel modèle, terme et ontologie (c'est-à-dire les vôtres). Nous avons axé cette nouvelle technologie sur les essais biologiques. Contrairement à notre plateforme professionnelle et soignée CDD Vault , Bioassay Express est une technologie encore relativement nouvelle, mais qui fonctionne manifestement. Les personnes intéressées par des collaborations ou des évaluations sont invitées à envoyer un courriel à [email protected] si elles souhaitent essayer d'utiliser cette technologie avec leurs propres protocoles (derrière un pare-feu, en ligne dans Bioassay Express, ou potentiellement intégré à CDD Vault ).


Par Alex Clark et Barry Bunin ; extrait de l'article paru initialement dans Cheminformatics 2.0.

Il est temps de commencer à écrire sur le projet BioAssay Express, puisqu'il a été techniquement développé au grand jour. C'est ce qui a occupé la majeure partie du temps d'Alex au cours des six derniers mois environ, et il a le potentiel d'apporter une contribution importante au processus de découverte de médicaments.

Tout d'abord, un peu de contexte. En 2014, Collaborative Drug Discovery a mis au point un moyen d'utiliser le traitement du langage naturel et l'apprentissage automatique pour guider les conservateurs humains vers l'annotation rapide et correcte de leurs essais textuels à l'aide de termes sémantiques de l'ontologie des essais biologiques. La preuve de concept a fonctionné à merveille et nous avons publié les résultats. En planifiant la mise en place d'un service réel, nous nous sommes rapidement rendu compte que l'étape la plus problématique était de trouver comment appliquer la terminologie sémantique disponible à un essai (c'est-à-dire créer de bonnes données d'entraînement) : ce n'est pas un problème trivial, et personne ne l'avait résolu, donc nous avons passé beaucoup de temps à concevoir un schéma pour spécifier comment utiliser les termes spécialisés disponibles pour décrire les protocoles de dosage biologique sur lesquels nous nous concentrons. Vous pouvez vous référer à la littérature pour un compte rendu détaillé.

Avec ces algorithmes, structures de données et vocabulaires préliminaires, nous étions prêts à nous lancer dans l'étape suivante : la sélection d'une grande collection de protocoles d'essais biologiques dont les procédures sont facilement accessibles. L'endroit de référence pour de telles données est bien sûr PubChem, qui fournit plus d'un million de protocoles de tests. Bien que la plupart d'entre eux soient d'un usage limité pour nos besoins, il est relativement simple de sélectionner uniquement les essais du programme Molecular Libraries, qui sont presque tous très bien spécifiés, avec beaucoup de détails. Il y en a des milliers, ce qui constitue un ensemble d'entraînement respectable.

Une fois les tests compilés, notre tâche suivante a consisté à créer une interface web afin de pouvoir collecter les annotations sémantiques pour le plus grand nombre possible de ces tests, tout en affinant notre schéma pour savoir comment et quoi annoter. L'interface actuelle ressemble à quelque chose comme ceci :

Bioassay Express

Bioassay Express

 

La conception esthétique était moins bonne dans le passé et sera meilleure à l'avenir, mais l'idée de base est bien présente : à gauche se trouve le texte, qui a été importé de PubChem, auquel il a été soumis par le scientifique d'origine. À droite, on trouve un certain nombre de catégories (dérivées de notre modèle commun d'analyse), dont la plupart ont au moins un terme assigné. Bien que la capture d'écran ci-dessus les présente sous la forme de courtes étiquettes, elles sont représentées en interne sous la forme d'URI, et chacune d'entre elles est liée à une ontologie bien définie, avec sa propre hiérarchie et ses propres couches de signification sémantique (conformément aux principes généraux des données liées).

Cela est plus facile à voir lorsqu'un terme est sélectionné à l'aide de la boîte de dialogue de l'arborescence:

Bioassay Express

Bioassay Express

Il y a beaucoup de choses qui se passent dans la capture d'écran ci-dessus, mais l'élément clé est que tous les termes sont représentés dans une hiérarchie, et que chacune des étiquettes est accompagnée de beaucoup plus d'informations que le simple texte.

Une fois que l'interface d'annotation préliminaire a fonctionné, notre tâche suivante a consisté à réunir une équipe de biologistes pour qu'ils partagent leur expertise en utilisant le système d'annotation, ce qui a servi à plusieurs fins : générer des données d'entraînement précieuses, améliorer le schéma de manière itérative et, bien sûr, tester le logiciel. Aujourd'hui, nous avons accumulé près de trois mille analyses évaluées par des experts (vous pouvez consulter le nombre actuel à tout moment).

La raison pour laquelle nous déployons tant d'efforts pour représenter les protocoles d'essai biologique avec une terminologie sémantique est discutée en détail dans nos publications, mais pour résumer, les meilleures pratiques actuelles pour représenter les essais consistent à les documenter en texte clair, de sorte que, dans le meilleur des cas, vous pourrez accéder à une description sommaire d'une demi-page environ. Si vous souhaitez comparer deux tests, que vous êtes un expert dans le domaine et que vous disposez de 10 à 15 minutes pour les lire attentivement, vous n'avez pas besoin de l'aide du projet sur lequel nous travaillons. Mais si vous voulez comparer de nombreux essais, ou si vous voulez rechercher une base de données en utilisant des termes précis, vos choix ne sont pas satisfaisants : la recherche se fait généralement par mots-clés, et toute analyse de plus haut niveau se fait par apprentissage automatique direct à partir du texte. Avec les annotations sémantiques appropriées, cependant, vous pouvez rechercher exactement ce que vous voulez, sans faux positifs ni faux négatifs.

Pour le démontrer, nous avons une page de recherche préliminaire :

Bioassay Express

Bioassay Express

Le principe de fonctionnement consiste à utiliser tous les termes sémantiques fournis (à l'aide d'une interface très similaire à la page d'annotation) comme des empreintes digitales, d'une manière assez similaire à la comparaison de deux molécules (par exemple, en utilisant des empreintes digitales dérivées de la structure pour calculer une métrique de similarité de Tanimoto). Cela permet à quiconque d'extraire une liste d'essais de la base de données, triés par ordre de similarité.

Il ne s'agit là que d'une démonstration de la façon dont les essais peuvent être localisés/sélectionnés à l'aide des annotations, plutôt que par des méthodes plus grossières (comme la recherche par mots-clés), mais nous travaillons sur une variété d'autres techniques pour permettre aux gens de parcourir une base de données d'essais et de se concentrer sur ceux qu'ils veulent (si cela vous intéresse, cliquez sur la page Explorer les essais ).

Le projet évolue très rapidement et les principaux utilisateurs sont actuellement notre équipe de biologistes qui le poussent aussi loin (et plus loin) qu'il était prévu. L'un des choix que nous avons fait au début a été de faire fonctionner le projet de manière ouverte. C'est en partie pour des raisons de principe (nous sommes très favorables à la collaboration), mais aussi pour des raisons pratiques : nous sommes une équipe géographiquement dispersée, et la façon la plus simple de déployer un logiciel à quelqu'un de l'autre côté du continent est de le déverser sur un site web public sans aucune sécurité. C'est ce que vous trouverez sur http://www.bioassayexpress.comLe site est pour l'instant en lecture seule, ce qui signifie que vous n'avez pas besoin de vous connecter et que vous ne pouvez rien casser. Il est tout à fait possible de l'utiliser avec vos propres essais et de télécharger des résultats annotés, si vous voulez l'essayer.

En plus de l'ouverture du site web lui-même, nous sommes très peu propriétaires des données que nous générons. Nous avons exploité le service PubChem pour commencer, et toute la valeur que nous ajoutons est disponible pour quiconque le souhaite (il existe une API publique : elle est nominalement auto-explicative, pour quiconque est un véritable übergeek). Une partie du code source du projet est basée sur le projet open source que nous avons créé pour les modèles de dosage biologique (voir GitHub), mais le projet principal qui pilote le site Web lui-même est propriétaire. Il s'agit d'une entreprise à but lucratif et, comme c'est le cas pour de nombreux projets de R&D menés par Collaborative Drug Discovery, il existe un dualisme selon lequel les outils de bas niveau sont gratuits et ouverts à tous, tandis que les outils de haut niveau qui permettent de tout rassembler avec un maximum de commodité coûtent de l'argent.

 


Ce blog est rédigé par des membres de la communauté CDD Vault . CDD Vault est une plateforme informatique hébergée de découverte de médicaments qui gère en toute sécurité les données biologiques et chimiques privées et externes. Elle offre des fonctionnalités de base, notamment l'enregistrement des produits chimiques, la relation structure-activité, l'inventaire des produits chimiques et les carnets de notes électroniques.l'inventaire chimique et le carnet de laboratoire électronique.

CDD Vault : L'informatique appliquée à la découverte de médicaments que toute votre équipe de projet adoptera !