BioAssay Express (ein bisschen eine Enthüllung)

August 4, 2016

Mit der Software BioAssay Express vonCDDkönnen Sie von Menschen lesbare Bioassays in maschinenlesbaren, markierten Text umwandeln. Die Technologie wurde an über 3000 "Best of Pubchem" MLPCN-Assays getestet. Neue Erkenntnisse und Muster lassen sich rund um die weit verbreiteten "Sonden"-Verbindungen erkennen, was den Nutzen des Ansatzes weiter untermauert. Mit dem Common Assay Template haben wir versucht, die wichtigsten Parameter, die die Bioassays beeinflussen, subjektiv zu beurteilen und dabei eine minimale Anzahl von Kategorien beizubehalten. Es sollte jedoch betont werden, dass die zugrundeliegende Technologie mit beliebigen Vorlagen, Begriffen und Ontologien (d. h. Ihren) verwendet werden kann. Aus Gründen der Übersichtlichkeit haben wir diese neue Technologie auf Bioassays fokussiert. Im Gegensatz zu unserer ausgefeilten, professionellen Plattform CDD Vault ist Bioassay Express noch eine relativ neue Technologie, die aber offensichtlich funktioniert. Wenn Sie an einer Zusammenarbeit oder Evaluierung interessiert sind, senden Sie bitte eine E-Mail an [email protected], wenn Sie diese Technologie mit Ihren eigenen Protokollen ausprobieren möchten (hinter einer Firewall, online in Bioassay Express oder möglicherweise integriert in CDD Vault ).


Von Alex Clark und Barry Bunin; entnommen aus einem Beitrag, der ursprünglich in Cheminformatics 2.0erschien

Es ist an der Zeit, über das BioAssay Express Projekt zu schreiben, da es technisch im Freien entwickelt wurde. Das ist es, was den Großteil von Alex' Zeit im letzten halben Jahr oder so in Anspruch genommen hat, und es hat das Potenzial, einen wichtigen Beitrag zum Prozess der Arzneimittelentdeckung zu leisten.

Zunächst etwas Hintergrund. Im Jahr 2014 entwickelte Collaborative Drug Discovery eine Möglichkeit, natürliche Sprachverarbeitung und maschinelles Lernen zu nutzen, um menschliche Kuratoren dazu anzuleiten, ihre Text-Assays schnell und korrekt mit semantischen Begriffen aus der BioAssay Ontology zu annotieren. Der Proof of Concept hat hervorragend funktioniert, und wir haben die Ergebnisse veröffentlicht. Als wir das Level-Up zu einem echten Service planten, wurde uns schnell klar, dass der mühsamste ratenbegrenzende Schritt darin bestand, herauszufinden, wie man die verfügbare semantische Terminologie auf einen Assay anwendet (d.h. gute Trainingsdaten erstellt): Das ist kein triviales Problem, und niemand hatte es gelöst, also verbrachten wir viel Zeit damit, ein Schema zu entwerfen, um zu spezifizieren, wie man die verfügbaren Fachbegriffe zur Beschreibung der Bioassay-Protokolle, auf die wir uns konzentrieren, verwendet. Sie können in der Literatur nach einer detaillierten Beschreibung suchen.

Mit diesen vorläufigen Algorithmen, Datenstrukturen und Vokabularen waren wir bereit für den nächsten Schritt: die Auswahl einer großen Sammlung von Bioassay-Protokollen mit ihren Verfahren, die bequem verfügbar sind. Die erste Anlaufstelle für solche Daten ist natürlich PubChem, das über eine Million Assay-Protokolle bereitstellt. Während die meisten davon für unsere Zwecke nur von begrenztem Nutzen sind, ist es relativ einfach, nur die Assays aus dem Programm "Molecular Libraries" auszuwählen, die fast alle sehr gut spezifiziert sind, mit ziemlich vielen Details. Es gibt Tausende von ihnen, was ein respektables Trainingsset ergibt.

Nachdem die Assays selbst kompiliert waren, bestand unsere nächste Aufgabe darin, eine Weboberfläche zu erstellen, damit wir die semantischen Annotationen für möglichst viele dieser Assays kuratieren konnten, während wir gleichzeitig unser Schema verfeinerten, wie und was annotiert werden sollte. Die aktuelle Schnittstelle sieht in etwa so aus:

Bioassay Express

Bioassay Express

 

Das ästhetische Design sah in der Vergangenheit schlechter aus und wird in Zukunft besser aussehen, aber die Grundidee kommt durch: links ist der Text, der von PubChem eingebracht wurde, bei dem er vom ursprünglichen Wissenschaftler eingereicht wurde. Auf der rechten Seite befinden sich eine Reihe von Kategorien (abgeleitet von unserer allgemeinen Assay-Vorlage), von denen die meisten mindestens einen zugeordneten Begriff haben. Während der oben gezeigte Screenshot diese als kurze Textbeschriftungen anzeigt, werden sie intern als URIs dargestellt, und jeder dieser Links führt in eine gut definierte Ontologie mit eigener Hierarchie und Ebenen der semantischen Bedeutung (gemäß den allgemeinen Grundsätzen von Linked Data).

Dies ist leichter zu erkennen, wenn ein Begriff über das Dialogfeld " Strukturansicht " ausgewählt wird:

Bioassay Express

Bioassay Express

Im obigen Screenshot ist eine ganze Menge los, aber die wichtigste Information ist, dass alle Begriffe in einer Hierarchie dargestellt werden, und jede der Beschriftungen enthält viel mehr Informationen als nur den Text.

Nachdem wir die vorläufige Annotationsschnittstelle zum Laufen gebracht hatten, bestand unsere nächste Aufgabe darin, ein Team von Biologen zusammenzustellen, die ihr Fachwissen mit dem Annotationssystem teilen sollten, was mehreren Zwecken diente: Generierung wertvoller Trainingsdaten, iterative Verbesserung des Schemas und natürlich das Testen der Software. Spulen Sie bis in die Gegenwart vor, und wir haben fast dreitausend von Experten kuratierte Assays angesammelt (Sie können die aktuelle Zahl jederzeit abrufen).

Der Grund, warum wir so viel Aufwand in die Darstellung von Bioassay-Protokollen mit semantischer Terminologie stecken, wird in unseren Literaturveröffentlichungen ausführlich erörtert, aber die lange Geschichte kurz ist, dass die derzeit beste Praxis für die Darstellung von Assays darin besteht, sie mit einfachem Text zu dokumentieren, so dass Sie im besten Fall auf eine zusammenfassende Beschreibung von einer halben Seite oder so zugreifen können. Wenn Sie zwei Assays vergleichen wollen, und Sie sind ein Experte auf dem Gebiet, und Sie haben 10-15 Minuten Zeit, um beide sorgfältig zu lesen, dann brauchen Sie keine Hilfe von dem Projekt, an dem wir arbeiten. Wenn Sie aber viele Assays vergleichen wollen oder eine Datenbank mit präzisen Begriffen durchsuchen wollen, sind Ihre Möglichkeiten unbefriedigend: Die Suche erfolgt in der Regel über eine Stichwortsuche, und jede Analyse auf höherer Ebene wird durch direktes maschinelles Lernen aus dem Text durchgeführt. Mit den entsprechenden semantischen Annotationen können Sie jedoch genau nach dem suchen, was Sie wollen, mit null falsch-positiven und null falsch-negativen Ergebnissen.

Um dies zu demonstrieren, haben wir eine vorläufige Suchseite:

Bioassay Express

Bioassay Express

Die Art und Weise, wie dies funktioniert, besteht im Wesentlichen darin, alle bereitgestellten semantischen Begriffe (unter Verwendung einer Schnittstelle, die der Annotationsseite sehr ähnlich ist) als Fingerabdrücke zu verwenden, und zwar auf eine Art und Weise, die dem Vergleich zweier Moleküle recht ähnlich ist (z. B. unter Verwendung von aus der Struktur abgeleiteten Fingerabdrücken, um eine Tanimoto-Ähnlichkeitsmetrik zu berechnen). Dies ermöglicht es jedem, eine Liste von Assays aus der Datenbank zu ziehen, sortiert nach "most-similar-first".

Dies ist nur eine Demonstration, wie Assays mit Hilfe der Annotationen gefunden/ausgewählt werden können, anstatt mit gröberen Methoden (wie z. B. der Suche nach Schlüsselwörtern). Wir arbeiten jedoch an einer Vielzahl anderer Techniken, die es den Benutzern ermöglichen, eine Datenbank mit Assays zu durchsuchen und die gewünschten Assays auszuwählen (wenn dies interessant klingt, klicken Sie auf die Seite Explore Assays ).

Das Projekt entwickelt sich sehr schnell, und die Hauptnutzer bestehen im Moment nur aus unserem Team von Biologen, die es so weit wie möglich (und noch weiter als beabsichtigt) vorantreiben. Eine der Entscheidungen, die wir am Anfang getroffen haben, war, das Projekt im Freien zu betreiben. Das ist zum Teil aus allgemeinen Prinzipien (wir sind sehr für Zusammenarbeit), aber auch aus Bequemlichkeit: Wir sind ein geographisch verteiltes Team, und der einfachste Weg, Software an jemanden auf der anderen Seite des Kontinents zu verteilen, ist, sie auf einer öffentlichen Webseite ohne Sicherheit zu veröffentlichen. Das ist es, was Sie finden unter http://www.bioassayexpress.com: Die Seite ist im Moment komplett schreibgeschützt, was bedeutet, dass Sie sich nicht anmelden müssen und auch nichts kaputt machen können. Es ist durchaus möglich, es mit Ihren eigenen Assays zu verwenden und kommentierte Ergebnisse herunterzuladen, wenn Sie es ausprobieren möchten.

Neben der Offenheit der Website selbst sind auch die kuratierten Daten, die wir generieren, nicht proprietär. Wir haben den PubChem-Dienst genutzt, um anzufangen, und der gesamte Wert, den wir hinzufügen, ist für jeden verfügbar, der ihn haben möchte (es gibt eine öffentliche API: sie ist nominell selbsterklärend, für jeden, der ein echter Übergeek ist). Ein Teil des Quellcodes des Projekts basiert auf dem Open-Source-Projekt, das wir für Bioassay-Vorlagen erstellt haben (siehe GitHub), aber das Hauptprojekt, das die Website selbst antreibt, ist proprietär. Dies ist ein gewinnorientiertes Projekt, und wie bei vielen der F&E-Projekte, die bei Collaborative Drug Discovery durchgeführt werden, gibt es einen Dualismus, bei dem die Low-Level-Tools frei und für jeden zugänglich gemacht werden, während die High-Level-Tools, die alles mit maximalem Komfort zusammenführen, Geld kosten.

 


Dieser Blog wird von Mitgliedern der CDD Vault Community verfasst. CDD Vault ist eine gehostete Plattform für die Arzneimittelforschung, die sowohl private als auch externe biologische und chemische Daten sicher verwaltet. Sie bietet Kernfunktionen wie Registrierung von Chemikalien, Struktur-Aktivitäts-Beziehung, chemisches Inventar und elektronische Labornotizbücher!

CDD Vault : Drug Discovery Informatics - Ihr gesamtes Projektteam wird begeistert sein!