Deep Learning in der Wirkstoffforschung

Mai 9, 2017

- Vom Schreibtisch von Peter Lind, CDD Advocate -

Maschinelles Lernen

Beim maschinellen Lernen geht es darum, Computerprogramme zu entwerfen und auszuführen, die sich mit der Erfahrung automatisch verbessern. Eine lernende Maschine soll als Reaktion auf Eingabedaten das Richtige tun, und sie sollte die Fähigkeit haben, sich zu verbessern und besser zu werden, wenn sie Feedback darüber sammelt, wie gut ihre Antworten sind. In formalen Studien sagen wir, dass die Maschine eine Aufgabe (T) hat, die mit einer gewissen Leistung (P) ausgeführt wird, die verbessert werden soll, wenn das Programm Erfahrung (E) gewinnt.

Hier sind einige Beispiele für Aufgaben:

    • Machen Sie die richtigen Züge in einem Schachspiel, mit dem Ziel zu gewinnen.
    • Raten Sie, welche Artikel ein Kunde wahrscheinlich kaufen wird.
    • Vorhersage des morgigen Wetters an einem Ort.
    • Steuerung der Arm- und Beinbewegungen eines Laufroboters.
    • Vorhersage des metabolischen Schicksals eines geplanten Medikamentenmoleküls.
    • Bestimmen Sie, welche E-Mail-Nachrichten Spam sind.

Die Aufgaben können sehr unterschiedlicher Natur sein, aber das gemeinsame Thema ist, dass die Aufgabe als Reaktion auf unterschiedliche Eingabedaten unterschiedlich und angemessen ausgeführt werden soll. Bei den Eingabedaten kann es sich um eine Schachbrettposition handeln oder um Aufzeichnungen über frühere Käufe eines Kunden und sein historisches Surfverhalten. Die Ausführung einer Aufgabe ist immer mit der Produktion von Ausgabedaten verbunden, bei denen es sich um ein interessantes Ergebnis handeln kann, oder um eine Vorgabe für weitere Aktionen in Richtung eines Endergebnisses. Der Lernprozess versucht zu optimieren, wie Aufgaben ausgeführt werden, um eine bessere Leistung zu erzielen, d. h., es wird erwartet, dass sich das Ergebnis einer bestimmten Eingabe ändert und verbessert, wenn die Maschine an Erfahrung gewinnt.

Tiefes und oberflächliches maschinelles Lernen

Wenn der Computer seine Aufgabe in einer einstufigen Weise ausführt, bei der Eingabedaten direkt in einem geradlinigen Prozess in Ausgabedaten umgewandelt werden, dann sagt man, dass die Lernmaschine eine flache Architektur hat. Wenn die Aufgabenausführung schrittweise erfolgt, so dass die Ausgabe eines ersten Prozesses die Eingabe für einen zweiten Prozess ist und so weiter, dann sagt man, dass wir eine tiefe Architektur haben.

Als Beispiel für eine oberflächlich lernende Maschine betrachten Sie einen primitiven Spam-Filter-Algorithmus, der versucht, eine Regel zur Spam-Erkennung zu erlernen, die auf dem Vorhandensein von auf Spam hinweisenden Schlüsselwörtern basiert. Vielleicht lernt die Maschine, dass die Wörter "urgent", "amazing", "free" und ein paar mehr auf Spam hinweisen. Das Aufsummieren einer Punktzahl, die auf dem Vorhandensein dieser Wörter basiert, ist ein einfacher Prozess, der oberflächlich ist, weil die Bildung der Summe ein einziger logischer Schritt ist.

Als Beispiel für eine Deep-Learning-Maschine betrachten wir ein Bildanalysesystem, das die Aufgabe hat, Objekte in einem digitalen Foto zu erkennen und zu klassifizieren. Die Maschine erhält ihre Eingabe in einem Pixelformat und muss bestimmen, ob ein oder mehrere Sätze von Pixeln irgendwo im Bild ein bestimmtes Objekt darstellen, z. B. einen Hund oder ein Auto. Es gibt keine Möglichkeit, in einem einzigen Schritt direkt von Pixeln zu klassifizierten Objekten zu gelangen. Das gleiche Objekt kann unterschiedlich viel Platz auf dem Bild einnehmen, je nachdem, wie nah es an der Kamera war, und das Pixelmuster hängt vom Winkel ab, aus dem das Foto aufgenommen wurde. Objekte können teilweise von anderen Objekten verdeckt sein, und ihr Aussehen im Bild hängt von den Schatten ab. Außerdem kann derselbe Objekttyp in verschiedenen Größen und Farben vorkommen.

Die Lösung des Problems erfordert, dass die Eingabedaten schrittweise verarbeitet werden, wobei der erste Schritt vielleicht Konturen findet, der zweite Schritt 2D-Formen herausarbeitet, die von Konturen umschlossen werden, ein dritter Schritt arbeitet auf einer noch höheren Ebene und so weiter, bis wir zu Objektklassen kommen. Die Maschine muss lernen, wie sie jeden Schritt gut ausführen kann, um gut in der Gesamtaufgabe der Objekterkennung zu werden. Dies ist Deep Learning.

Tiefe ist eine Eigenschaft von lernenden Maschinenarchitekturen, und wir können mehr oder weniger davon haben, aber es gibt keine eindeutige Grenze zwischen seicht und tief. Das liegt daran, dass Prozesse und Schritte auf unterschiedliche Weise definiert werden können.

Merkmal Transformation

Wie oben beschrieben, verarbeitet die Deep-Learning-Maschine Rohmerkmale der Eingabedaten, wie z. B. Pixel, und wandelt sie in Merkmale höherer Ordnung um, die eine bessere Ausdruckskraft im Bereich des Endproblems haben, wie z. B. 3D-Objekte. Diese Umwandlungen werden als Merkmalstransformationen bezeichnet, und die Maschine arbeitet intern mit mehreren Repräsentationsebenen.

Der Konstrukteur einer lernenden Maschine muss nicht im Voraus wissen, welche Art von Merkmalstransformationen erforderlich sind, um ein bestimmtes Problem zu lösen. Eine Maschine kann, wenn sie eine ausreichende Anzahl von Trainingsbeispielen hat, herausfinden, welche Merkmalstransformationen für die Erfüllung ihrer Aufgabe effektiv sind.

Die Merkmale entsprechen möglicherweise nicht den menschlichen Konzepten und wir sind nicht in der Lage zu erklären, wie die Maschine zu einem bestimmten Ergebnis kommt.

Zusammenfassend erklärt die Merkmalstransformation, warum Deep Learning effektiv ist. Ein Entwickler einer Deep-Learning-Maschine muss verstehen, wie er Feature-Learning und Feature-Transformation ermöglichen kann, aber er muss im Voraus keine Vorstellungen über die Art der dazwischenliegenden Features haben, die einbezogen werden sollen.

Biologie

Interessanterweise gibt es Hinweise darauf, dass das Gehirn einen schrittweisen Prozess und eine Form der Merkmalstransformation verwendet, wenn es visuelle Daten verarbeitet und darauf reagiert. (1)

Nervensignale wandern vom Auge zu einem Bereich des Gehirns, der als primärer visueller Kortex bezeichnet wird. Signale, die von benachbarten Bereichen in der Netzhaut ausgehen, stimulieren benachbarte Zellen in der ersten Schicht des visuellen Kortex. Es scheint, dass der primäre Kortex sich mit Merkmalen auf niedriger Ebene beschäftigt, wie z. B. Kanten zwischen Bereichen unterschiedlicher Helligkeit und Farbe. Signale aus dem visuellen Kortex werden anschließend weiter an Bereiche gesendet, in denen Objekte erkannt werden, und von dort an Bereiche mit anderen Aufgaben, wie z. B. der Analyse von Bewegungen.

Dies mag für den Datenwissenschaftler eine kuriose Tatsache sein, und einige der frühen Forschungen zum maschinellen Lernen wurden von Ergebnissen aus der Neurowissenschaft inspiriert. Aber die meisten Entwicklungen basieren heute auf Ergebnissen und Theorien aus der Informatik und dem statistischen Lernen, und es besteht nur sehr selten die Absicht zu imitieren, wie das Gehirn arbeitet und lernt.

Eine der Technologien des maschinellen Lernens heißt künstliche neuronale Netze oder einfach neuronale Netze. Diese Technologie wird so genannt, weil ein Diagramm, das ihre Funktionsweise erklärt, wie eine Cartoon-Zeichnung von vernetzten biologischen Neuronen aussieht. Auch hier besteht normalerweise nicht die Absicht, einen biologischen Prozess zu simulieren.

Neuronale Netze mit Vorwärtskopplung

Es gibt viele Arten von lernenden Maschinen und viele Versionen von jeder. Wir werden hier kurz ein grundlegendes Beispiel des Typs namens Feedforward Neural Networks beschreiben. (2) Es gibt viele fortgeschrittene Ausarbeitungen, die in Programmen wie AlphaGo (3) und der neuesten Version von Google Translate (4) verwendet werden.

Unten ist eine Abbildung eines Feedforward-Netzwerks zu sehen. Die Kreise stellen künstliche Neuronen dar. Unten befindet sich eine Schicht von Eingangsneuronen und oben eine Schicht von Ausgangsneuronen. Die Neuronenschichten dazwischen werden als versteckte Schichten bezeichnet. Ein flaches Netzwerk hat wenige versteckte Schichten und ein tiefes Netzwerk hat viele. Die versteckten Neuronen werden so genannt, weil sie sich im Inneren der Lernmaschine befinden und die Außenwelt sie nicht sehen kann. Die Abbildung zeigt ein Beispiel mit nur dreizehn Neuronen, während ein reales Programm oft viele Tausende von Neuronen hat. Die Anzahl der Neuronen in den versteckten Schichten kann variieren.

Denken Sie daran, dass die Maschine Aufgaben (T) mit einer gewissen Leistung (P) ausführt, die sich verbessern sollte, wenn sie an Erfahrung (E) gewinnt. Wir können Zahlenmengen verwenden, um sowohl die Eingabe als auch die Ausgabe zu kodieren, so dass es für eine Maschine bei einer Aufgabe immer um die Produktion von Ausgabezahlen in Reaktion auf Eingabezahlen geht.

Beim Versuch, eine Aufgabe zu lösen, befindet sich die Maschine in einer Feedforward-Phase. Die Eingabedaten werden den Eingabeneuronen zugewiesen, was bedeutet, dass jedem Neuron ein numerischer Wert zugewiesen wird. Wenn die Eingabedaten von einem Schwarz-Weiß-Bild stammen, dann benötigen wir so viele Eingabeneuronen, wie wir Pixel im Bild haben. Jedes Eingangsneuron ist mit einer Anzahl von Neuronen in der ersten versteckten Schicht verbunden. Eine Verbindung bedeutet, dass während der Vorwärtskopplung der Wert eines niedrigeren Neurons mit einem für die Verbindung spezifischen Gewichtungsfaktor (w) multipliziert wird und das Produkt dem Neuron am höheren Ende der Verbindung hinzugefügt wird. Eine mathematische Funktion, die Aktivierungsfunktion genannt wird, wird dann auf die Summe angewendet, um den neuen Wert des Neurons zu bilden. Dies geht weiter, Schicht für Schicht, bis sich die Zahlen auf der Ausgabeschicht addiert haben. Die verbindungsspezifischen Gewichte werden im Laufe des Lernprozesses angepasst. Die Gewichte werden typischerweise auf zufällige Werte gesetzt, bevor wir mit dem Lernen beginnen, was bedeutet, dass wir beim ersten Versuch bei einigen Aufgaben zufällige Ergebnisse und unbrauchbare Leistung erhalten werden.

Vielleicht haben wir beschlossen, dass das erste Ausgangsneuron für die Wahrscheinlichkeit kodieren soll, dass sich irgendwo im Eingabebild eine Katze befindet. Hohe Ausgabewerte werden hohe Katzenwahrscheinlichkeiten bedeuten, und umgekehrt. Die Maschine wird die Unterschiede zwischen den tatsächlichen und den korrekten Ergebnissen nach dem Feed Forward aufzeichnen. Dann tritt sie in eine Phase der Gewichtsaktualisierung ein. Ein bestimmter Algorithmus namens Backpropagation wird verwendet, um die Gewichte des Netzwerks so zu aktualisieren, dass die Fehler bei einer erneuten Ausgabe der gleichen Aufgabe geringer wären. Wie der Name schon sagt, arbeitet die Backpropagation von der Ausgabeschicht und zurück durch die versteckten Schichten. Das Lernen mit neuen Aufgaben wird so lange fortgesetzt, wie es die Ressourcen erlauben, oder bis die Leistung nicht mehr steigt. Sehr oft wird derselbe Aufgabensatz viele Male wiederverwendet, und wir bezeichnen dann jeden Zyklus von Aufgaben als Trainingsepoche. Der Backpropagation-Algorithmus, der auf Ergebnissen aus der Infinitesimalrechnung basiert, wurde 1986 von dem mathematischen Psychologen David Rumelhart aus Stanford als Trainingsmethode für neuronale Netze vorgeschlagen. (5)

Maschinelles Lernen Deep Learning in der Wirkstoffforschung

Es war von Anfang an klar, dass Netzwerke mehr als nur ein paar Schichten haben können, aber das Training tiefer Netzwerke verbraucht tendenziell mehr Computerressourcen und es werden viel mehr Trainingsdaten benötigt. Dies erklärt, warum Deep Learning mit der Zeit relativ an Bedeutung gewonnen hat. In den letzten Jahren gab es einen sprunghaften Anstieg der Popularität von tiefen Netzen, nicht nur wegen leistungsfähigerer Hardware, sondern auch, weil viel mehr ausreichend große Datensätze verfügbar geworden sind. Eine grobe Faustregel besagt, dass etwa 5000 Trainingsbeispiele für eine akzeptable Leistung benötigt werden. (2)

Andere Deep-Maschinen

Eine der legendärsten Anwendungen des maschinellen Lernens ist der Schachcomputer Deep Blue von IBM. Dieser ist berühmt dafür, dass er 1997 den Großmeister Garry Kasparov besiegt hat, der zu dieser Zeit Weltmeister war. Der Name Deep Blue hat nichts mit mehrschichtigen Netzen zu tun und wurde aus anderen Gründen gewählt. (6) Blau ist eine Hauptfarbe der Markenidentität von IBM, und tief war vom Namen des Vorgänger-Schachcomputers Deep Thought. Die Deep Thought-Maschine hatte ihren Namen von einem Computer aus der Science-Fiction-Comedy-Serie The Hitchhiker's Guide to the Galaxy, geschrieben von Douglas Adams, erhalten. (7) Deep Thought aus der fiktiven Serie wurde mit dem Ziel geschaffen, die Antwort auf die große Frage nach dem Leben, dem Universum und allem zu berechnen. Nachdem er siebeneinhalb Millionen Jahre lang über das Problem nachgedacht hatte, lieferte Deep Thought schließlich die Antwort, die zweiundvierzig war.

Deep Fritz und Deep Junior sind andere Schachcomputer mit demselben Namen.

Wenn es um Computer und Brettspiele geht, liegt die meiste Aufmerksamkeit heute auf dem Strategiespiel Go, das komplexer ist als Schach, da es mehr Alternativen pro Zug gibt. Go spielende Maschinen sind erst seit kurzem in der Lage, menschliche Großmeister zu besiegen. Ein Durchbruch gelang 2016, als das Computerprogramm AlphaGo den 9-Dan-Meister Lee Sedol besiegte. AlphaGo verwendet tatsächlich ein tiefes neuronales Netzwerk. (3)

Deep Learning in der Wirkstoffforschung

Die gewünschte Wirkung eines Arzneimittels ergibt sich aus seiner Wechselwirkung mit einem biologischen Zielmolekül im Körper. Zwischenmolekulare Kräfte binden Wirkstoff und Zielmoleküle aneinander und die darauf folgenden Ereignisse haben Auswirkungen auf eine Krankheit oder einen Zustand. Daher wird in einem Medikamentenentwicklungsprojekt nach Verbindungen gesucht, die stark genug an ein Zielmolekül binden können. Ein Medikament kann aber auch an Nicht-Zielmoleküle im Körper binden, was zu unerwünschten und möglicherweise gefährlichen Nebenwirkungen führen kann, die vermieden werden müssen. Auch die Aufnahme eines Medikaments aus dem Darm sowie sein Stoffwechsel und seine Ausscheidung hängen von intermolekularen Kräften ab.

Leider können wir ein potenzielles Medikamentenmolekül nicht im Computer untersuchen, um vorherzusagen, wie es mit den relevanten Molekülen im Körper interagieren wird. Ein Grund dafür ist, dass uns eine gute allgemeine Methode zur Vorhersage der intermolekularen Kräfte fehlt.

Heute scheitern die meisten Medikamentenkandidaten, wenn sie in der Klinik am Menschen getestet werden. Das macht den gesamten Prozess der Medikamentenherstellung extrem kostspielig und es könnten viele Ressourcen eingespart werden, wenn wir bessere Vorhersagemethoden hätten.

QSAR

Die Entdeckung von Arzneimitteln ist ein iterativer Prozess, bei dem es ein Element von Versuch und Irrtum gibt. Neue Verbindungen werden auf der Grundlage von Testdaten bereits hergestellter Verbindungen entwickelt. Man versucht, Muster zwischen Struktur und Aktivität oder Struktur und jeder anderen Eigenschaft zu finden, in einer sogenannten quantitativen Struktur-Aktivitäts-Analyse, abgekürzt QSAR. Die QSAR-Analyse versucht zu modellieren, wie Wirkstoff-Ziel-Interaktionen von der Wirkstoffstruktur abhängen, aber sie tut dies auf indirekte Weise, ohne irgendwelche Versuche zu unternehmen, die physikalischen Phänomene hinter den intermolekularen Kräften explizit zu modellieren.

QSAR-Modelle können mehr oder weniger lokal oder global sein. Ein globales Modell wird auf einem vielfältigen Satz von Verbindungen trainiert und kann aussagekräftige Schätzungen für eine breite Palette von Verbindungen erzeugen. Die Datensätze für globale Modelle sind in der Regel groß. Ein lokales Modell wird auf eine Verbindungsklasse von besonderem Interesse trainiert und kann Schätzungen für Verbindungen innerhalb dieser Klasse erstellen. Lokale Modelle schneiden im Allgemeinen viel besser ab als globale Modelle für Sätze ähnlicher Verbindungen und werden daher in Projekten zur Leitstrukturoptimierung verwendet, bei denen sich die Arbeit auf bestimmte Klassen von Strukturen konzentriert.

Tiefe neuronale Netze zeigen Vorteile, wenn die Datensätze sehr groß sind. Der Gewinner eines Wettbewerbs für computergestützte Chemie aus dem Jahr 2012 verwendete beispielsweise ein Ensemble von Methoden, das tiefe neuronale Netze beinhaltete. (8) Die Datensätze in dem Wettbewerb reichten von etwa 2000 bis 50000 Verbindungen und mehrere Tausend Deskriptoren wurden für jede Verbindung bereitgestellt. Die besten Ergebnisse in dieser Arbeit wurden von Netzwerken mit vier versteckten Schichten erzielt, die zwischen 1000 und 4000 Neuronen in jeder dieser Schichten hatten. Das mittlere statistische R-Quadrat der Modelle betrug 0,49, was bedeutet, dass diese Computermodelle etwa die Hälfte der Varianz der Daten erklären können.

Eine andere QSAR-Studie mit neuronalen Netzwerken sagte die Aktivitäten von Verbindungen aus mehreren Assays gleichzeitig voraus. (9) Die Studie bezog sich auf 19 Datensätze aus PubChem mit einer Größe von etwa 2000 bis 14000 Verbindungen. Die Ergebnisse waren besser als die von alternativen Methoden, aber die Änderung der Anzahl der versteckten Schichten des neuronalen Netzwerks hatte keinen signifikanten Effekt.

Ein Projekt zur Entdeckung von Arzneimitteln möchte natürlich in der Lage sein, einen Wirkstoffkandidaten zu identifizieren, nachdem so wenige Verbindungen wie möglich synthetisiert und untersucht wurden, daher liegt das Hauptinteresse in diesem Zusammenhang auf guten Modellen, die auf kleinen Datensätzen basieren. Das Hinzufügen weiterer Schichten zu neuronalen QSAR-Netzwerken wird höchstwahrscheinlich keinen Vorteil bringen, wenn die Datensätze klein sind und die primäre Eingabe aus einem der traditionellen Typen von molekularen Deskriptoren besteht.

Andocken

Es wurde viel Aufwand in die Entwicklung sogenannter Docking-Programme gesteckt, bei denen es sich um Algorithmen handelt, die vorhersagen sollen, wie gut hypothetische Moleküle an ein bestimmtes Ziel binden werden. Docking-Programme können verwendet werden, um eine Sammlung virtueller Verbindungen zu screenen, um eine Teilmenge zu erhalten, für die ein höherer Anteil von Verbindungen tatsächlich gute Bindungen aufweist.

Das Docking-Programm muss eine Reihe von möglichen relativen Orientierungen zwischen Ziel- und Ligandenmolekülen untersuchen und die Bindungsstärke für jede dieser Posen schätzen. Zur Abschätzung der Bindungsstärke wird eine sogenannte Scoring-Funktion verwendet. Der Knackpunkt ist wiederum, dass wir heute nicht zuverlässig vorhersagen können, wie eng die Wechselwirkung zwischen zwei Molekülen sein wird.

Die meisten Programme, die sich mit molekularer Interaktion beschäftigen, verwenden intern eine Art von Stick-and-Ball-Darstellung von Molekülen. Die Modelle werden auch Faktoren verwenden, die Anziehung, Abstoßung, Flexibilität und mehr ausdrücken. Aber die Wechselwirkungen zwischen Medikament und Zielmolekül mit einem gewissen Maß an Präzision zu modellieren, ist noch ein weit entferntes Ziel. Moleküle in einer biologischen Umgebung bewegen sich, schwingen und sind von anderen Molekülen umgeben, die die Bindung beeinflussen. Ein Programm, das die physikalische Realität, die der molekularen Interaktion zugrunde liegt, direkt modelliert, müsste ein hohes Maß an Theorie verwenden und eine so große Anzahl von relativen Posen und Schwingungsmodi berücksichtigen, dass eine Berechnung nicht mehr durchführbar ist.

Die klassische Stick-and-Ball-Darstellung ist nach wie vor sehr nützlich für die Vorhersage und Erklärung vieler Phänomene in der Chemie, aber es sieht so aus, als ob Computerchemiker andere Features brauchen werden, die die Arbeit in intermolekularen Kraftmodellen erledigen. Der primäre Chemie-Input wird natürlich immer noch in den üblichen Formaten vorliegen, aber lernende Maschinen müssen die Möglichkeit haben, geeignete Feature-Transformationen zu finden.

Ein aktuelles Beispiel für eine maschinelle Lernstudie, die Deep Learning für das Docking verwendet, stammt von Pereira und Mitarbeitern. (10) Die primären Merkmale, die von ihrer Lernmaschine verwendet werden, umfassen Kontextdaten für jedes Atom der Verbindungen. Kontextdaten sind Abstände, Atomtypen, atomare Teilladungen und Aminosäuren.

Synthetische Methoden

Ein weiterer Bereich, in dem wir Fortschritte durch maschinelles Lernen erwarten können, ist die retrosynthetische Analyse. Moleküle sind oft schwer zu synthetisieren, und ein Großteil der Ressourcen in der Arzneimittelforschung fließt in die Synthese. Es kann schwierig sein, auch nur einen einzigen synthetischen Weg zu einer Zielverbindung zu finden. Retrosynthetische Analyse ist die systematische Untersuchung möglicher Synthesewege, die rückwärts gesucht werden, beginnend mit der Suche nach Möglichkeiten, die endgültige Verbindung aus einfacheren Verbindungen herzustellen und dann zu sehen, wie diese wiederum aus noch einfacheren Verbindungen abgeleitet werden können.

Auch hier werden die Verfügbarkeit von Trainingsdaten und die Zusammenarbeit bei der Datenerfassung der Schlüssel zum Fortschritt sein. Ein interessanter und herausfordernder Aspekt ist, dass Aufzeichnungen in der synthetischen Chemie fast nie vollständig sind, da es eine praktische Grenze dafür gibt, wie viele Reaktionsergebnisdaten ein Chemiker analysieren und interpretieren kann. Die lernenden Systeme müssen gut mit unvollständigen Daten umgehen können.

Was wird als nächstes passieren?

Datensätze

Immer mehr Datensätze mit chemischen Strukturen und Aktivitätsdaten werden für die Öffentlichkeit freigegeben, und es gibt inzwischen frei verfügbare Datenbanken, die sowohl Qualität als auch Quantität bieten. (11) Dies ist von enormer Bedeutung für die Computergemeinde, die Qualitätsdaten benötigt, um neue Technologien entwickeln zu können. Die allgemeine Verfügbarkeit von Benchmark-Datensätzen wird weiter zunehmen, was eine beschleunigte Entwicklung von Methoden des maschinellen Lernens in der Wirkstoffforschung auslösen wird. Es wird zunehmend merkwürdig erscheinen, Berechnungsmethoden zu veröffentlichen, die auf nicht offengelegten, proprietären Datensätzen benchmarked werden.

Wolke

Pharmaunternehmen müssen ihr geistiges Eigentum sorgfältig schützen und haben daher sehr strenge Richtlinien, was die gemeinsame Nutzung von Daten angeht. Die Angst, dass die Daten in die falschen Hände geraten, war der Grund dafür, dass die Pharmaindustrie ein Spätbereiter des Cloud Computing war. Doch jetzt lagert die Pharmaindustrie immer mehr von ihrer Recheninfrastruktur aus. Die Anbieter von Cloud-basierten Diensten sind sich natürlich der Sicherheitsbedenken ihrer Kunden bewusst und konkurrieren nicht nur mit der technischen Servicequalität, sondern auch mit Sicherheit und Vertrauenswürdigkeit. Die Nutzung von Cloud-Diensten wird weiter zunehmen.

Software

Es gibt eine Reihe von Open-Source-Frameworks für maschinelles Lernen und eine Reihe von Ökosystemen für Cloud Computing sind zu Standardwerkzeugen für Datenwissenschaftler geworden, die beispielsweise mit Finanzprognosen oder Kundenverhalten arbeiten. Es bleibt abzuwarten, wie F&E-Informatiker die Standardwerkzeuge des maschinellen Lernens mit den spezifischen Werkzeugen für den Bereich des Wirkstoffdesigns integrieren werden. Von Mitarbeitern der F&E-Informatik wird bereits erwartet, dass sie über ein breites Verständnis von maschinellem Lernen verfügen, und Personen aus diesen Bereichen, wie z. B. Chemoinformatiker, Bioinformatiker, Computational Chemists und F&E-IT-Mitarbeiter, werden weiterhin mehr über Deep Learning lernen und dessen Möglichkeiten nutzen.

Chemiedaten für QSAR sind natürlich nur eine andere Form von Daten, wie Bilddaten für die Objekterkennung, Audiodaten für Sprachinterpreten oder Brettspielpositionen für Schach- oder Go-Spielmaschinen. Spezifisch für QSAR ist vielleicht, dass reale Datensätze oft klein sind, verglichen mit denen aus anderen Bereichen, in denen oft viele Größenordnungen mehr Proben zur Verfügung stehen. Deep Learning erfordert große Datensätze. Vielleicht können tiefe Netzwerke irgendwie trainiert werden, um leistungsstarke Merkmalstransformationen auf großen Datensätzen mit allgemeinen Daten zu finden, bevor sie auf kleineren Datensätzen von speziellem Interesse weiter trainiert werden.

Scoring-Funktionen

Das Fehlen einer guten Technologie zur schnellen Abschätzung von intermolekularen Kräften (Scoring-Funktionen) ist ein Bereich von besonderem Interesse. Es ist ein Beispiel für einen Bereich der Technologie, in dem Vorhersagen über zukünftige Fortschritte seit vielen Jahrzehnten zu optimistisch sind. Der Einsatz von Deep-Learning-Methoden könnte sich als ein Weg nach vorne erweisen.

Referenzen

  1. https://en.wikipedia.org/wiki/Visual_system
  2. Goodfellow, I.; Bengo, Y. & Courville, A. (2016), 'Deep Learning', The MIT Press.
  3. Silver, D.; Huang, A.; Maddison, C. J.; Guez, A.; Sifre, L.; van den Driessche, G.; Schrittwieser, J.; Antonoglou, I.; Panneershelvam, V.; Lanctot, M.; Dieleman, S.; Grewe, D.; Nham, J.; Kalchbrenner, N.; Sutskever, I.; Lillicrap, T.; Leach, M.; Kavukcuoglu, K.; Graepel, T. & Hassabis, D.: 'Mastering the game of Go with deep neural networks and tree search.' Nature 529 (2016), Nr. 7587, 484-489
  4. Wu, Y.; Schuster, M.; Chen, Z.; Le, Q. V.; Norouzi, M.; Macherey, W.; Krikun, M.; Cao, Y.; Gao, Q.; Macherey, K.; Klingner, J.; Shah, A.; Johnson, M.; Liu, X.; Łukasz Kaiser; Gouws, S.; Kato, Y.; Kudo, T.Kazawa, H.; Stevens, K.; Kurian, G.; Patil, N.; Wang, W.; Young, C.; Smith, J.; Riesa, J.; Rudnick, A.; Vinyals, O.; Corrado, G.; Hughes, M. & Dean, J.: 'Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.' arXiv(1609.08144v2).
  5. Rumelhart, D. E.; Hinton, G. E.; Williams, R. J.: 'Learning representations by back-propagating errors.' Nature 323 (1986), Nr. 6088, S. 533-536
  6. Hsu, F.: 'Behind Deep Blue: Building the Computer that Defeated the World Chess Champion': Princeton University Press, 2002.
  7. https://en.wikipedia.org/wiki/Deep_Thought_(schach_computer)
  8. Ma, J.; Sheridan, R. P.; Liaw, A.; Dahl, G. E. & Svetnik, V. (2015), 'Deep Neural Nets as a Method for Quantitative Structure-Activity Relationships', J. Chem. Inf. Model. 55(2), 263–274.
  9. Dahl, G., E.; Jaitly, N. & Salakhutdinov, R. (2014), 'Multi-task neural networks for QSAR predictions', arXiv(1406.1231).
  10. Pereira, J. C.; Caffarena, E. R. & dos Santos, C. N. (2016), 'Boosting Docking-Based Virtual Screening with Deep Learning', J. Chem. Inf. Model. 56(12), 2495–2506.
  11. Bento, A. P.; Gaulton, A.; Hersey, A.; Bellis, L. J.; Chambers, J.; Davies, M.; Krüger, F. A.; Light, Y.; Mak, L.; McGlinchey, S.; Nowotka, M.; Papadatos, G.; Santos, R. & Overington, J. P.: 'The ChEMBL bioactivity database: an update'. In: Nucleic Acids Research 42 (2013), Nr. D1, S. D1083-D1090