Spotlight Interview mit Dr. Thomas Sander von Idorsia Pharmaceuticals

July 24, 2018

Thomas Sander leitet die Abteilung für Wirkstoffforschung bei Idorsia Pharmaceuticals Ltd. und leitet das Team hinter DataWarrior und der OpenMolecule-Plattform.

Dr. Thomas Sander Idorsia Pharmaceuticals

DataWarrior* und die OpenMolecule.org-Suite wurden entwickelt, um eine nützliche Plattform für Cheminformatik-Tools für Chemiker in synthetischen und medizinischen Bereichen bereitzustellen. Dr. Sander hat freundlicherweise zugestimmt, uns dieses Interview am Hauptsitz von Idorsia in Basel, Schweiz, zu geben.

Die Fragen von CDD stellen Neil Chapman und Mariana Vaschetto.

1. Thomas, bevor wir anfangen, über DataWarrior zu sprechen, erzähle mir ein wenig über deine bisherige Karriere.

Durch Ausbildung bin ich organischer Chemiker. Während meines siebten Schuljahres begannen wir Chemieunterricht zu haben und bald hatte ich mich entschieden, Chemie zu studieren. Vier Jahre später, als ich noch in der Schule war, hatte ich Gelegenheit, auf die Tectronix-Grafikcomputer der örtlichen Universität zuzugreifen. Ich war sehr fasziniert von der Computerwelt und fing an, etwas Programmieren zu lernen. Sehr bald besaß ich meinen eigenen einfachen 8-Bit-Computer, der gerade für Leute wie mich erschwinglich wurde. Zwei Jahre später begann ich in Marburg Chemie zu studieren und verlor in den folgenden Jahren nie das Interesse an Computerprogrammierung. Später, als ich an meinem Diplom in organischer Chemie arbeitete, gründeten ein Freund und ich eine Firma für Schachdatenbanksoftware. Während der nächsten drei Jahre lag meine Aufmerksamkeit auf Chemie und Softwareentwicklung. Nach meiner Doktorarbeit in organischer Chemie wollte ich Software Engineering und Chemie verbinden. Ich verließ das Unternehmen und verbrachte ein Post-Doc-Jahr bei Prof. JBHendrickson an der Brandeis University in Waltham, Massachusetts, USA, wo ich ein schnelles und interaktives Reaktionssuchsystem entwickelte. In 1993 habe ich mich dann einem kleinen Team von Roche in Basel angeschlossen, um Software für die Wirkstoffforschung zu entwickeln. Fünf Jahre später verließ ich Roche und schloss mich dem kürzlich gegründeten Start-up Actelion an, um die Informatikumgebung für die Wirkstoffentdeckung aufzubauen. Bei der Übernahme von Actelion durch Johnson & Johnson in 2017 wurden die frühere Wirkstoffforschungsabteilung von Actelion sowie einige Mitarbeiter in den Bereichen klinische Entwicklung und Service als neues, finanziell recht gut ausgestattetes Unternehmen aufgeteilt: Idorsia Pharmaceuticals.

2. Welche Rolle spielen Sie bei Idorsia Pharmaceuticals?

Gegenwärtig leite ich die 'Scientific Computing'-Gruppe im Bereich der Wirkstoffforschung, die Algorithmen und Software entwickelt, um die Fülle interner und externer Daten im Zusammenhang mit der Wirkstoffforschung zu nutzen.

3. Idorsia Pharmaceuticals ist ein relativ neues Unternehmen, das sich im Wesentlichen von Actelion Pharmaceuticals in der ersten Hälfte von 2017 getrennt hat. Erzählen Sie mir etwas darüber und ob sich die Softwareentwicklung in Ihrer Gruppe geändert hat.

Bei Actelion waren wir ein Team von 12-Mitarbeitern, von denen 9 aktiv wissenschaftliche Software entwickelte, die den größten Teil der Arzneimittelentdeckungsprozesse abdeckte. Die Software gliederte sich grob in verschiedene Kategorien: Gerätemanagement, Bioprobenmanagement, Verbindungsmanagement, chemische und biologische Datenerfassung, elektronische Notizbücher, Analytik, Hochdurchsatz-Screening, automatisierte Bildanalyse, Chemie- und Bioinformatik, Datenvisualisierung Wir haben auch die meisten Datenbank- und Anwendungsserver gewartet, die die Softwarelandschaft steuern. Nach dem Zusammenschluss funktioniert die Wirkstoffforschungsabteilung von Idorsia weiterhin wie zuvor bei Actelion. Für unser Team gab es jedoch eine geringfügige Änderung: Um einen Teil unserer Ressourcen für wissenschaftlichere Aspekte freizugeben, haben wir die Verantwortung für die routinemäßige Anwendungsentwicklung und -wartung auf unsere Kollegen der globalen IT-Abteilung übertragen. Dies betraf ungefähr die Hälfte unserer Produktivsysteme.

4. Können Sie mir etwas über den Hintergrund von DataWarrior erzählen? Warum wurde es entwickelt, wie wurde es entwickelt?

Die DataWarrior-Geschichte begann im Jahr 2002, als Actelion noch ein sehr junges Unternehmen war. Wir hatten eine auf Oracle basierende Datenbank zur Wirkstoffentdeckung erstellt, die experimentelle interne Daten enthält, darunter chemische Strukturen, Chargeninformationen, Forschungsprojekte, biologische Tests und deren Ergebnisse. Wir hatten auch nächtliche Prozesse installiert, die für jedes wissenschaftliche Projekt alle zugehörigen chemischen Strukturen und biologischen Ergebnisse in eine projektspezifische ChemFinder-Datenbank extrahieren. Dies ermöglichte den Projektmitgliedern, strukturelle Merkmale mit den Testergebnissen in Beziehung zu setzen. Wir haben jedoch die korrekte Datenvisualisierungsfunktionalität in Kombination mit cheminformatischen Algorithmen vermisst. Um solche Funktionen bereitzustellen, haben wir uns zunächst mit Spotfire als mögliche Lösung befasst. Die damals unerschwingliche Preisgestaltung, die Beschränkung auf Windows und die technischen Schwierigkeiten bei der Erweiterung mit cheminformatischen Funktionen haben uns letztendlich zu einem anderen Ansatz veranlasst. Wir haben uns entschlossen, eine eigene Lösung in der Programmiersprache Java zu entwickeln. Innerhalb von vier Wochen hatten wir einen Prototyp mit zoombaren, kartesischen 2D- und 3D-Ansichten, einer Strukturrasteransicht und Zeilenfiltern für alphanumerische Zellen sowie für chemische Strukturen. Dies konnte so schnell geschehen, da wir bereits ein Cheminformatik-Toolkit in Java entwickelt hatten, das eine Unterstruktur und eine deskriptorbasierte Ähnlichkeitssuche bereitstellte. Die 3D-Ansicht wurde auf der JMol 3D-Grafik-Engine erstellt.

5. DataWarrior steht als kostenloser Download zur Verfügung. Was war der Grund für die Entscheidung, es kostenlos zur Verfügung zu stellen?

DataWarrior ist eng mit dem zugrunde liegenden Cheminformatik-Toolkit verbunden, das wir zuvor als Open-Source-Projekt 'OpenChemLib' veröffentlicht hatten. Diese Veröffentlichung wurde aus kurzfristigen und langfristigen Gründen motiviert. Wir haben in verschiedenen Kooperationen mit Universitäten gearbeitet, in denen der Quellcode unseres Toolkits die Grundlage für die Chemieinformatik darstellte. Eine Open-Source-Plattform war für unsere akademischen Partner häufig eine Voraussetzung. Ein Beispiel ist die Suche nach der chemischen Struktur aller Wikipedia-Moleküle, eine gemeinsame Aktivität von Peter Ertl (Novartis), Luc Patiny (EPFL) und uns.

Das langfristige Ziel halte ich für noch wichtiger. In den letzten zwei Jahrzehnten wurden einige Open-Source-Plattformen für die Cheminformatik eingerichtet, die dank der Unterstützung der wachsenden Community an Dynamik gewonnen hatten. Es ist nur eine Frage der Zeit, bis eine offene Plattform alle Actelion-internen Entwicklungsaktivitäten auf unserer proprietären Plattform übertrifft. Bis dahin wären wir gezwungen, unseren damals veralteten Motor auszutauschen. Im Endeffekt würde dies bedeuten, dass jegliche Chemie-Software, die auf der ursprünglichen Plattform basiert, ersetzt wird. Um ein solches Szenario zu verhindern, besteht unsere einzige Hoffnung darin, mit unserem Toolkit einen von mehreren Standards festzulegen und externe Personen in das Boot zu holen. Da wir uns bereits verspätet hatten, als wir OpenChemLib herausbrachten, brauchten wir eine Möglichkeit, dies zu bewerben. Wir betrachteten DataWarrior als unsere beste Option, um das zugrunde liegende Cheminformatik-Toolkit zu bewerben.

Es gibt auch eine andere Antwort darauf. Wir sind ein Pharmaunternehmen und kein Softwareunternehmen. Es ist einfach nicht unsere Aufgabe, professionellen Support zu leisten und einen Software-Außendienst zu betreiben. Als Teil der wissenschaftlichen Wirkstoffforschungsgemeinschaft von Idorsia sind wir außerdem aufgefordert, das Ansehen des Unternehmens zu veröffentlichen und zu verbessern. Für Softwareentwickler bedeutet Publizieren das Publizieren von Quellcode. Idorsia baut viele seiner wissenschaftlichen Anwendungen im eigenen Haus auf, sodass die Veröffentlichung von Open-Source-Projekten diese Botschaft verbreitet und dazu beiträgt, die besten wissenschaftlichen Software-Ingenieure für sich zu gewinnen.

6. DataWarrior ist ein sehr beliebtes Programm und kann mit einer Reihe von Datenbanken kommunizieren, darunter CDD Vault. Erzähl mir etwas über die Schnittstelle.

Der Zugriff von DataWarrior auf die ChEMBL-Datenbank und die Crystallography Open Database (COD) wird durch den reinen HTTP-Zugriff der jeweiligen Server-Engines gelöst. Alle Abfrageoptionen, einschließlich Unterstruktur- und Ähnlichkeitsabfragen, werden als Textzeichenfolgen codiert und an den Server gesendet. Beide Server sind reine Java-basierte HTTP-Server, die auf SimpleFramework aufbauen und eine Multithread-Kommunikations-Engine als Lean-JAR-Datei bereitstellen. Beide Server behalten ihre gesamte Datenbank im Arbeitsspeicher und bearbeiten alle Struktursuchanfragen, die an alle Kerne der Serverhardware verteilt werden. Wenn als Ergebnis chemische Strukturen zurückgegeben werden, werden diese als OpenChemLib-ID-Codes codiert, wodurch der Netzwerkverkehr minimiert wird. Das Abrufen der Wikipedia-Verbindungen ist viel einfacher. Einmal am Tag erstellt der Server eine vollständige neue Liste aller der Wikipedia bekannten chemischen Strukturen. DataWarrior lädt dann die gesamte Liste auch als ID-Codes herunter. Der Quellcode für den Zugriff auf ChEMBL, COD und Wikipedia ist Teil des DataWarrior-Quellcodes und diese Funktionalität ist Teil der öffentlichen DataWarrior-Installation.
Das CDD Vault Zugriff geschieht auf andere Weise. Um die Entwicklung zusätzlicher Module für den Zugriff auf alphanumerische oder strukturelle Datenbanken zu vereinfachen, verfügt DataWarrior über eine Plugin-Schnittstelle. Unabhängig vom DataWarrior-Quellcode ermöglicht diese Schnittstelle die Entwicklung eines Plugins, das einen Dialog zur Definition von alphanumerischen und strukturellen Abfragebedingungen öffnet. Diese können dann an eine Datenbank gesendet und das zurückgegebene Ergebnis verarbeitet werden, um eine neue DataWarrior-Tabelle zu füllen. Der gesamte Java-Code, aus dem ein Plugin besteht, wird in eine unabhängige JAR-Datei kompiliert und im Plugin-Ordner der DataWarrior-Installation abgelegt. Beim Start von DataWarrior wird nach Dateien in diesem Ordner gesucht und für jedes Plugin ein Menüpunkt angezeigt. Wenn der Benutzer dieses Element auswählt, übergibt DataWarrior das Steuerelement an das Plugin, bis es ein neues DataWarrior-Fenster erstellt und auffüllt. Das CDD-Vault-Plug-In verwendet diesen Mechanismus, um das Ergebnis einer CDD-Abfrage abzurufen und anzuzeigen. Das CDD-Vault-Plug-In ist ein Open-Source-Projekt auf Github und wird von CDD-Mitarbeitern verwaltet.

7. Wie ist die aktuelle Situation bei Data Warrior? Gibt es Pläne, diese weiter zu verbessern?

Bestimmt. Ich bin fest entschlossen, die DataWarrior-Funktionalität zu erweitern, um künftigen Anforderungen gerecht zu werden. Einige der Ideen umfassen den Zugang zu einer kommerziellen Chemiedatenbank, die Bioisostere-Ersatzfunktionalität mit Kraftfeldminimierung und Berücksichtigung der synthetischen Machbarkeit, eine bessere Reaktionsunterstützung, mehr grafische Ansichtsoptionen und eine flexiblere Makrounterstützung mit Verzweigungen und Variablen. Leider sind unsere Ressourcen sehr begrenzt, sodass wir Kompromisse eingehen müssen. In der Vergangenheit musste ich häufig größere Ideen verschieben, um kleine Probleme zu implementieren oder vorhandene Funktionen zu optimieren.

8. Haben Sie vor, zusätzliche Softwareprogramme für den externen Gebrauch zu entwickeln?

Tatsächlich unterhalten wir zwei weitere Open-Source-Softwareprojekte, "Orbit Image Analysis" und "Spirit Biobank". Darüber hinaus erwägen wir die Veröffentlichung eines neuen Projekts im Bereich Next Generation Sequencing.

9. Welche interessanten wissenschaftlichen Fragen können mit Ihrer Software gestellt werden? Welche historischen Erkenntnisse haben sie geliefert? Auf welche neuen Arten von Problemen kann die Software in Zukunft angewendet werden?

Ich gehe davon aus, dass sich diese Frage auf unsere intern entwickelte Software zur Wirkstoffforschung bezieht. Um ehrlich zu sein, glaube ich, dass der größte Einfluss auf den Wirkstoffentdeckungsprozess darin bestand, viele einfache und einige komplexere Tools zu entwickeln, die nur einen reibungslosen Arbeitsablauf ermöglichen. Zum Beispiel ein kleines Tool zum Reservieren eines Zeitfensters für das NMR, ein Chemikalieninventar, das automatisch Bestellungen im SAP-System aufgibt, ein Chemie-Notizbuch mit integriertem NMR-Viewer und eine nahtlose Verbindung zum Chemikalieninventar. Der Wert einer Softwareplattform hängt nicht nur davon ab, welche Funktionen verfügbar sind, sondern auch davon, wie einfach diese Funktionen zu verwenden sind und wie gut sie integriert sind. Zum Beispiel beim Durchsuchen von biologischen Testergebnissen die dazugehörigen IC50 Kurven oder HCS-Bilder oder alle Verbindungen im selben Experiment sollten mit einem Mausklick verfügbar sein. Die Makrofunktionalität von DataWarrior hat sich auch als sehr nützlich erwiesen, da erfahrene Benutzer komplexe Workflows definieren können, die von weniger erfahrenen Benutzern wiederholt mit aktualisierten Daten ausgeführt werden können.

Sie haben jedoch nach den aufregenderen wissenschaftlichen Funktionen unserer Software gefragt, wahrscheinlich im Bereich Big Data und maschinelles Lernen. Zum Beispiel betreiben wir einen Server mit ungefähr einer Viertelmilliarde Verbindungen im Speicher, die innerhalb weniger Sekunden auf Unterstruktur oder Ähnlichkeit überprüft werden können. Wir verwenden es auch für das virtuelle Screening bei der Suche nach Pharmakophoren. Wir bearbeiten PubMed-Abstracts in natürlicher Sprache, um mehr über die Beziehungen zwischen Gen und Krankheit zu erfahren. Wir beziehen ferner Gene auf Verbindungen, von denen berichtet wird, dass sie in den jeweiligen Zielen aktiv sind. Wir verwenden auch eine fortschrittliche Imaging-Plattform, um Bildinhalte zu verarbeiten, zu navigieren, zu klassifizieren und zu verarbeiten. Wir verwenden ein Rechenraster für die Suche nach Pharmakophoren, die Bildverarbeitung und das Andocken von Liganden-Proteinen. Für die Zukunft definieren wir gerade Prioritäten. Es besteht ein starkes Interesse an der Planung von Synthesen, dem Ersatz von Bioisosteren und möglicherweise an Augmented Reality, um Diskussionen über Liganden- und Zielstrukturen zu unterstützen.

10. Was sind die herausragenden technischen Herausforderungen in der Cheminformatik, deren Lösung den größten Einfluss auf die Wirkstoffentdeckung haben würde?

Wenn man biologische Aktivitäten, Toxizität und pharmakologische Eigenschaften einer Verbindung direkt aus ihrer chemischen Struktur zuverlässig vorhersagen könnte, würde dies natürlich den Prozess der Wirkstoffentdeckung revolutionieren. Trotz des enormen Hype um maschinelles Lernen glaube ich persönlich nicht, dass wir in diesem Bereich rasche Fortschritte sehen werden. Wir haben nicht viele Trainingsdaten, chemische Strukturen sind kein geeignetes Eingabeformat für diese Methoden und wir haben immer noch ein begrenztes Verständnis der beteiligten biochemischen Prozesse.

Für mich ist es eine überfällige Herausforderung, die zugrunde liegenden Konzepte für die molekulare Modellierung zu verbessern. Kraftfelder auf der Basis der Molekularmechanik haben sich in den 30-Jahren kaum verändert, während die Rechenleistung um den Faktor 1 Million gestiegen ist. Aktuelle Arbeiten von Adrian Roitberg oder Anatole von Lilienfeld deuten darauf hin, dass es möglich sein sollte, maschinelle Lerntechniken zur Berechnung molekularer Energien und Kräfte auf molekularer Ebene einzusetzen. Diese Methoden versprechen eine mit quantenmechanischen Methoden vergleichbare Genauigkeit, sind aber fast so schnell wie herkömmliche Kraftfelder. Wenn wir den Wassereinfluss zusätzlich lösen könnten, wären wir einen großen Schritt weiter.

*DataWarrior ist ein kostenloses Cheminformatik-Programm zur Visualisierung und Analyse von Daten. Es kombiniert dynamische grafische Ansichten und interaktive Zeilenfilterung mit chemischer Intelligenz. Streudiagramme, Box-Diagramme, Balkendiagramme und Tortendiagramme werden zur Visualisierung numerischer und kategorialer Daten sowie zur Darstellung von Trends über mehrere Gerüste und zusammengesetzte Substitutionsmuster hinweg verwendet.

DataWarrior wird derzeit in über einhundert Ländern mit einer Nutzerbasis verwendet, die um ungefähr eintausend Nutzer pro Monat wächst

Für weitere Informationen oder zum Herunterladen von DataWarrior gehen Sie zu www.openmolecules.org.

Bitte besuchen Sie Unser Blogbeitrag für den DataWarrior und CDD Vault Integration.


Dieser Blog wurde von Mitgliedern der verfasst CDD Vault Gemeinschaft. CDD Vault ist ein gehosteter Drogenforschung Informatik Plattform, die sowohl private als auch externe biologische und chemische Daten sicher verwaltet. Es bietet Kernfunktionen einschließlich chemische Registrierung, Struktur Aktivitätsbeziehung, chemisches Inventar, und elektronisches Labornotizbuch Funktionen.

CDD Vault: Drug Discovery Informatics wird Ihr gesamtes Projektteam umarmen!