來自Idorsia Pharmaceuticals的Thomas Sander博士的焦點訪談

.

Thomas Sander領導Idorsia Pharmaceuticals Ltd.的藥物發現信息學部門,並領導DataWarrior和OpenMolecule平台背後的團隊。

Thomas Sander博士Idorsia製藥

數據戰士* 創建OpenMolecule.org套件是為了為合成化學和藥用化學家提供化學信息學工具的實用平台。 桑德博士謹此同意在瑞士巴塞爾的Idorsia總部接受我們的採訪。

來自CDD的問題是Neil Chapman和Mariana Vaschetto。

1。 在我們開始談論DataWarrior之前,Thomas向我介紹了您到目前為止的職業。

通過教育我是有機化學家。 在學校的第七年,我們開始上化學課,不久我就下定決心學習化學。 四年後,還在上學時,我有機會訪問了當地大學的Tectronix圖形計算機。 我對計算機世界很感興趣,並開始學習一些編程。 很快我就擁有了自己的簡單8位計算機,這些計算機對於像我這樣的人來說才開始變得負擔得起。 兩年後,我開始在馬爾堡學​​習化學,在接下來的幾年裡,我從未對計算機編程失去興趣。 後來,當我從事有機化學專業的文憑工作時,我和一個朋友成立了國際象棋數據庫軟件公司。 在接下來的三年中,我的注意力集中在化學和軟件開發之間。 在完成有機化學博士學位論文後,我想將軟件工程與化學相結合。 我離開了公司,在美國馬薩諸塞州沃爾瑟姆市布蘭代斯大學的JBHendrickson教授呆了一個博士後,在那裡我開發了一個快速,交互式的反應搜索系統。 然後,在1993中,我加入了位於巴塞爾羅氏(Roche)的一個小團隊,開髮用於藥物發現的軟件。 五年後,我離開羅氏,加入了剛成立的新興公司Actelion,建立了藥物發現信息學環境。 當Actelion被強生公司(2017)接管時,Actelion的前藥物研發部門以及一些臨床開發和服務人員被拆分為一家資金充裕的新公司Idorsia Pharmaceuticals。

2。 您在Idorsia Pharmaceuticals中扮演什麼角色?

目前,我領導著藥物發現領域的“科學計算”小組,該小組開發算法和軟件,以利用與藥物發現有關的大量內部和外部數據。

3。 Idorsia Pharmaceuticals是一家相對較新的公司,在2017的上半年基本上與Actelion Pharmaceuticals分離。 告訴我一些有關它以及它是否改變了您小組中的軟件開發的信息。

在Actelion,我們由12團隊組成,其中9正在積極開發涵蓋大多數藥物發現過程的科學軟件。 大致上,該軟件分為以下幾類:設備管理,生物樣品管理,化合物管理,化學和生物數據採集,電子筆記本,分析,高通量篩選,自動化圖像分析,化學和生物信息學,數據可視化,等等。我們還維護了驅動軟件發展的大多數數據庫和應用服務器。 合併後,Idorsia的藥物發現部門將繼續像Actelion一樣運作。 但是,對於我們的團隊來說,發生了一點變化:為了釋放我們的一些資源來專注於更科學的方面,我們將日常應用程序開發和維護的職責移交給了全球IT部門的同事。 這涉及我們大約一半的生產系統。

4。 您能告訴我有關DataWarrior的背景嗎? 為什麼開發,如何開發?

DataWarrior的故事始於2002年,那時Actelion還是一個非常年輕的公司。 我們已經建立了一個基於Oracle的藥物發現數據庫,其中包含內部實驗數據,包括化學結構,批次信息,研究項目,生物學分析及其結果。 我們還安裝了夜間運行流程,該流程將為每個科學項目將所有相關的化學結構和生物學結果提取到特定於項目的ChemFinder數據庫中。 這些使項目成員能夠將結構特徵與化驗結果相關聯。 但是,我們錯過了結合化學信息學算法的適當數據可視化功能。 為了提供此類功能,我們首先將Spotfire作為一種潛在的解決方案。 但是,當時它的價格過高,對Windows的限制以及使用化學信息學功能對其進行擴展的技術難題,最終使我們陷入了另一種困境。 我們決定使用Java編程語言開發自己的解決方案。 在四個星期內,我們有了一個具有可縮放的笛卡爾2D和3D視圖,結構網格視圖和字母數字單元格以及化學結構上的行過濾器的原型。 由於我們已經用Java開發了一種化學信息學工具包,該工具包提供了子結構和基於描述符的相似性搜索,因此可以如此快地完成。 3D視圖基於JMol 3D圖形引擎構建。

5。 DataWarrior可免費下載。 是什麼決定了免費提供它的決定?

DataWarrior與基礎化學信息學工具包緊密相連,我們先前已將其作為開源項目“ OpenChemLib”發布。 發行是出於短期和長期原因。 我們與大學進行了各種合作,這些大學的工具包的源代碼為化學信息學奠定了基礎,而開源平台通常是我們學術合作夥伴的前提。 一個例子是對所有Wikipedia分子進行化學結構搜索,這是一項涉及Peter Ertl(Novartis),Luc Patiny(EPFL)和我們自己的聯合活動。

我認為長期目標更為重要。 在過去的二十年中,建立了兩個開源化學信息學平台,並在成長中的社區的支持下獲得了動力。 某個開放平台超過我們專有平台上任何Actelion內部開發活動的時間只是一個問題。 屆時,我們將不得不更換當時過時的發動機。 實際上,這將意味著替換任何在原始平台上構建的化學軟件。 為了防止發生這種情況,我們唯一的希望是使用我們的工具包建立多個標準之一,並讓外部人員參與其中。 由於我們已經很晚了,當我們發布OpenChemLib時,我們需要一種宣傳它的方法。 我們認為DataWarrior是宣傳其基礎化學信息學工具包的最佳選擇。

還有另一個答案。 我們是製藥公司,而不是軟件公司。 提供專業支持和運行軟件銷售隊伍不是我們的業務。 此外,作為Idorsia科學藥物發現社區的一部分,我們被要求出版並提高其聲譽。 對於軟件工程師,發布意味著發布源代碼。 Idorsia內部建立了許多科學應用程序,因此發布開放源代碼項目可以傳達這一信息,並有助於吸引頂尖的科學軟件工程師。

6。 DataWarrior是一個非常受歡迎的程序,它能夠與許多數據庫進行交互,包括 CDD Vault。 告訴我一些有關接口的信息。

通過對各個服務器引擎的純HTTP訪問,可以解決DataWarrior對ChEMBL數據庫和Crystallography Open Database(COD)的訪問。 所有查詢選項(包括子結構和相似性查詢)都被編碼為文本字符串並發送到服務器。 這兩個服務器都是在SimpleFramework之上構建的基於Java的純HTTP服務器,該服務器提供了多線程通信引擎作為精益jar文件。 兩台服務器都將其整個數據庫保存在內存中,並處理分發到服務器硬件所有核心的任何結構搜索請求。 結果返回化學結構時,這些化學結構將編碼為OpenChemLib ID代碼,以最大程度地減少網絡流量。 檢索Wikipedia化合物要簡單得多。 每天一次,服務器會生成Wikipedia已知的所有化學結構的完整新列表。 然後,DataWarrior還將整個列表下載為ID碼。 訪問ChEMBL,COD和Wikipedia的源代碼是DataWarrior源代碼的一部分,而此功能是公共DataWarrior安裝的一部分。
CDD Vault 訪問 是用另一種方​​式完成的。 為了簡化用於訪問任何字母數字或結構數據庫的附加模塊的開發,DataWarrior具有一個插件接口。 與DataWarrior源代碼無關,此接口允許開發插件,該插件打開一個對話框以定義字母數字和結構查詢條件。 然後可以將它們發送到某種數據庫,然後可以處理返回的結果以填充新的DataWarrior表。 組成插件的所有Java代碼都被編譯成一個獨立的jar文件,並放入DataWarrior安裝的plugin文件夾中。 啟動DataWarrior時,它將檢查此文件夾中的文件並顯示每個插件的菜單項。 當用戶選擇該項目時,DataWarrior會將控件放棄給插件,直到它創建並填充新的DataWarrior窗口。 CDD保險庫插件使用此機制來檢索和顯示CDD查詢的結果。 CDD Vault插件是Github上的一個開源項目,由CDD員工維護。

7。 Data Warrior的當前狀況如何,是否有計劃對其進行進一步增強?

當然。 我完全致力於擴展DataWarrior功能以滿足未來的需求。 其中的一些想法包括訪問商業化學品數據庫,將力場最小化的生物等排體替代功能以及對合成可行性的考慮,更好的反應支持,更多圖形視圖選項,具有分支和變量的更靈活的宏支持。 不幸的是,我們的資源非常有限,因此我們需要妥協。 過去,為了實現小問題或簡化現有功能,我常常不得不推遲提出更大的想法。

8。 您是否計劃開發其他軟件程序供外部使用?

實際上,我們還有另外兩個開源軟件項目,即“軌道圖像分析”和“ Spirit Biobank”。 此外,我們考慮在下一代測序領域發布一個新項目。

9。 您的軟件可以問哪些有趣的科學問題? 他們提供了哪些歷史見解? 將來該軟件可以應用於哪些新類型的問題?

我認為這個問題是針對我們內部構建的藥物發現軟件。 老實說,我相信對藥物發現過程的最大影響是使許多簡單和更複雜的工具能夠使工作流程順暢。 例如,一個用於在NMR上保留時間段的小型工具,自動在SAP系統中下訂單的化學品清單,具有嵌入式NMR查看器的化學品筆記本以及與化學品清單的無縫連接。 軟件平台的價值不僅取決於可用的功能,還取決於使用這些功能的難易程度以及它們的集成程度。 例如,當瀏覽生物測定結果時,相關的 IC50 只需單擊鼠標,即可獲得同一實驗中的曲線或HCS圖像或所有化合物。 DataWarrior的宏功能也被證明是非常有用的,借助它,專家用戶可以定義復雜的工作流,經驗不足的人可以在更新的數據上重複運行。

但是您要的是我們軟件更令人興奮的科學功能,可能是大數據和機器學習領域的功能。 例如,我們運行的服務器內存中大約有十億分之一的化合物,可以在幾秒鐘內對其進行子結構或相似性搜索。 我們還將其用於通過藥效基團搜索進行虛擬篩選。 我們對PubMed摘要進行自然語言處理,以了解基因疾病的關係。 我們進一步將基因與據報導在各自靶標中具有活性的化合物相關。 我們還使用先進的成像平台來處理,導航,分類和處理圖像內容。 我們使用計算網格進行藥效團搜索,圖像處理和配體蛋白對接。 對於未來,我們只是在確定優先事項。 人們對合成規劃,生物等排體置換以及可能在增強現實中的濃厚興趣,以支持圍繞配體和靶標結構的討論。

10。 如果解決了這些問題,化學信息學方面的突出技術挑戰是什麼?

如果能可靠地直接從其化學結構預測化合物的生物活性,毒性和藥理特性,那麼這無疑將徹底改變藥物開發過程。 但是,儘管對機器學習進行了大肆宣傳,但我個人並不認為我們會在該領域看到快速的進步。 我們沒有太多的培訓數據,化學結構不是這些方法的正確輸入格式,並且我們對所涉及的生化過程的了解仍然有限。

對我而言,一個亟待解決的挑戰是改進分子建模的基礎概念。 在30年間,基於分子力學的力場變化不大,而計算性能則提高了大約一百萬倍。 Adrian Roitberg或Anatole von Lilienfeld的最新論文似乎表明,應該有可能使用機器學習技術來計算分子能級和分子水平上的力。 這些方法有望達到可與量子力學方法相媲美的精度,但它們幾乎與常規力場一樣快。 如果我們還能解決水的影響,我們將向前邁出一大步。

*DataWarrior是用於數據可視化和分析的免費化學信息學程序。 它結合了動態圖形視圖和具有化學智能的交互式行過濾。 散點圖,箱形圖,條形圖和餅圖用於可視化數字和分類數據,並展示跨多個支架和化合物替代方式的趨勢。

DataWarrior當前在一百多個國家/地區使用,用戶基礎每月增加約一千個用戶

有關更多詳細信息或下載DataWarrior,請訪問: www.openmolecules.org.

請拜訪 我們的博客文章 對於DataWarrior和 CDD Vault 積分。


這個網誌是由 CDD Vault 社區。 CDD Vault 是託管的 藥物發現信息學 安全管理私人和外部生化數據的平台。 它提供了核心功能,包括 化學註冊, 結構活動關係, 化學品清單電子實驗室筆記本 能力。

CDD Vault:整個項目團隊都將擁護藥物發現信息學!