バイオアッセイ・エクスプレス(ちょっとしたお披露目の場

2016年8月4日

CDDの BioAssay Express ソフトウェアは、人間が読めるバイオアッセイを、機械が読めるマークアップされたテキストに変換することができます。 この技術は、3000以上の「best of Pubchem」MLPCNアッセイでテストされています。 広く共有されている「プローブ」化合物を中心に、新たな洞察やパターンが見られ、このアプローチの有用性がさらに検証されています。 Common Assay Templateでは、バイオアッセイに影響を与える最も重要なパラメータについて、主観的な判断を行い、カテゴリー数を最小限に抑えるようにしています。 しかし、基礎となる技術は、どのようなテンプレート、用語、オントロジーでも使用できることを強調しておきます(つまり、あなたのものです)。 私たちは、この新技術をバイオアッセイに焦点を当てています。 私たちの洗練されたプロフェッショナルなCDD Vault プラットフォームとは対照的に、Bioassay Expressはまだ比較的新しい技術ですが、明らかに機能しています。 共同研究や評価に興味のある方は、ご自身のプロトコルでこの技術を使用してみたいと思われる方は、[email protected]までメールをお送りください(ファイアウォールの内側、Bioassay Express のオンライン、またはCDD Vault との統合の可能性があります)。


アレックス・クラークとバリー・ブニンによるもので、元々はCheminformatics 2.0に掲載されていた記事からの引用です。

そろそろBioAssay Expressプロジェクトについて書き始める時期が来ました。このプロジェクトは、この半年ほどアレックスの時間の大半を占めていたもので、創薬プロセスに重要な貢献をする可能性を秘めています。

まず背景を説明します。2014年、Collaborative Drug Discovery社は、自然言語処理&機械学習を使用して、人間のキュレーターがBioAssay Ontologyの意味的な用語を使用してテキストアッセイを迅速かつ正確にアノテーションするように誘導する方法を開発しました。概念実証は見事に成功し、その結果を発表しました。実際のサービスへのレベルアップを計画していたところ、最も厄介な速度制限のあるステップは、利用可能な意味論的用語をアッセイに適用する方法を見つけ出すこと(つまり、良いトレーニングデータを作成すること)であることにすぐに気づきました。詳しい説明は文献を参照してください。

これらの予備的なアルゴリズム,データ構造,語彙を用いて,私たちは次のステップに着手する準備ができました。それは,手順が簡単に入手できるバイオアッセイプロトコルの大規模なコレクションを選択することです。このようなデータの代表的なものはもちろんPubChemで、100万件以上のアッセイプロトコルを提供しています。これらのほとんどは私たちの目的には使えませんが、Molecular Librariesプログラムからアッセイだけを選ぶのは比較的簡単です。何千ものアッセイがあるので、立派なトレーニングセットになります。

アッセイ自体はコンパイルされているので、次の課題は、できるだけ多くのアッセイのセマンティック・アノテーションを管理できるようにウェブ・インターフェースを作成することでした。現在のインターフェースは以下のようになっています。

Bioassay Express

Bioassay Express

 

左側には、オリジナルの科学者によって投稿されたPubChemから取り込まれたテキストが表示されます。右側には、いくつかのカテゴリー(共通のアッセイテンプレートから派生したもの)があり、そのほとんどに少なくとも1つの用語が割り当てられています。上のスクリーンショットでは、これらは短いテキストラベルとして表示されていますが、内部的にはURIとして表現されており、これらの各用語は、独自の階層と意味的な意味の層を持つ、よく定義されたオントロジーにリンクしています(リンクされたデータの一般的な原則に従っています)。

これは、ツリー表示ダイアログを使って用語を選択しているときに見やすくなります。

Bioassay Express

Bioassay Express

上のスクリーンショットでは、かなり多くのことが行われていますが、重要な情報は、すべての用語が階層的に表現されており、それぞれのラベルにはテキストだけでなく多くの情報が付いているということです。

これには、貴重なトレーニングデータの作成、スキーマの反復的な改善、そしてもちろんソフトウェアのテストなど、いくつかの目的がありました。現在では、専門家が作成したアッセイは3,000件近くに達しています(現在の件数はいつでも確認できます)。

バイオアッセイのプロトコルを意味的な用語で表現することにこれほど力を入れている理由は、文献発表で詳しく述べられていますが、簡単に言うと、アッセイを表現するための現在のベストプラクティスは、プレーンテキストで文書化することなので、半ページほどの要約説明にアクセスできることがベストシナリオです。もしあなたが2つのアッセイを比較したいと思っていて、あなたがその分野の専門家であり、10~15分で両方のアッセイを注意深く読むことができるのであれば、私たちが取り組んでいるプロジェクトの助けは必要ありません。しかし、多くのアッセイを比較したい場合や、正確な用語を使ってデータベースを検索したい場合、その選択肢は満足のいくものではありません。検索は一般的にキーワード検索で行われ、より高度な分析はテキストから直接機械学習で行われます。しかし、適切なセマンティックアノテーションがあれば、偽陽性も偽陰性もゼロで、必要なものを正確に検索することができます。

これを実証するために、予備の検索ページを用意しました。

Bioassay Express

Bioassay Express

この仕組みは基本的に、提供されたすべての意味的用語(アノテーションページと非常によく似たインターフェースを使用)をフィンガープリントとして使用し、2つの分子を比較するのと非常によく似ています(例えば、構造由来のフィンガープリントを使用してTanimoto類似性メトリックを計算します)。これにより、誰でもデータベースからアッセイのリストを取り出し、最も似ているものから順に並べることができます。

これは、キーワード検索のような単純な方法ではなく、アノテーションを利用してアッセイを検索・選択する方法の一例ですが、他にも様々な手法を用いて、アッセイのデータベースを検索し、目的のアッセイに絞り込むことができるように取り組んでいます(興味のある方は、「Explore Assays」のページをクリックしてください)。

このプロジェクトは非常に急速に進化しており、現在の主なユーザーは、我々の生物学者チームだけで、意図した以上の成果を上げています。当初の選択の一つは、プロジェクトをオープンにして運営することでした。私たちは地理的に分散したチームであり、大陸の反対側にいる人にソフトウェアを配布する最も簡単な方法は、セキュリティのない公共のウェブサイトにソフトウェアを置くことです。それが以下のサイトになります。 http://www.bioassayexpress.comこのサイトは今のところ完全に読み取り専用です。つまり、サインインする必要はなく、何かを壊すこともできません。もし試してみたいのであれば、自分のアッセイで使用し、注釈付きの結果をダウンロードすることは十分可能です。

ウェブサイト自体のオープン性もさることながら、私たちが生成しているキュレーションデータについても非常に非独占的です。私たちはPubChemサービスを利用していますが、私たちが追加しているすべての価値は、それを必要とする人に提供されています(パブリックAPIがありますが、本物の超マニアであれば、それを見れば一目瞭然です)。プロジェクトのソースコードの一部は、バイオアッセイのテンプレート用に作成したオープンソースプロジェクトをベースにしていますが(GitHub参照)、ウェブサイト自体を動かすメインプロジェクトは独自のものです。Collaborative Drug Discoveryで行われている多くの研究開発プロジェクトと同様に、低レベルのツールは無料で誰でも使えるようにする一方で、すべてを最大限に便利にする高レベルのツールにはお金がかかるという二重構造になっています。

 


このブログは、CDD Vault コミュニティのメンバーが執筆しています。CDD Vault は、プライベートおよび外部の生物学的・化学的データを安全に管理する、ホスト型の創薬インフォマティクス・プラットフォームです。化学物質の登録構造活性相関、化学物質のインベントリ、電子ラボノート機能などのコア機能を提供しています。化学物質の登録、構造活性相関、化学物質のインベントリ電子ラボノート機能などのコア機能を提供しています。

CDD Vault : Drug Discovery Informatics あなたのプロジェクトチーム全体が受け入れることになるでしょう。