BioAssay Express(有点像揭幕式)。

2016年8月4日

CDD's BioAssay Express软件允许你将人类可读的生物测定转换为机器可读的标记文本。 该技术已在3000多个 "Pubchem最佳 "MLPCN检测中进行了测试。 在广泛共享的 "探针 "化合物周围可以看到新的见解和模式,以进一步验证该方法的效用。 通过通用检测模板,我们试图对影响生物检测的最重要的参数进行良好的主观判断,同时保持最小的类别数量。 然而,值得强调的是,该基础技术可以用于任何模板、术语和本体(即你的)。 作为一个焦点问题,我们将这项新技术集中在生物测定上。 与我们抛光的、专业的CDD Vault 平台相比,Bioassay Express仍然是一项相对较新的技术,但显然它确实有效。 对于那些对合作或评估感兴趣的人,如果你想尝试用你自己的方案来使用这项技术(在防火墙后,在Bioassay Express中在线,或可能与CDD Vault ),请发送电子邮件到[email protected]


由亚历克斯·克拉克和巴里·布宁;取自最初出现在化学信息学2.0的帖子

现在是时候开始写BioAssay Express项目了,因为它在技术上已经被公开开发。这是过去半年多来占据了亚历克斯大部分时间的东西,它有可能对药物发现过程做出重要贡献。

首先是一些背景。2014年,Collaborative Drug Discovery开发了一种使用自然语言处理和机器学习的方法,以指导人类策展人使用生物分析本体论的语义术语快速和正确地注释他们的文本检测。概念验证工作非常好,我们公布了结果。当我们计划将水平提高到真正的实际服务时,我们很快意识到,最麻烦的限制性步骤是弄清楚如何将可用的语义术语应用于检测(即创建良好的训练数据):这不是一个微不足道的问题,而且没有人解决这个问题,因此我们花了很多时间来设计一个模式,以指定如何使用可用的专门术语来描述我们所关注的生物检测协议。你可以参考文献中的详细说明

有了这些初步的算法、数据结构和词汇表,我们准备开始下一步:选择一个大型的生物测定协议集合,并方便地提供其程序。这种数据的首选之地当然是PubChem,它提供了超过一百万个测定协议。虽然其中大多数对我们的目的用途有限,但从分子图书馆计划中选择检测方法是相对直接的,这些检测方法几乎都是非常详细的,有相当多的细节。这些试验有几千种,这就构成了一个可观的训练集。

有了检测方法本身的汇编,我们的下一个任务就是创建一个网络界面,以便我们能够为尽可能多的这些检测方法策划语义注释,同时完善我们关于如何注释和注释什么的模式。目前的界面看起来是这样的。

生物测定快报

生物测定快报

 

美学设计在过去看起来更糟糕,在未来会更好,但基本的想法是:左边是文本,它已经从PubChem带来,它是由原始科学家提交的。右边是一些类别(来自我们的通用检测模板),其中大多数至少有一个指定的术语。虽然上面显示的截图将这些显示为简短的文本标签,但它们在内部被表示为URI,而且每个都链接到一个定义良好的本体,有自己的层次结构和语义层(根据链接数据的一般原则)。

当使用树状视图对话框选择术语时,这更容易看到。

生物测定快报

生物测定快报

在上面的截图中,有相当多的事情发生,但关键的信息是,所有的术语都是以层次结构表示的,而且每个标签都有很多信息,而不仅仅是文字。

一旦我们有了初步的注释界面,我们的下一个任务就是组建一个生物学家团队,通过使用注释系统来分享他们的专业知识,这有几个目的:产生有价值的训练数据,反复改进模式,当然还有测试软件。快进到现在,我们已经积累了近3000个专家策划的检测项目(你可以随时查看当前的数字)。

我们之所以在用语义术语表示生物测定协议方面投入这么多精力,在我们的文献出版物中详细讨论过,但长话短说,目前表示测定的最佳做法是用纯文本记录,所以最好的情况是,你能够获得半页左右的概要描述。如果你想比较两个化验,而且你是这个领域的专家,你有10-15分钟仔细阅读这两个化验,你不需要我们正在进行的项目的帮助。但是,如果你想比较许多化验,或者你想使用精确的术语搜索数据库,你的选择就不尽人意了:搜索一般是通过关键词搜索完成的,任何更高层次的分析都是通过直接从文本中进行机器学习完成的。不过,有了适当的语义注释,你就可以准确地搜索你想要的东西,而且是零假阳性,零假阴性。

为了证明这一点,我们有一个初步的搜索页面

生物测定快报

生物测定快报

其工作方式基本上是将所有提供的语义术语(使用与注释页面非常相似的界面)作为指纹,其方式与比较两个分子相当相似(例如,使用结构衍生的指纹来计算Tanimoto相似度指标)。这使得任何人都可以从数据库中拉出一个测定的列表,按最相似的优先顺序排序。

这只是一个演示,说明如何使用注释来定位/选择检测,而不是使用粗糙的方法(如关键词搜索),但我们正在研究其他各种技术,使人们能够在检测数据库中寻找并精确定位他们想要的检测(如果这听起来有趣,请点击探索检测页面)。

该项目发展非常迅速,现在的主要用户只是由我们的生物学家团队组成,他们正在推动该项目达到(或超过)预期的目标。我们在开始时做出的选择之一是将项目公开运作。这一方面是出于一般的原则(我们非常支持合作),另一方面也是为了方便:我们是一个地理上分散的团队,把软件部署给大陆另一边的人的最简单的方法是把它扔到一个没有安全保障的公共网站上。这就是你会发现的 http://www.bioassayexpress.com:该网站目前完全是只读的,这意味着你不必登录,而且你也不能破坏任何东西。如果你想试试,完全可以用你自己的检测方法来使用它,并下载注释的结果。

除了网站本身的开放性外,我们对我们正在产生的策划的数据是非常非专有的。我们利用PubChem服务开始工作,我们增加的所有价值对任何想要它的人都是可用的(有一个公共的API:它在名义上是不言自明的,对任何一个真正的übergeek来说)。该项目的部分源代码是基于我们为生物测定模板创建的开源项目(见GitHub),但驱动网站本身的主要项目是专有的。这是一个以盈利为目的的企业,与许多在合作药物研发中心进行的研发项目一样,存在着双重性,即低级别的工具对每个人都是免费开放的,而将所有东西集中在一起的高级别的工具则需要花钱。

 


本博客由CDD Vault 社区成员撰写。CDD Vault 是一个托管的药物发现信息学平台,可以安全地管理私人和外部生物和化学数据。它提供的核心功能包括化学注册结构活性关系它提供的核心功能包括化学品注册、结构活性关系、化学品库存电子实验室笔记本功能

CDD Vault :药物发现信息学你的整个项目团队都会接受!