BioAssay Express (un poco de revelación)
4 de agosto de 2016
El software BioAssay Express deCDDle permite convertir bioensayos legibles por humanos en texto marcado legible por máquinas. La tecnología ha sido probada en más de 3000 ensayos MLPCN "best of Pubchem". Se pueden observar nuevas ideas y patrones en torno a los compuestos "sonda" ampliamente compartidos para validar aún más la utilidad del enfoque. Con la plantilla común de ensayos, hemos tratado de hacer buenas llamadas subjetivas con respecto a los parámetros más importantes que influyen en los bioensayos, manteniendo un número mínimo de categorías. Sin embargo, cabe destacar que la tecnología subyacente puede utilizarse con cualquier plantilla, término y ontología (por ejemplo, la suya). Como cuestión de enfoque, hemos centrado esta nueva tecnología en los bioensayos. En contraste con nuestra pulida y profesional plataforma CDD Vault , Bioassay Express es todavía una tecnología relativamente nueva, aunque claramente funciona. Para aquellos interesados en colaboraciones o evaluaciones, por favor, envíen un correo electrónico a [email protected] si quieren probar el uso de esta tecnología con sus propios protocolos (detrás del firewall, en línea en Bioassay Express, o potencialmente integrado con CDD Vault ).
Por Alex Clark y Barry Bunin; tomado del post que apareció originalmente en Cheminformatics 2.0
Es hora de empezar a escribir sobre el proyecto BioAssay Express, ya que se ha desarrollado técnicamente al aire libre. Esto es lo que ha estado ocupando la mayor parte del tiempo de Alex durante el último medio año más o menos, y tiene el potencial de hacer una importante contribución al proceso de descubrimiento de fármacos.
Primero algunos antecedentes. En 2014, Collaborative Drug Discovery desarrolló una forma de utilizar el procesamiento del lenguaje natural y el aprendizaje automático para guiar a los curadores humanos hacia la anotación rápida y correcta de sus ensayos de texto utilizando términos semánticos de la Ontología de Bioensayos. La prueba de concepto funcionó a la perfección y publicamos los resultados. Al planificar el paso a un servicio real, nos dimos cuenta rápidamente de que el paso más problemático que limitaba el ritmo era averiguar cómo aplicar la terminología semántica disponible a un ensayo (es decir, crear buenos datos de entrenamiento): no es un problema trivial, y nadie lo había resuelto, así que pasamos mucho tiempo diseñando un esquema para especificar cómo utilizar los términos especializados disponibles para describir los protocolos de bioensayo en los que nos centramos. Puede consultar la bibliografía para obtener una descripción detallada.
Con estos algoritmos, estructuras de datos y vocabularios preliminares, estábamos listos para embarcarnos en el siguiente paso: seleccionar una gran colección de protocolos de bioensayos con sus procedimientos convenientemente disponibles. El lugar de referencia para estos datos es, por supuesto, PubChem, que ofrece más de un millón de protocolos de ensayo. Aunque la mayoría de ellos tienen una utilidad limitada para nuestros fines, es relativamente sencillo seleccionar sólo los ensayos del programa Molecular Libraries, que están casi todos muy bien especificados, con bastante detalle. Hay miles de ellos, lo que constituye un conjunto de entrenamiento respetable.
Una vez compilados los ensayos, nuestra siguiente tarea fue crear una interfaz web para poder curar las anotaciones semánticas del mayor número posible de estos ensayos, y al mismo tiempo perfeccionar nuestro esquema sobre cómo y qué anotar. La interfaz actual se parece a esto:

Bioensayo Express
El diseño estético tenía peor aspecto en el pasado, y tendrá mejor aspecto en el futuro, pero la idea básica se mantiene: a la izquierda está el texto, que se ha traído de PubChem, al que fue enviado por el científico original. A la derecha hay una serie de categorías (derivadas de nuestra plantilla común de ensayos), la mayoría de las cuales tiene al menos un término asignado. Mientras que la captura de pantalla mostrada arriba muestra estos términos como etiquetas de texto cortas, están representados internamente como URIs, y cada uno de estos enlaces en una ontología bien definida, con su propia jerarquía y capas de significado semántico (según los principios generales de los datos enlazados).
Esto es más fácil de ver cuando se selecciona un término utilizando el diálogo de la vista de árbol:

Bioensayo Express
En la captura de pantalla anterior hay muchas cosas, pero el dato clave es que todos los términos están representados en una jerarquía, y cada una de las etiquetas viene con mucha más información que el simple texto.
Una vez que tuvimos la interfaz de anotación preliminar en funcionamiento, nuestra siguiente tarea fue reunir un equipo de biólogos para que compartieran su experiencia utilizando el sistema de anotación, lo que sirvió para varios propósitos: generar valiosos datos de entrenamiento, mejorar iterativamente el esquema y, por supuesto, probar el software. En la actualidad, hemos acumulado cerca de tres mil ensayos seleccionados por expertos (puede consultar la cifra actual en cualquier momento).
La razón por la que nos esforzamos tanto en representar los protocolos de bioensayos con terminología semántica se discute en detalle en nuestras publicaciones bibliográficas, pero el resumen es que las mejores prácticas actuales para representar los ensayos es documentarlos con texto plano, por lo que en el mejor de los casos se podrá acceder a una descripción resumida de media página más o menos. Si quieres comparar dos ensayos, y eres un experto en la materia, y tienes 10-15 minutos para leer cuidadosamente ambos, no necesitas ninguna ayuda del proyecto en el que estamos trabajando. Pero si quiere comparar muchos ensayos, o si quiere buscar en una base de datos utilizando términos precisos, sus opciones son insatisfactorias: la búsqueda se realiza generalmente mediante la búsqueda de palabras clave, y cualquier análisis de nivel superior se realiza mediante el aprendizaje automático directo a partir del texto. Sin embargo, con las anotaciones semánticas adecuadas, se puede buscar exactamente lo que se desea, con cero falsos positivos y cero falsos negativos.
Para demostrarlo, tenemos una página de búsqueda preliminar:

Bioensayo Express
El funcionamiento consiste básicamente en utilizar todos los términos semánticos proporcionados (mediante una interfaz muy similar a la de la página de anotaciones) como huellas dactilares, de una forma bastante similar a la comparación de dos moléculas (por ejemplo, utilizando huellas dactilares derivadas de la estructura para calcular una métrica de similitud de Tanimoto). Esto permite a cualquiera sacar una lista de ensayos de la base de datos, ordenados por el más similar.
Esta es sólo una demostración de cómo se pueden localizar/seleccionar los ensayos utilizando las anotaciones, en lugar de métodos más burdos (como la búsqueda por palabras clave), pero estamos trabajando en una variedad de otras técnicas para permitir que la gente busque en una base de datos de ensayos y se concentre en los que quiere (si esto le parece interesante, haga clic en la página Explorar Ensayos ).
El proyecto está evolucionando muy rápidamente, y los principales usuarios ahora mismo son sólo nuestro equipo de biólogos que lo están llevando tan lejos (y más lejos) como estaba previsto. Una de las decisiones que tomamos al principio fue la de hacer funcionar el proyecto de forma abierta. Esto se debe en parte a principios generales (estamos muy a favor de la colaboración), pero también a la comodidad: somos un equipo distribuido geográficamente, y la forma más fácil de desplegar el software a alguien en el otro lado del continente es volcarlo en un sitio web público sin seguridad. Eso es lo que encontrará en http://www.bioassayexpress.comEl sitio es, por el momento, de sólo lectura, lo que significa que no hay que iniciar sesión y que tampoco se puede romper nada. Es totalmente posible utilizarlo con tus propios ensayos y descargar los resultados anotados, si quieres probarlo.
Además de la apertura del propio sitio web, los datos que generamos no están protegidos por derechos de autor. Aprovechamos el servicio PubChem para empezar, y todo el valor que estamos añadiendo está disponible para cualquiera que lo quiera (hay una API pública: es nominalmente autoexplicativa, para cualquiera que sea un auténtico übergeek). Parte del código fuente del proyecto se basa en el proyecto de código abierto que creamos para las plantillas de bioensayos (véase GitHub), pero el proyecto principal que impulsa el sitio web en sí es propietario. Se trata de una empresa con ánimo de lucro y, al igual que ocurre con muchos de los proyectos de I+D que se llevan a cabo en Collaborative Drug Discovery, existe un dualismo por el que las herramientas de bajo nivel se hacen gratuitas y abiertas a todo el mundo, mientras que las herramientas de alto nivel que reúnen todo con la máxima comodidad cuestan dinero.
Este blog está escrito por miembros de la comunidad de CDD Vault . CDD Vault es una plataforma informática de descubrimiento de fármacos alojada que gestiona de forma segura datos biológicos y químicos tanto privados como externos. Proporciona una funcionalidad básica que incluye el registro químico, la relación estructura-actividady el inventario químico, así como capacidades de cuaderno de laboratorio electrónico.
CDD Vault : La informática para el descubrimiento de fármacos que todo el equipo del proyecto adoptará.