바이오아세이 익스프레스 (약간의 공개)
2016년 8월 4일
CDD'의 BioAssay Express 소프트웨어를 사용하면 사람이 읽을 수있는 바이오 아세이즘을 읽을 수있는 기계로 변환 할 수 있습니다. 이 기술은 3000 개 이상의 "Pubchem의 최고"MLPCN 에세이에서 테스트되었습니다. 접근 방식의 유용성을 더욱 검증하기 위해 널리 공유되는 "프로브" 화합물 주변에서 새로운 통찰력과 패턴을 볼 수 있습니다. 공통 분석 템플릿을 사용하면 최소 범주수를 유지하면서 바이오애사에 영향을 미치는 가장 중요한 매개 변수에 대해 좋은 주관적인 통화를 하려고 노력했습니다. 그러나 기본 기술을 모든 템플릿, 용어 및 온토로지(예: 사용자)와 함께 사용할 수 있음을 강조할 필요가 있습니다. 우리는 이 새로운 기술을 바이오아세시에 집중했습니다. 우리의 세련되고 전문적인 대조적으로 CDD Vault 플랫폼인 Bioassay Express는 여전히 비교적 새로운 기술이지만 분명히 작동합니다. 공동 작업 이나 평가에 관심이 있는 사람들을 위해 [email protected] 이메일을 보내 주시기 바랍니다 만약 당신이 당신의 자신의 프로토콜으로이 기술을 사용 하려고 하려는 경우 (방화벽 뒤에, Bioassay Express에서 온라인, 또는 잠재적으로 통합 CDD Vault).
알렉스 클라크와 배리 부닌; 원래 화학 포어학 2.0에 나타난 게시물에서 가져온
BioAssay Express 프로젝트에 대한 글을 쓰기 시작할 때입니다. 이것은 지난 반 년 정도 알렉스의 시간의 대부분을 복용 하고있다, 그리고 그것은 약물 발견 프로세스에 중요 한 기여를 할 가능성이 있다.
먼저 일부 배경. 2014년, 협업 신약 개발은 자연어 처리 및 기계 학습을 사용하여 인간 큐레이터를 BioAssay Ontology의의미 체계 용어를 사용하여 텍스트 분석서에 신속하고 정확하게 인장하는 방법을 개발했습니다. 개념의 증거는 잘 작동, 우리는 결과를 발표했다. 실제 서비스에 대한 레벨 업을 계획하면서, 우리는 가장 번거로운 속도 제한 단계가 분석 (즉, 좋은 교육 데이터 만들기)에 사용 가능한 의미 체계를 적용하는 방법을 알아내는 것이라는 것을 빨리 깨달았습니다 : 사소한 문제가 아니며 아무도 그것을 해결하지 않았기 때문에 사용 가능한 용어를 사용하는 방법을 지정하기 위해 schema를 디자인하는 데 많은 시간을 보냈습니다. 자세한 계정에 대한 문헌을 참조할수 있습니다.
이러한 예비 알고리즘, 데이터 구조 및 어휘를 통해 우리는 다음 단계로 나아갈 준비가 되어 있었습니다: 그들의 절차로 대규모 바이오아세이 프로토콜 컬렉션을 편리하게 선택할 수 있었습니다. 이러한 데이터에 대한 이동 - 투 장소는 물론 PubChem입니다,이는 백만 개 이상의 분석 프로토콜을 제공합니다. 이들 중 대부분은 우리의 목적을 위해 제한된 사용이지만, 거의 모든 아주 잘 지정된 분자 라이브러리 프로그램에서 단지 애서적 인 것을 선택하는 것은 비교적 간단합니다. 그들 중 수천이있다, 이는 존경 훈련 세트를 만든다.
분석 자체가 컴파일된 상태에서, 우리의 다음 과제는 웹 인터페이스를 만들어 가능한 한 많은 분석서에 대한 의미 체계 주석을 큐레이트할 수 있도록 하는 것이었고, 모든 동안 스키마를 어떻게 그리고 주석에 주석을 달고 있는지에 대한 스키마를 정제하는 것이었습니다. 현재 인터페이스는 다음과 같습니다.

바이오아세이 익스프레스
미적 디자인은 과거에 더 나쁘게 보였고, 미래에 더 잘 보일 것이지만, 기본 아이디어는 통해 온다 : 왼쪽에 PubChem에서가져온 텍스트입니다, 이는 원래 과학자에 의해 제출된. 오른쪽에는 여러 범주(일반적인 분석 템플릿에서파생됨)가 있으며, 대부분은 적어도 하나의 할당된 용어가 있습니다. 위에 표시된 스크린샷은 이러한 레이블을 짧은 텍스트 레이블로 표시하지만 내부적으로 URI로 표시되며 이러한 각 링크는 자체 계층 구조와 의미 체계 의미 레이어(연결된 데이터의 일반적인 원칙에 따라)로 잘 정의된 온톨로로 표시됩니다.
이렇게 하면 트리 뷰 대화 상자를 사용하여 용어를 선택중인 시기를 쉽게 확인할 수 있습니다.

바이오아세이 익스프레스
위의 스크린 샷에는 꽤 많은 일이 있지만 중요한 정보는 모든 용어가 계층 구조로 표현되고 각 레이블에는 텍스트보다 훨씬 더 많은 정보가 함께 제공됩니다.
예비 별표 인터페이스가 작동하면 다음 과제는 귀중한 교육 데이터 생성, 스키마 개선 및 소프트웨어 테스트 와 같은 여러 가지 목적을 제공 한 별표 시스템을 사용하여 전문 지식을 공유하기 위해 생물학자 팀을 구성하는 것이었습니다. 현재로 빨리 감기, 우리는 3 천 전문가 큐레이터 에세이에 가까운 축적 (당신은 언제든지 현재 번호를 확인할 수 있습니다).
우리가 의미론적 용어로 생물분석 프로토콜을 대표하는 데 많은 노력을 기울이고 있는 이유는 문학 출판물에서 자세히 논의되지만, 긴 이야기는 분석서를 나타내는 현재의 모범 사례가 일반 텍스트로 문서화하기 때문에 가장 좋은 시나리오는 반 페이지의 요약 설명에 액세스 할 수 있기 때문입니다. 두 개의 assays를 비교하고 현장의 전문가이며 두 가지 를 신중하게 읽을 수 있는 10-15분이 면 우리가 작업중인 프로젝트의 도움이 필요하지 않습니다. 그러나 많은 분석서를 비교하거나 정확한 용어를 사용하여 데이터베이스를 검색하려는 경우 검색은 일반적으로 키워드 검색에 의해 수행되며 텍스트에서 직접 기계 학습을 통해 더 높은 수준의 분석이 수행됩니다. 적절한 의미 체계 주석을 사용하면 거짓 긍정이 전혀 없으며 거짓 네거티브가 전혀 없는 정확히 원하는 것을 검색할 수 있습니다.
이를 입증하기 위해 예비 검색 페이지가있습니다.

바이오아세이 익스프레스
이 작동 방식은 기본적으로 두 분자를 비교하는 것과 매우 유사한 방식으로 제공된 모든 의미 체계 용어(별표 페이지와 매우 유사한 인터페이스 를 사용하여)를 지문으로사용하는 것입니다(예: 구조 유래 지문을 사용하여 Tanimoto 유사성 메트릭을 계산하는 경우). 이렇게 하면 누구나 데이터베이스에서 가장 유사한 먼저 정렬된 에세이 목록을 가져올 수 있습니다.
이것은 (키워드 검색과 같은) 메서드가 아닌 주석을 사용하여 애서를 배치 / 선택할 수있는 방법의 한 가지 데모이지만, 우리는 사람들이 그들이 원하는 것들에 대한 에세이 의 데이터베이스를 통해 사냥하고 원하는 것들에 연마 할 수 있도록 다양한 다른 기술을 연구하고 있습니다 (이 흥미로운 소리 경우, 탐색 Assays 페이지를 클릭).
이 프로젝트는 매우 빠르게 진화하고 있으며, 현재 주요 사용자는 지금까지 (그리고 그 이상으로) 그것을 밀어 내는 생물학자 들로 구성된우리 팀으로 구성됩니다. 처음에 우리가 선택한 것 중 하나는 프로젝트를 공개적으로 운영하는 것이었습니다. 이것은 부분적으로 일반적인 원칙에서 (우리는 매우 프로 협력), 뿐만 아니라 편리: 우리는 지리적으로 배포 된 팀, 그리고 대륙의 반대편에 있는 사람에 게 소프트웨어를 배포 하는 가장 쉬운 방법은 보안 없이 공개 웹사이트에 덤프 하는. 즉, 당신이 http://www.bioassayexpress.com찾을 것입니다 : 사이트는 완전히 순간에 읽기 전용입니다, 이는 당신이 로그인 할 필요가 없습니다 의미, 당신은 또한 아무것도 깰 수 없습니다. 그것은 전적으로 당신의 자신의 분석과 함께 그것을 사용 하 고 그것을 밖으로 시도 하려는 경우, 표시 된 결과 다운로드.
웹 사이트 자체의 개방성뿐만 아니라 당사는 우리가 생성하는 선별된 데이터에 대해 매우 비독점적입니다. 우리는 PubChem 서비스를 활용하여 시작하고, 우리가 추가하는 모든 가치는 그것을 원하는 모든 사람에게 사용할 수 있습니다 (공개 API가 있습니다 : 그것은 명목상으로 자명하며 진정한 우버괴짜인 사람에게). 프로젝트 소스 코드의 일부는 bioassay 템플릿(GitHub참조)을 위해 만든 오픈 소스 프로젝트를 기반으로 하지만 웹 사이트 자체를 구동하는 주요 프로젝트는 독점적입니다. 이것은 영리 벤처이며, 공동 약물 발견에서수행되는 많은 R&D 프로젝트와 마찬가지로, 저수준 도구가 모든 사람에게 자유롭고 개방되는 이중주의가 있는 반면, 모든 것을 최대의 편의 비용 비용으로 함께 모으는 높은 수준의 도구는 있습니다.
이 블로그는 회원에 의해 작성되었습니다. CDD Vault 커뮤니티. CDD Vault 개인 및 외부 생물학적 및 화학 데이터를 안전하게 관리하는 호스팅 약물 발견 정보학 플랫폼입니다. 화학등록, 구조활동 관계, 화학물질 재고, 전자랩 노트북 기능 등 핵심 기능을 제공합니다!
CDD Vault: 신약 발견 정보학 전체 프로젝트 팀이 받아들일 것입니다!