CDK의 오픈 소스 ECFP/FCFP 원형 지문

CDD Vault 로고 업데이트
2014년 5월 10일

CDD Vault 이제 예측 모델을 빌드할 수 있습니다. 우리는 협업과 재현 가능한 결과를 믿기 때문에 이 기능을 오픈 소스 소프트웨어로 과소 평가되는 핵심 알고리즘을 출시하고 있습니다. 화학 지문은 아래에 자세히 설명되어 있으며 수정 된 Bayesian 모델도 출시했습니다. 모델을 사용하려고 하는 경우 [email protected] 이메일 보내기 CDD Vault.


알렉스 클라크; 이 게시물의 일부는 원래 화학 정보학 2.0에 나타났다

현재, 인기있는 오픈 소스 화학 개발 키트 (CDK)의 최신 버전은 화학 구조 지문 (때로는 원형 또는 모건 지문이라고도 함)의 높은 평가를 받는 ECFP 및 FCFP 클래스의 자체 구현을 가지고 있습니다. 이러한 종류의 지문에 대한 일반적인 조리법은 잠시 동안 사용할 수 있었고 다양한 도구 키트에 여러 가지 구현이 있지만,이 하나는 여러 가지 방법으로 자신을 구별합니다 : 그것은 원래 정의의 설명에 가능한 한 밀접하게 구현되었습니다 (종이에서 남겨진 영업 비밀에 액세스하지 않고); 그것은 키랄 센터의 해상도를 포함한다; 오픈 소스 Java 코드로 자유롭게 사용할 수 있습니다. 그리고 마지막으로 이 알고리즘은 특정 프로그래밍 언어 또는 화학계 포매틱스 툴킷에 대한 주요 종속성이 없는 가능한 한 휴대가능하도록 설계되었습니다.

예측 모델 구축 CDD Vault

새로운 지문 실행: 예측 모델 구축 CDD Vault.

CDK에 대한 이러한 기여는 공동 약물 발견에 의해 이루어졌으며, 진정으로 귀하의 구현에 의해 수행되었습니다. 새로운 예측 모델링 기능에 사용됩니다.CDD Vault결핵 연구를 위한 무료 TB Mobile 앱뿐만 아니라.

Java에서 작성된 CDK 버전(Github fork또는 최신 및 가장 큰 주요 CDK 지점에서 사용 가능)은 iOS 앱에서 사용하기 위해 Objective-C에 코딩된 버전과 문자 그대로 동일한 지문을 생성하므로 Java 기반 데스크톱 응용 프로그램 또는 웹 서비스를 사용하여 모델을 만들고 클라이언트에 적용할 수 있습니다. 이는 TB Mobile 앱이 미리 계산된 참조 데이터와 동적으로 계산된 데이터를 동적으로 계산하여 유사성 정렬, 시각적 클러스터링 및 대상 활동 예측을 제공할 수 있는 방법입니다.

ECFP6 및 FCFP6이라는 용어에 익숙하지 않은 경우 간단히 말해서, 화학 구조는 최대 크기 6의 직경을 가진 모든 하위 그래프에 대해 검사됩니다(즉, 단일 노드로 시작하여 3개의 첫 번째 반복을 수행). 이러한 각 그래프에는 원자의 속성, 채권 및 해당되는 경우 chirality에 따라 해시 코드가 할당됩니다. 이러한 해시 코드는 여러 중복 제거 단계를 통해 배치되고 결국 32비트 정수 목록으로 변환됩니다. 약물 과 같은 분자는 전형적으로 이 독특한 해시 코드의 수백에서 수십에서. 구조적으로 매우 유사한 분자는 많은 수의 공통지수를 공유하는 경향이 있으며, 타니모토 계수를 사용하여 종종 비교됩니다. ECFP 급 지문의 경우 원자 성질은 다소 문자적(예를 들어 원자번호, 전하, 수소 수 등)인 반면 FCFP 급("F"은 기능적)의 경우, 원자 특성은 리간드 결합(예: 수소 기증자/수용자, 극성, 방향족 등)과 관련된 특성에 대해 교환되어 다른 원자가 종종 동일한 값(예를 들어-OH)으로 시작된다는 것을 의미합니다.

다양한 종류의 구조적 비교를 위한 대체 선택으로 사용할 수 있는 다양한 유형의 그래프 기반 지문이 있습니다. ECFP 및 FCFP 카테고리는 특히 베이지안 모델 빌딩의 경우 여러 연구에서 성공적으로 사용되었습니다. 이러한 지문이 생성되는 방식은 균형이 좋으며 다양한 종류의 유사성 비교에 사용될 때 경험적으로 좋은 비례성을 제공하므로 약물 발견에 대한 인기있는 선택이 되었습니다.

여러 소프트웨어 공급업체가 자체 순환 설명자 스타일을 구현했지만 문제가 있습니다: 원래 발명은 문헌에 게시된 알고리즘을 기반으로 하지만 불행히도 다른 사람이 말 그대로 호환되는 버전을 구현할 수 없게 만드는 핵심 세부 사항을 남깁니다. 단일 공급업체의 소프트웨어로 모델링을 모두 수행하는 경우 중요하지 않을 수 있지만, 혼합하고 일치하려면 입력 분자가 동일하고 구현이 동일한 기본 레시피를 따르더라도 한 패키지에서 생성된 지문과 비교할 수 없습니다.

CDK 프로젝트에는 이전에 자체 구현이 없으므로 이 특정 구멍을 채웠습니다. Java 런타임 환경에서 소프트웨어를 사용하는 사람은 누구에게도 비용을 지불하거나 허가를 요청하지 않고도 소프트웨어에 액세스할 수 있습니다. 우리는 이러한 지문이 다양한 유효성 검사 테스트를 통과하고 다른 구현에 필적하는 농축 속도로 수행되도록 상당한 양의 팔꿈치 그리스를 넣었습니다. 그러나 아마도 더 중요한 것은 알고리즘이 단어로 비교적 쉽게 설명하기 쉽고 자체 포함성이 높은 코드를 기반으로 하는 방식으로 매우 의도적으로 구축되었습니다. 암시적 수소 수, 방향족, 링 블록 및 키랄리티와 같은 정의는 미니멀하고 잘 정의되며 결코 변하지 않을 것입니다. 즉, 구조에 대한 지문 목록을 생성하는 경우 데이터베이스에 보관하고 영원히 사용할 수 있습니다. 종속성 중 하나가 변경될 때마다 버전에 맞게 버전을 지정하고 다시 빌드할 필요가 없습니다(많은 소프트웨어 패키지가 큰 골칫거리입니다). 구현은 플랫폼 불가지론적이기 때문에 단일 소스 파일을 줄별로 다른 개발 환경으로 변환할 수 있습니다. 실제로 CDK 구현을 사용하여 샘플 결과를 생성하여 이식된 버전이 동일하게 작동하는지 확인할 수 있습니다. 앞에서 언급했듯이, 이것은 이미 수행되었으며 TB Mobile 앱에서 사용 중입니다.

우리는 명시적으로 명시적으로 가능한 소스 코드를 보완하기 위해, 가까운 장래에 과학 문헌의 알고리즘을 문서화 할 계획이다, 하지만 당신은 그것을 기다려야 할 것이다. 한편, 용감하다고 느끼면 지문 계층 구조 하에서 CDK 소스에서 .java 파일 원형 지문(Circular지문)을 찾습니다.

CDK 코드베이스에서 활발하게 작업한 것은 이번이 처음입니다. 이 프로젝트는 대대적인 점검을 진행중이기 때문에 다른 쪽 끝에 나오는 것을 보는 것은 흥미로할 것입니다. 지문의 중요한 새로운 클래스 외에, 즉!