약물 발견에 대한 딥 러닝

2017년 5월 9일

– 피터 린드의 책상에서, CDD 옹호 -

기계 학습

머신 러닝은 경험으로 자동으로 개선되는 컴퓨터 프로그램을 설계하고 실행하는 것입니다. 학습 기계는 입력 데이터에 대한 응답으로 올바른 작업을 수행해야하며, 응답이 얼마나 좋은지에 대한 피드백을 수집할 때 개선하고 더 잘 할 수있는 능력을 가져야합니다. 공식 연구에서우리는 기계가 어떤 성능 (P)로 실행되는 작업 (T)을 가지고 있다고 말하며, 프로그램이 경험 (E)을 얻으면서 개선될 수 있습니다.

다음은 작업의 몇 가지 예입니다.

    • 승리를 목표로 체스 게임에서 올바른 움직임을 합니다.
    • 고객이 구매할 가능성이 있는 항목을 추측합니다.
    • 내일 날씨를 예보합니다.
    • 워킹 로봇의 팔과 다리 움직임을 제어합니다.
    • 구상된 약물 분자의 대사 운명을 예측하십시오.
    • 스팸메일이 어떤 이메일 메시지를 확인합니다.

작업은 본질적으로 매우 다를 수 있지만 일반적인 주제는 다른 입력 데이터에 대한 응답으로 작업을 다르게 적절하게 실행해야한다는 것입니다. 입력 데이터는 체스 보드 위치일 수 있으며 고객의 이전 구매 및 기록 검색 동작에 대한 기록이 될 수 있습니다. 작업의 실행은 항상 출력 데이터의 생산을 포함, 그 자체로 관심을 가지고 결과가 될 수 있습니다, 또는 최종 결과에 대한 추가 조치의 처방이 될 수 있습니다. 학습 프로세스는 더 나은 성능을 위해 작업을 실행하는 방법을 조정하려고 시도하므로 기계가 경험을 얻으면 특정 입력의 결과가 변경되고 개선될 것으로 예상됩니다.

깊고 얕은 기계 학습

컴퓨터가 입력 데이터가 간단한 프로세스에서 직접 출력 데이터로 변환되는 한 단계 방식으로 작업을 실행하는 경우 학습 기계는 얕은 아키텍처를 가지고 있다고 합니다. 작업 실행이 단계적 인 경우, 첫 번째 프로세스의 출력은 두 번째 프로세스에 대한 입력 등 등등, 우리는 우리가 깊은 아키텍처를 가지고 있다고 말한다.

얕은 학습 기계의 예로, 키워드를 나타내는 스팸의 존재에 따라 스팸 검색 규칙을 학습하고자 하는 원시 스팸 필터 알고리즘을 고려하십시오. 아마도 기계는 단어 '긴급', '놀라운', '무료'와 몇 가지 더 스팸을 나타내는 것을 배운다. 합계를 빌드하는 것은 하나의 논리적 단계이기 때문에 이러한 단어의 존재를 기반으로 점수를 합산하는 것은 얕은 간단한 프로세스입니다.

딥 러닝 머신의 예로 디지털 사진의 물체를 감지하고 분류하는 작업을 수행하는 이미지 분석 시스템을 고려하십시오. 기기는 픽셀 형식으로 입력을 받고 그림 어딘가에 있는 픽셀 집합이 개나 자동차와 같은 특정 개체를 나타내는지 확인해야 합니다. 한 단계에서 픽셀에서 분류된 개체로 직접 이동하는 방법은 없습니다. 동일한 오브젝트는 카메라에 얼마나 가까웠는지에 따라 이미지에 다른 양의 공간을 차지할 수 있으며 픽셀 패턴은 사진을 찍은 각도에 따라 달라집니다. 개체는 다른 오브젝트에 의해 부분적으로 가려질 수 있으며 이미지의 모양은 그림자에 따라 달라집니다. 또한 동일한 개체 유형은 크기와 색상이 다를 수 있습니다.

문제를 해결하려면 입력 데이터가 윤곽을 찾은 단계에서 처리되고, 두 번째 단계는 윤곽으로 둘러싸인 2D 셰이프를 작동하며, 세 번째 단계는 객체 클래스에 도착할 때까지 아직 더 높은 수준에서 작동합니다. 기계는 전체 개체 인식 작업을 잘 수행하기 위해 각 단계를 잘 수행하는 방법을 배워야 합니다. 이것은 딥 러닝입니다.

깊이는 학습 기계 아키텍처의 품질이며, 우리는 그것의 더 많거나 적은을 가질 수 있지만, 얕은 깊은 사이에 명확한 한계가 없습니다. 프로세스와 단계를 다른 방식으로 정의할 수 있기 때문입니다.

기능 변환

위에서 설명한 바와 같이 딥 러닝 머신은 픽셀과 같은 입력 데이터의 원시 기능을 처리하고 3D 개체와 같은 최종 문제의 영역에서 더 나은 표현력을 갖는 더 높은 순서의 기능으로 변환합니다. 이러한 변환을 기능 변환이라고하며, 기계는 내부적으로 여러 수준의 표현으로작동합니다.

학습 기계의 설계자는 특정 문제를 해결하기 위해 어떤 종류의 기능 변환이 필요한지 미리 알 필요가 없습니다. 컴퓨터가 충분한 수의 교육 예제가 있는 경우 작업을 수행하는 데 효과적인 기능 변환을 해결할 수 있습니다.

기능은 인간의 개념에 해당하지 않을 수 있으며, 우리는 추론 용어로, 기계가 특정 결과에 도착하는 방법을 설명 할 수 없습니다.

요약하면 기능 변환은 딥 러닝이 효과적인 이유를 설명합니다. 딥 러닝 머신 디자이너는 기능 학습 및 기능 변환이 발생할 수 있도록 하는 방법을 이해해야 하지만 중간 기능의 특성에 대한 아이디어가 사전에 필요하지 않습니다.

생물학

흥미롭게도, 뇌는 시각적 데이터를 처리하고 행동 할 때 단계별 프로세스와 기능 변환의 형태를 사용한다는 증거가있다. (1)

신경 신호는 1 차적인 시각 피질에게 불린 두뇌의 지역에 눈에서 여행합니다. 망막의 이웃 영역에서 유래하는 신호는 시각 피질의 첫 번째 층에서 이웃 세포를 자극합니다. 기본 피질은 밝기와 색상이 다른 영역 사이의 가장자리와 같은 낮은 수준의 기능을 다루는 것으로 보입니다. 시각적 피질의 신호는 개체가 인식되는 영역으로, 거기에서 운동 분석과 같은 다른 책임이 있는 영역으로 더 멀리 전송됩니다.

이것은 데이터 과학자에 대 한 호기심 사실 수 있습니다., 그리고 초기 기계 학습 연구의 일부 신경 과학에서 결과 의해 영감을 되었습니다. 그러나 오늘날 대부분의 개발은 컴퓨터 과학 및 통계 학습의 결과와 이론을 기반으로하며 뇌가 어떻게 작동하고 배우는지를 모방하려는 의도는 거의 없습니다.

기계 학습의 기술 중 하나는 인공 신경망 또는 신경망이라고합니다. 이 기술은 그 작용을 설명하는 다이어그램이 네트워크 생물학적 뉴런의 만화 그림처럼 보이기 때문에 그렇게 합니다. 다시 말하지만, 일반적으로 생물학적 과정을 시뮬레이션 할 의도가 없습니다.

피드포워드 신경망

학습 기계의 많은 유형과 각각의 많은 버전이 있습니다. 피드포워드 신경망이라는 유형의 기본 예제를 간략하게 설명합니다. (2) AlphaGo (3) 및 구글 번역 (4)의 최신 버전과 같은 프로그램에서 사용되는 많은 고급 정교이 존재한다.

다음은 피드포워드 네트워크의 예입니다. 원은 인공 뉴런을나타냅니다. 하단에는 입력 뉴런층이 있고 맨 위에는 출력 뉴런층이 있습니다. 사이 신경 층은 숨겨진 층이라고 합니다. 얕은 네트워크에는 숨겨진 레이어가 거의 없으며 깊은 네트워크에는 많은 것이 있습니다. 숨겨진 뉴런은 학습 기계 내부이고 외부 세계가 볼 수 없기 때문에 그렇게 불립니다. 이 그림은 13개의 뉴런만 을 가진 예를 보여주고 실제 프로그램에는 수천 개의 뉴런이 있는 경우가 많습니다. 숨겨진 층의 뉴런 수는 다를 수 있습니다.

컴퓨터가 경험(E)을 얻으면 개선해야 하는 일부 성능(P)으로 작업(T)을 수행합니다. 숫자 집합을 사용하여 입력과 출력을 모두 인코딩할 수 있으므로 기계의 경우 입력 번호에 대한 응답으로 출력 번호 생성에 대한 작업이 항상 있습니다.

작업을 시도할 때 기기는 피드 포워드 단계에 있습니다. 입력 데이터는 입력 뉴런에 할당되며, 이는 각 뉴런이 숫자 값을 할당한다는 것을 의미합니다. 입력 데이터가 흑백 이미지에서 나온 경우 이미지에 픽셀이 있는 만큼 많은 입력 뉴런이 필요합니다. 각 입력 뉴런은 첫 번째 숨겨진 층의 여러 뉴런에 연결됩니다. 연결은 피드 전달 중에 하부 뉴런의 값을 연결에 특정한 중량 계수(w)와 곱하여 결합하고, 제품이 연결의 더 높은 끝에 뉴런에 추가된다는 것을 의미한다. 그런 다음 활성화 함수라는 수학적 함수가 합계에 적용되어 뉴런의 새 값을 형성합니다. 이것은 숫자가 출력 레이어에 추가 될 때까지 레이어별로 계속됩니다. 학습이 진행됨에 따라 연결별 가중치가 조정됩니다. 가중치는 일반적으로 학습을 시작하기 전에 임의의 값으로 설정되므로 일부 작업을 처음 시도할 때 무작위 결과와 쓸모없는 성능을 얻을 수 있습니다.

아마도 우리는 첫 번째 출력 뉴런이 입력 이미지 어딘가에 고양이가있을 확률에 대한 코딩해야한다고 결정했습니다. 높은 출력 값은 높은 고양이 확률을 의미하며, 그 반대의 경우도 마찬가지입니다. 기기는 피드 를 앞으로 보낸 후 실제 결과와 정확한 결과의 차이를 기록합니다. 그런 다음 체중 업데이트 단계에 들어갑니다. 백프로션이라는 특정 알고리즘은 동일한 작업을 다시 발행해야 하는 경우 오류가 줄어듭니다. 이름에서 알 수 있듯이 백전파는 출력 레이어에서 숨겨진 레이어를 통해 다시 작동합니다. 리소스가 허용하는 한 또는 성능이 더 이상 증가하지 않을 때까지 새로운 작업으로 학습하는 작업이 계속됩니다. 종종 동일한 작업 집합이 여러 번 재사용되고 작업의 각 주기를 교육 기간으로 용어합니다. 미적분학의 결과를 기반으로 하는 백전파 알고리즘은 1986년 스탠포드 수학 심리학자 데이비드 루멜하트(David Rumelhart)가 신경망을 위한 교육 방법으로 제안되었습니다. (5)

약물 발견에서 기계 학습 딥 러닝

처음부터 네트워크가 몇 개 이상의 계층을 가질 수 있다는 것은 분명했지만, 딥 네트워크를 학습하는 것은 더 많은 컴퓨터 리소스를 소비하는 경향이 있으며 훨씬 더 많은 교육 데이터가 필요합니다. 이것은 딥 러닝이 시간이 지남에 따라 상대적으로 더 중요해진 이유를 설명합니다. 지난 몇 년 동안 더 강력한 하드웨어뿐만 아니라 더 많은 충분히 빅 데이터 세트를 사용할 수있게되었기때문에 딥 네트워크의 인기가 급증했습니다. 대략적인 엄지 손가락 규칙에 따르면 허용 가능한 성능을 위해 약 5,000개의 교육 예제가 필요하다고 합니다. (2)

기타 딥 머신

기계 학습의 가장 전설적인 응용 프로그램 중 하나는 IBM에 의해 체스 컴퓨터 딥 블루입니다. 1997년 당시 세계 챔피언이었던 게리 카스파로프를 꺾은 것으로 유명합니다. 딥 블루라는 이름은 다층 네트워크와는 아무 상관이 없으며 다른 이유로 선택되었습니다. (6) 블루는 IBM의 브랜드 정체성의 주요 색상이며, 깊은 전임자 체스 컴퓨터 딥 생각의 이름에서했다. 딥 사상 기계는 더글러스 애덤스가 쓴 코미디 공상 과학 시리즈 히치하이커의 은하계 가이드의 컴퓨터에서 이름을 얻었습니다. (7) 소설 시리즈의 깊은 생각은 생명, 우주, 모든 것에 대한 위대한 질문에 대한 답을 계산하기 위해 만들어졌습니다. 7년 반 동안 이 문제를 생각해 낸 딥 마인드는 마침내 42년이라는 해답을 제시했습니다.

딥 프리츠와 딥 주니어는 같은 맥락에서 명명 된 다른 체스 컴퓨터입니다.

그것은 컴퓨터와 보드 게임에 관해서, 오늘 관심의 대부분은 전략 게임 이동에, 이동 당 더 많은 대안이 있기 때문에 체스보다 더 복잡하다. 기계를 재생 이동 은 최근에 인간의 그랜드 마스터를 물리 칠 수 있었다. 돌파구는 2016년 컴퓨터 프로그램 AlphaGo가 9단 마스터 리 세돌을 물리치면서 나타났습니다. AlphaGo는 실제로 깊은 신경망을 사용합니다. (3)

약물 발견에 대한 딥 러닝

약물의 바람직한 효과는 신체의 일부 생물학적 표적 분자와의 상호 작용에서 비롯된 것입니다. 분자 간 힘은 약물과 표적 분자를 함께 결합하고 이에 따른 사건은 질병이나 상태에 영향을 미칩니다. 따라서 약물 발견 프로젝트는 표적 분자에 충분히 강하게 결합 할 수있는 화합물을 찾습니다. 그러나 약물은 또한 본문에 비 표적 분자에 바인딩할 수 있습니다., 원치 않는 아마도 위험한 부작용을 일으킬 수 있는 피 해야. 장에서 약물의 흡수 뿐만 아니라 그것의 신진 대사와 배설 또한 분자 간 힘에 따라 달라 집니다.

불행 하 게도, 우리는 본문에 관련 분자와 상호 작용 하는 방법을 예측 하는 컴퓨터에 잠재적인 약물 분자를 검사할 수 없습니다. 한 가지 이유는 분자 간 힘의 예측을 위한 좋은 일반적인 방법이 부족하기 때문입니다.

오늘날 대부분의 후보 약물은 클리닉에서 인간에게 시도했을 때 실패합니다. 이것은 전반적인 약 만들기 프로세스를 극단적으로 비용이 많이 들고 우리가 더 나은 예측 방법이 있는 경우에 자원의 많은 저장될 수 있습니다.

QSAR

약물 발견은 반복적인 과정이며 시행 착오의 요소가 있습니다. 새로운 화합물은 이미 만들어진 화합물의 테스트 데이터를 기반으로 설계되었습니다. 하나는 구조와 활동,또는 구조 및 기타 속성 사이의 패턴을 찾으려고 시도하며, 정량적 구조 활동 분석, 축약된 QSAR라고 합니다. QSAR 분석은 약물 표적 상호 작용이 약물 구조에 의존하는 방법을 모델링하려고 시도하지만, 분자 간 힘의 뒤에 물리적 현상을 명시적으로 모델링하려는 시도를하지 않고 간접적인 방식으로 이를 수행합니다.

QSAR 모델은 로컬 또는 전역 모델이 다소 많을 수 있습니다. 글로벌 모델은 다양한 화합물 세트에서 교육을 받았으며 광범위한 화합물에 대한 의미 있는 추정치를 생성할 수 있습니다. 전역 모델의 데이터 집합이 큰 경향이 있습니다. 로컬 모델은 특별한 관심의 복합 클래스에 훈련하고 그 클래스 내에서 화합물에 대한 추정을 생성 할 수 있습니다. 로컬 모델은 일반적으로 유사한 화합물 세트에서 글로벌 모델보다 훨씬 더 잘 수행되므로 특정 구조 클래스에 작업이 초점을 맞춘 리드 최적화 프로젝트에 사용됩니다.

딥 신경망은 데이터 세트가 매우 클 때 이점을 보여줍니다. 예를 들어, 2012년 계산 화학 대회에서 우승한 항목은 깊은 신경망을 포함하는 방법의 앙상블을 사용했습니다. (8) 경쟁에 있는 데이터 세트는 대략 2000에서 50000 의 화합물에 구역수색하고 각 화합물에 관하여 설명자의 수천이 제공되었습니다. 이 작품에서 가장 좋은 결과는 이들 층각각에서 1000에서 4000 사이의 뉴런을 갖는 네 개의 숨겨진 층이있는 네트워크에서 나타냈다. 모델의 평균 R-제곱 통계는 0.49로, 이러한 컴퓨터 모델이 데이터 분산의 절반 정도를 설명할 수 있음을 의미합니다.

또 다른 신경망 QSAR 연구는 동시에 여러 개의 애사에서 화합물 활동을 예측. (9) 연구는 약 2000에서 14000 화합물에 이르기까지 PubChem에서 19 데이터 세트에 있었다. 결과는 대체 방법의 결과보다 더 좋았지만, 신경망 숨겨진 층의 수를 변경하는 것은 중요한 효과가 없었다.

약물 발견 프로젝트는 분명히 가능한 한 적은 화합물을 합성하고 검사 한 후 후보 약물을 식별 할 수 있기를 원하므로 해당 컨텍스트의 주요 관심사는 작은 데이터 세트를 기반으로하는 좋은 모델입니다. QSAR 신경망에 더 많은 레이어를 추가하는 것은 데이터 세트가 작고 기본 입력이 기존의 분자 설명자 중 어느 것으로 구성될 때 아무런 이점이 없을 것입니다.

도킹

많은 노력이 가설 분자가 관심의 일부 목표에 결합하는 방법을 잘 예측하는 목적으로 알고리즘소위 도킹 프로그램을 개발에 갔다. 도킹 프로그램은 화합물의 높은 비율이 실제로 좋은 바인더인 하위 집합을 얻기 위해 가상 화합물의 컬렉션을 선별하는 데 사용할 수 있습니다.

도킹 프로그램은 표적 분자와 리간드 분자 사이의 여러 가능한 상대 적 방향을 검사하고 각 포즈에 대한 결합 강도를 추정해야합니다. 소위 채점 함수는 바인딩 강도를 추정하는 데 사용됩니다. 다시 핵심은 우리가 오늘 안정적으로 두 분자 사이의 상호 작용이 얼마나 꽉 예측할 수 없다는 것입니다.

분자 상호 작용을 다루는 대부분의 프로그램은 내부적으로 분자의 표현의 스틱 앤 볼 유형을 사용합니다. 모델은 또한 매력, 반발, 유연성 등을 표현하는 요인을 사용합니다. 그러나 정밀도의 어떤 수준으로 약과 표적 분자 사이 상호 작용을 모델링할 수 있다는 것은 아직도 멀리 목표입니다. 생물학적 환경에 있는 분자는 움직이고, 진동하고, 결합에 영향을 미치는 그밖 분자에 의해 포위됩니다. 분자 상호 작용의 근본적인 물리적 현실을 직접 모델링하는 프로그램은 높은 수준의 이론을 사용하고 계산이 불가능해질 정도로 큰 여러 상대 포즈 및 진동 모드를 고려해야 합니다.

고전적인 스틱과 볼 표현은 화학에서 많은 현상의 예측과 설명에 매우 유용하지만, 계산 화학자는 분자 간 힘 모델에서 작업을 수행하는 다른 기능이 필요합니다 처럼 보인다. 기본 화학 입력은 물론 여전히 일반적인 형식에 있지만 학습 기계는 적절한 기능 변환을 찾을 수 있어야합니다.

도킹을 위해 딥 러닝을 사용하는 기계 학습 연구의 최근 예는 페레이라와 동료에 의해. (10) 그들의 학습 기계에 의해 사용되는 주요 기능은 화합물의 각 원자에 대한 컨텍스트 데이터를 포함한다. 컨텍스트 데이터는 거리, 원자 유형, 원자 부분 전하 및 아미노산입니다.

합성 방법

기계 학습의 진전을 기대할 수 있는 또 다른 분야는 역합성 분석입니다. 분자는 종종 합성하기 어렵고 약물 발견에 있는 자원의 많은 합성 노력으로 이동합니다. 표적 화합물에 대한 단일 합성 경로조차도 마련하기어려울 수 있습니다. 레트로합성 분석은 가능한 합성 경로의 체계적인 검사이며, 더 간단한 화합물에서 최종 화합물을 만드는 방법에 대한 검색을 시작으로, 후진 방식으로 검색한 다음, 이러한 경로가 어떻게 더 간단한 화합물에서 파생될 수 있는지 확인합니다.

다시 말하지만, 데이터 수집을 위한 교육 데이터 가용성 및 협업 노력이 진행을 위한 열쇠가 될 것입니다. 흥미롭고 도전적인 측면은 화학자분석 및 해석할 수 있는 반응 결과 데이터에 대한 실질적인 한계가 있기 때문에 합성 화학 기록이 거의 완전히 완전하지 않다는 것입니다. 학습 시스템은 불완전한 데이터를 처리하는 데 능숙해야 합니다.

다음에 는 어떻게 될까요?

데이터

화학 구조 와 활동 데이터가 있는 점점 더 많은 데이터 세트가 대중에게 공개되고있으며, 이제 품질과 수량을 모두 제공하는 자유롭게 사용할 수 있는 데이터베이스가 있습니다. (11) 이는 새로운 기술을 개발하기 위해 양질의 데이터가 필요한 컴퓨팅 커뮤니티에 매우 중요합니다. 벤치마크 데이터 세트의 일반적인 가용성은 계속 증가하여 약물 발견에서 기계 학습 방법의 가속화된 개발을 촉발할 것입니다. 공개되지 않은 독점 데이터 세트에서 벤치마킹되는 계산 방법을 게시하는 것은 점점 더 이상해 보일 것입니다.

구름

제약 회사는 지적 재산을 신중하게 보호해야하므로 데이터 공유와 관련하여 매우 엄격한 정책을 가지고 있습니다. 데이터가 잘못된 손에 끝날 것이라는 두려움은 제약 산업이 클라우드 컴퓨팅의 늦은 채택자였던 이유였습니다. 그러나 제약은 이제 점점 더 많은 컴퓨팅 인프라를 외부화하고 있습니다. 클라우드 기반 서비스 제공업체는 물론 고객의 보안 문제에 대해 의식하고 기술 서비스 품질뿐만 아니라 보안 및 신뢰성과도 경쟁합니다. 클라우드 서비스의 사용은 계속 증가할 것입니다.

소프트웨어

기계 학습을 위한 여러 오픈 소스 프레임워크가 존재하며 클라우드 컴퓨팅을 위한 여러 생태계가 재무 예측 또는 고객 행동과 같은 작업하는 데이터 과학자를 위한 표준 도구가 되었습니다. R&D 정보학자들이 기계 학습의 표준 도구를 약물 설계 도메인에 특정한 도구와 통합하는 방법은 아직 미지수입니다. R&D 정보학 직원은 이미 기계 학습에 대한 폭넓은 이해를 가질 것으로 예상되며, 화학학자, 생물정보학자, 전산 화학자 및 R&D IT 직원과 같은 이러한 분야의 사람들은 딥 러닝에 대해 계속 배우고 그 가능성을 활용할 것입니다.

QSAR의 화학 데이터는 개체 인식을 위한 이미지 데이터, 언어 통역사를 위한 오디오 데이터 또는 체스 또는 Go 재생 기계의 보드 게임 위치와 같은 또 다른 형태의 데이터일 뿐입니다. QSAR에 특정한 것은 실제 데이터 집합이 종종 많은 크기의 샘플을 사용할 수 있는 다른 설정의 데이터 집합과 비교하여 작다는 것입니다. 딥 러닝에는 대규모 데이터 집합이 필요합니다. 아마도 심층 네트워크는 특별한 관심의 작은 데이터 집합에 대해 더 자세히 교육하기 전에 일반 데이터가있는 대규모 데이터 집합에서 강력한 기능 변환을 찾기 위해 어떻게 든 교육을 받을 수 있습니다.

채점 기능

분자 간 힘 (점수 함수)의 신속한 추정을위한 좋은 기술의 부족은 특히 관심의 영역입니다. 그것은 미래의 진보에 대한 예측이 수십 년 동안 지나치게 낙관적 이었던 기술 영역을 예로 들 수 있습니다. 딥 러닝 방법의 사용은 앞으로 의 한 쪽이 될 수 있습니다.

참조

  1. https://en.wikipedia.org/wiki/Visual_system
  2. 굿펠로우, I.; 벤고, Y. & 쿠르빌, A. (2016),'딥 러닝',MIT 프레스.
  3. 실버, D.; 황, A.; 매디슨, C. J.; 게즈, A.; 시프르, L.; 반 덴 드리쉬, G.; 슈릿비저, J.; 안토노글로, I.; 파네르셀잠, V.; 랑토트, M.; 딜레만, S.; 그루, D.; Nham, J.; 칼크브레너, 뉴저지; 수트스크버, I.; 릴리라프, T.; 리치, M.; 카부쿠오글루, K.; 그레이펠, T. 하사비스, D.:'깊은 신경망과 나무 검색으로 이동의 게임을 마스터.' 자연 529 (2016), Nr. 7587, 484-489
  4. 우, Y.; 슈스터, M.; 첸, Z.; 르, Q. V.; 노루지, M.; 매키리, W.; 크리쿤, M.; 카오, Y.; 가오, Q.; 매키, 케이; 클링너, J.; 샤, A.; 존슨, M.; 리우, X.; 와우카스 카이저; 구우스, S.; 카토, Y.; 쿠도, T.; 카자와, H.; 스티븐스, K.; 쿠리안, G.; 파틸, 뉴저지; 왕, W.; 젊은, C.; 스미스, J.; 리사, J.; 루드닉, A.; 비얄스, O.; 코라도, 지; 휴즈, M. & 딘, J.:'구글의 신경 기계 번역 시스템: 인간과 기계 번역 사이의 격차를 해소.' arXiv(1609.08144v2).
  5. 루멜하트, 디 에이; 힌턴, G. E.; 윌리엄스, R. J.:'뒤로 전파 오류에 의해 표현 학습.' 자연 323 (1986), Nr. 6088, S. 533-536
  6. Hsu, F.:'딥 블루 뒤에: 세계 체스 챔피언을 물리 친 컴퓨터 구축': 프린스턴 대학 출판부., 2002
  7. https://en.wikipedia.org/wiki/Deep_Thought_(chess_computer)
  8. 엄마, J.; 셰리던, R. P.; 리아우, A.; 달, G. E. & 스베트니크, V. (2015),'양적 구조 활동 관계에 대한 방법으로 깊은 신경 망', J. Chem. Inf. 모델. 55 (2), 263-274.
  9. 달, G., E.; Jaitly, N. & Salakhutdinov, R. (2014),'QSAR 예측을위한 멀티 태스크 신경 망', arXiv(1406.1231).
  10. 페레이라, J.C.; 카프레나, E. R. & 도스 산토스, C. N. (2016),'딥 러닝으로 도킹 기반 가상 상영 증폭', J. Chem. Inf. 모델 56(12), 2495-2506.
  11. 도시락, A. P.; 골턴, A.; 허시, A.; 벨리스, L. J.; 챔버, J.; 데이비스, M.; 크루거, F. A.; 빛, Y.; 막, L.; 맥글린치, S.; 노보트카, M.; 파파다토스, G.; 산토스, R. 및 Overington, J. P.:'ChEMBL 생체 활성 데이터베이스: 업데이트'. 에서: 핵산 연구 42 (2013), Nr. D1, S. D1083-D1090