Apprentissage approfondi en matière de découverte de médicaments
9 mai 2017
- Du bureau de Peter Lind, CDD Advocate -
L'apprentissage machine
L'apprentissage machine consiste à concevoir et à exécuter des programmes informatiques qui s'améliorent automatiquement avec l'expérience. Une machine d'apprentissage est censée faire ce qu'il faut en réponse aux données saisies, et elle devrait pouvoir s'améliorer et faire mieux en recueillant des informations sur la qualité de ses réponses. Dans les études formelles, nous disons que la machine a une tâche (T) qui est exécutée avec une certaine performance (P), à améliorer au fur et à mesure que le programme acquiert de l'expérience (E).
Voici quelques exemples de tâches :
-
- Faites les bons coups dans un jeu d'échecs, avec pour objectif de gagner.
- Devinez quels articles un client est susceptible d'acheter.
- Prévoir le temps qu'il fera demain à un endroit donné.
- Contrôlez les mouvements des bras et des jambes d'un robot marcheur.
- Prévoir le destin métabolique d'une molécule de médicament envisagée.
- Déterminer quels messages électroniques sont des spams.
Les tâches peuvent être de nature très différente, mais le thème commun est que la tâche doit être exécutée différemment et de manière appropriée en fonction des différentes données d'entrée. Les données d'entrée peuvent être une position sur l'échiquier ou des enregistrements des achats précédents d'un client et de son comportement de navigation historique. L'exécution d'une tâche implique toujours la production de données de sortie, qui peuvent être en soi un résultat intéressant ou une prescription d'action supplémentaire en vue d'un résultat final. Le processus d'apprentissage tente de modifier la manière dont les tâches sont exécutées pour obtenir de meilleures performances, ce qui signifie que le résultat d'une certaine entrée est censé changer et s'améliorer à mesure que la machine acquiert de l'expérience.
Apprentissage machine profond et superficiel
Si l'ordinateur exécute sa tâche en une seule étape où les données d'entrée sont transformées en données de sortie directement dans un processus simple, on dit que la machine d'apprentissage a une architecture peu profonde. Si l'exécution de la tâche se fait par étapes, de telle sorte que la sortie d'un premier processus est l'entrée d'un second processus et ainsi de suite, on dit alors que l'on a une architecture profonde.
Comme exemple de machine à apprentissage superficiel, considérons un algorithme primitif de filtrage du spam qui cherche à apprendre une règle de détection du spam basée sur la présence de mots-clés indiquant le spam. Peut-être la machine apprend-elle que les mots "urgent", "étonnant", "gratuit" et quelques autres sont révélateurs de spam. Le calcul d'un score basé sur la présence de ces mots est un processus simple et peu profond, car la construction de la somme est une étape logique unique.
Comme exemple de machine d'apprentissage profond, considérons un système d'analyse d'images ayant pour tâche de détecter et de classer des objets dans une photographie numérique. La machine reçoit ses données au format pixel et doit déterminer si un ou plusieurs ensembles de pixels quelque part dans l'image représentent un certain objet, tel qu'un chien ou une voiture. Il est impossible de passer directement des pixels à l'objet classifié en une seule étape. Le même objet peut prendre une place différente sur l'image en fonction de sa proximité avec l'appareil photo, et le motif des pixels dépendra de l'angle sous lequel la photo a été prise. Les objets peuvent être partiellement obscurcis par d'autres objets et leur apparence dans l'image dépendra des ombres. Le même type d'objet peut également être de taille et de couleur différentes.
Pour résoudre le problème, il faut que les données d'entrée soient traitées par étapes, la première étape consistant peut-être à trouver des contours, la deuxième à élaborer des formes en 2D entourées de contours, la troisième à travailler à un niveau encore plus élevé et ainsi de suite jusqu'à ce que nous arrivions à des classes d'objets. La machine devra apprendre à bien exécuter chaque étape afin d'obtenir de bons résultats dans la tâche globale de reconnaissance des objets. C'est un apprentissage profond.
La profondeur est une qualité des architectures des machines d'apprentissage, et nous pouvons en avoir plus ou moins, mais il n'y a pas de limite précise entre la profondeur et la superficialité. En effet, les processus et les étapes peuvent être définis de différentes manières.
Transformation des caractéristiques
Comme décrit ci-dessus, la machine d'apprentissage profond traite les caractéristiques brutes des données d'entrée, telles que les pixels, et les convertit en caractéristiques d'ordre supérieur qui ont un meilleur pouvoir expressif dans le domaine du problème final, comme les objets 3D. Ces conversions sont appelées transformations de caractéristiques, et la machine travaillera en interne avec plusieurs niveaux de représentation.
Le concepteur d'une machine d'apprentissage n'a pas besoin de savoir à l'avance quelles sortes de transformations de fonctions sont nécessaires pour résoudre un certain problème. Une machine peut, si elle dispose d'un nombre suffisant d'exemples de formation, déterminer quelles transformations de caractéristiques sont efficaces pour accomplir sa tâche.
Les caractéristiques peuvent ne pas correspondre aux concepts humains et nous pouvons être incapables d'expliquer, en termes de raisonnement, comment la machine arrive à un certain résultat.
En résumé, la transformation des caractéristiques explique pourquoi l'apprentissage approfondi est efficace. Un concepteur de machine d'apprentissage approfondi doit comprendre comment permettre l'apprentissage et la transformation de fonctionnalités, mais il n'a pas besoin d'avoir des idées à l'avance sur la nature des fonctionnalités intermédiaires à impliquer.
Biologie
Il est intéressant de noter que le cerveau utilise un processus par étapes et une forme de transformation des caractéristiques lorsqu'il traite et agit sur des données visuelles. (1)
Les signaux nerveux se déplacent de l'œil vers une zone du cerveau appelée cortex visuel primaire. Les signaux provenant des zones voisines de la rétine stimulent les cellules voisines de la première couche du cortex visuel. Il semble que le cortex primaire s'occupe des caractéristiques de bas niveau telles que les bords entre les zones de luminosité et de couleur différentes. Les signaux provenant du cortex visuel sont ensuite envoyés plus loin vers les zones où les objets sont reconnus, et de là vers les zones ayant d'autres responsabilités, comme l'analyse du mouvement.
C'est peut-être un fait curieux pour le spécialiste des données, et certaines des premières recherches sur l'apprentissage machine ont été inspirées par les résultats des neurosciences. Mais la plupart des développements actuels sont basés sur les résultats et les théories de l'informatique et de l'apprentissage statistique, et il n'y a que très rarement une intention d'imiter la façon dont le cerveau fonctionne et apprend.
L'une des technologies de l'apprentissage machine est appelée réseaux neuronaux artificiels ou simplement réseaux neuronaux . Cette technologie est appelée ainsi parce qu'un diagramme expliquant son fonctionnement ressemble à un dessin animé de neurones biologiques en réseau. Là encore, il n'y a généralement pas d'intention de simuler un processus biologique.
Réseaux de neurones à action anticipée
Il existe de nombreux types de machines à apprendre et de nombreuses versions de chacune d'entre elles. Nous allons décrire brièvement ici un exemple de base du type appelé réseaux neuronaux à action anticipée. (2) Il existe de nombreuses élaborations avancées qui sont utilisées dans des programmes tels que AlphaGo (3) et la dernière version de Google Translate (4).
Vous trouverez ci-dessous une illustration d'un réseau de feedforward. Les cercles représentent des neurones artificiels. En bas, il y a une couche de neurones d'entrée et en haut, une couche de neurones de sortie. Les couches de neurones entre les deux sont appelées couches cachées. Un réseau peu profond comporte peu de couches cachées et un réseau profond en comporte beaucoup. Les neurones cachés sont appelés ainsi parce qu'ils sont internes à la machine d'apprentissage et que le monde extérieur ne les verra pas. L'illustration montre un exemple avec seulement treize neurones alors qu'un programme réel en possède souvent plusieurs milliers. Le nombre de neurones dans les couches cachées peut varier.
N'oubliez pas que la machine exécutera des tâches (T) avec une certaine performance (P) qui devrait s'améliorer à mesure qu'elle acquiert de l'expérience (E). Nous pouvons utiliser des ensembles de nombres pour coder à la fois l'entrée et la sortie, donc pour une machine, une tâche consiste toujours à produire des nombres de sortie en réponse aux nombres d'entrée.
Lors de la réalisation d'une tâche, la machine se trouve dans une phase de feed forward. Les données d'entrée sont affectées aux neurones d'entrée, ce qui signifie qu'une valeur numérique est attribuée à chaque neurone. Si les données d'entrée proviennent d'une image en noir et blanc, alors nous avons besoin d'autant de neurones d'entrée que de pixels dans l'image. Chaque neurone d'entrée est connecté à un certain nombre de neurones dans la première couche cachée. Une connexion signifie que pendant l'alimentation, la valeur d'un neurone inférieur sera multipliée par un facteur de pondération (w) spécifique à la connexion, et le produit sera ajouté au neurone de l'extrémité supérieure de la connexion. Une fonction mathématique appelée fonction d'activation est alors appliquée à la somme pour former la nouvelle valeur du neurone. Cela continue, couche par couche, jusqu'à ce que les nombres s'additionnent sur la couche de sortie. Les poids spécifiques à la connexion seront ajustés au fur et à mesure de l'apprentissage. Les poids sont généralement réglés sur des valeurs aléatoires avant de commencer l'apprentissage, ce qui signifie que nous obtiendrons des résultats aléatoires et des performances inutiles la première fois que nous essaierons certaines tâches.
Nous avons peut-être décidé que le premier neurone de sortie devrait coder pour la probabilité qu'il y ait un chat quelque part dans l'image d'entrée. Des valeurs de sortie élevées signifieront des probabilités élevées de présence d'un chat, et vice versa. La machine enregistrera les différences entre les résultats réels et les résultats corrects après l'alimentation. Elle entre ensuite dans une phase de mise à jour du poids. Un certain algorithme appelé rétropropagation est utilisé pour mettre à jour les poids du réseau de telle sorte que les erreurs seraient moindres si la même tâche était émise à nouveau. Comme son nom l'indique, la rétropropagation fonctionne à partir de la couche de sortie et revient à travers les couches cachées. L'apprentissage de nouvelles tâches se poursuit tant que les ressources le permettent, ou jusqu'à ce que les performances n'augmentent plus. Très souvent, le même ensemble de tâches est réutilisé plusieurs fois, et nous appelons alors chaque cycle de tâches une période d'apprentissage. L'algorithme de rétropropagation, qui est basé sur des résultats de calcul, a été proposé comme méthode d'entraînement pour les réseaux de neurones par le psychologue mathématicien David Rumelhart de Stanford en 1986. (5)
Il était évident dès le départ que les réseaux pouvaient avoir plus que quelques couches, mais la formation des réseaux profonds tend à consommer plus de ressources informatiques et il faut beaucoup plus de données de formation. Cela explique pourquoi l'apprentissage profond est devenu relativement plus important au fil du temps. Au cours des dernières années, la popularité des réseaux profonds a connu une forte hausse, non seulement en raison de la puissance accrue du matériel, mais aussi parce que de nombreux ensembles de données suffisamment volumineux sont devenus disponibles. En règle générale, il faut environ 5 000 exemples de formation pour obtenir des performances acceptables. (2)
Autres machines Deep
L'une des applications les plus légendaires de l'apprentissage machine est l'ordinateur d'échecs Deep Blue d'IBM. Il est célèbre pour avoir battu le grand maître Garry Kasparov en 1997, qui était alors champion du monde. Le nom Deep Blue n'a rien à voir avec les réseaux multicouches et il a été choisi pour d'autres raisons. (6) Le bleu est une couleur principale de l'identité de marque d'IBM, et "Deep" vient du nom du prédécesseur de l'ordinateur d'échecs Deep Thought. La machine Deep Thought avait tiré son nom d'un ordinateur de la série de science-fiction comique The Hitchhiker's Guide to the Galaxy, écrite par Douglas Adams. (7) Deep Thought de la série de fiction a été créé dans le but de calculer la réponse à la grande question sur la vie, l'univers et tout. Après avoir réfléchi au problème pendant sept millions et demi d'années, Deep Thought a finalement fourni la réponse, qui était de quarante-deux.
Deep Fritz et Deep Junior sont d'autres ordinateurs d'échecs nommés dans la même veine.
En ce qui concerne les ordinateurs et les jeux de société, l'attention se porte aujourd'hui principalement sur le jeu de stratégie Go, qui est plus complexe que les échecs car il y a plus d'alternatives par coup. Ce n'est que récemment que les machines à jouer au go ont réussi à vaincre des grands maîtres humains. Une percée a eu lieu en 2016 lorsque le programme informatique AlphaGo a vaincu le maître de 9 dances Lee Sedol. AlphaGo utilise en effet un réseau neuronal profond. (3)
Apprentissage approfondi dans la découverte de médicaments
L'effet souhaité d'un médicament résulte de son interaction avec une molécule cible biologique dans l'organisme. Les forces intermoléculaires lient les molécules du médicament et de la cible et les événements qui suivent auront un effet sur une maladie ou un état. C'est pourquoi un projet de découverte de médicaments cherche des composés qui peuvent se lier assez fortement à une molécule cible. Mais un médicament peut également se lier à des molécules non cibles dans le corps, ce qui peut entraîner des effets secondaires indésirables et éventuellement dangereux qu'il faut éviter. L'absorption d'un médicament par l'intestin ainsi que son métabolisme et son excrétion dépendent également des forces intermoléculaires.
Malheureusement, nous ne pouvons pas examiner une molécule médicamenteuse potentielle dans l'ordinateur pour prédire comment elle va interagir avec les molécules concernées dans le corps. L'une des raisons est que nous ne disposons pas d'une bonne méthode générale de prédiction des forces intermoléculaires.
Aujourd'hui, la plupart des médicaments candidats échouent lorsqu'ils sont essayés sur des humains en clinique. Cela rend l'ensemble du processus de fabrication des médicaments extrêmement coûteux et une grande partie des ressources pourrait être économisée si nous disposions de meilleures méthodes de prévision.
QSAR
La découverte de médicaments est un processus itératif et il y a un élément d'essai et d'erreur. Les nouveaux composés sont conçus sur la base de données d'essai de composés déjà fabriqués. On essaie de trouver des modèles entre la structure et l'activité, ou entre la structure et toute autre propriété, dans ce qu'on appelle une analyse quantitative structure-activité , en abrégé QSAR. L'analyse QSAR tente de modéliser la façon dont les interactions entre les médicaments et les cibles dépendent de la structure du médicament, mais elle le fait de façon indirecte, sans tenter de modéliser explicitement les phénomènes physiques à l'origine des forces intermoléculaires.
Les modèles QSAR peuvent être plus ou moins locaux ou mondiaux. Un modèle global est formé sur un ensemble diversifié de composés et peut produire des estimations significatives pour un large éventail de composés. Les ensembles de données pour les modèles globaux ont tendance à être importants. Un modèle local est formé sur une classe de composés d'intérêt particulier et peut produire des estimations pour les composés de cette classe. Les modèles locaux sont généralement beaucoup plus performants que les modèles globaux sur des ensembles de composés similaires, et ils sont donc utilisés dans des projets d'optimisation de premier plan où le travail est axé sur certaines classes de structures.
Les réseaux neuronaux profonds présentent des avantages lorsque les ensembles de données sont très volumineux. Par exemple, la contribution gagnante d'un concours de chimie computationnelle en 2012 utilisait un ensemble de méthodes comprenant des réseaux neuronaux profonds. (8) Les ensembles de données du concours allaient d'environ 2000 à 50000 composés et plusieurs milliers de descripteurs ont été fournis pour chaque composé. Les meilleurs résultats de ce travail provenaient de réseaux à quatre couches cachées ayant entre 1000 et 4000 neurones dans chacune de ces couches. La statistique moyenne R au carré des modèles était de 0,49, ce qui signifie que ces modèles informatiques peuvent expliquer environ la moitié de la variance des données.
Une autre étude du réseau neuronal QSAR a prédit les activités des composés à partir de plusieurs essais en même temps. (9) L'étude a porté sur 19 ensembles de données de PubChem dont la taille varie entre environ 2000 et 14000 composés. Les résultats étaient meilleurs que ceux obtenus par d'autres méthodes, mais la modification du nombre de couches cachées du réseau neuronal n'a pas eu d'effet significatif.
Un projet de découverte de médicaments voudra évidemment pouvoir identifier un médicament candidat après avoir synthétisé et examiné le moins de composés possible, de sorte que le principal intérêt dans ce contexte est de disposer de bons modèles basés sur de petits ensembles de données. L'ajout de couches supplémentaires aux réseaux neuronaux QSAR ne sera probablement d'aucun intérêt lorsque les ensembles de données sont petits et que l'entrée principale est constituée de l'un des types traditionnels de descripteurs moléculaires.
Mise à quai
Beaucoup d'efforts ont été consacrés au développement de programmes dits de " docking ", qui sont des algorithmes visant à prédire la façon dont des molécules hypothétiques se fixeront à une cible donnée. Les programmes de docking peuvent être utilisés pour cribler une collection de composés virtuels afin d'obtenir un sous-ensemble pour lequel une plus grande proportion de composés sont en fait de bons liants.
Le programme d'arrimage devra examiner un certain nombre d'orientations relatives possibles entre les molécules cibles et les molécules de ligands et estimer la force de liaison pour chacune de ces poses. Une fonction dite de " scoring " est utilisée pour l'estimation de la force de liaison. L'essentiel est que nous ne pouvons pas aujourd'hui prédire de manière fiable la force de l'interaction entre deux molécules.
La plupart des programmes traitant de l'interaction moléculaire utiliseront en interne une représentation des molécules de type "stick-and-ball". Les modèles utiliseront également des facteurs exprimant les attractions, les répulsions, la flexibilité, etc. Mais être capable de modéliser les interactions entre le médicament et la molécule cible avec n'importe quel niveau de précision est encore un objectif lointain. Les molécules dans un environnement biologique se déplacent, vibrent et sont entourées d'autres molécules qui affectent la liaison. Un programme qui modéliserait directement la réalité physique sous-jacente à l'interaction moléculaire devrait utiliser un niveau élevé de théorie et prendre en compte un certain nombre de poses relatives et de modes de vibration qui sont si importants que le calcul devient impossible.
La représentation classique par bâton et balle reste très utile pour la prédiction et l'explication de nombreux phénomènes en chimie, mais il semble que les chimistes computationnels auront besoin d'autres fonctionnalités qui font le travail dans les modèles de force intermoléculaire. Les données de chimie primaire resteront bien sûr dans les formats habituels, mais les machines d'apprentissage doivent pouvoir trouver les transformations de caractéristiques appropriées.
Un exemple récent d'une étude sur l'apprentissage machine qui utilise l'apprentissage approfondi pour l'accostage est celui de Pereira et de ses collègues. (10) Les principales caractéristiques utilisées par leur machine d'apprentissage comprennent des données contextuelles pour chaque atome des composés. Les données contextuelles sont les distances, les types d'atomes, les charges partielles atomiques et les acides aminés.
Méthodes synthétiques
Un autre domaine dans lequel nous pouvons espérer des progrès de l'apprentissage machine est l'analyse rétrospective. Les molécules sont souvent difficiles à synthétiser et une grande partie des ressources consacrées à la découverte de médicaments est consacrée aux efforts de synthèse. Il peut être difficile de trouver ne serait-ce qu'une seule voie de synthèse vers un composé cible. L'analyse rétrosynthétique est l'examen systématique des voies de synthèse possibles, recherchées de manière rétrograde, en commençant par la recherche de moyens de fabriquer le composé final à partir de composés plus simples, puis de voir comment ceux-ci peuvent à leur tour être dérivés de composés encore plus simples.
Là encore, la disponibilité des données sur la formation et les efforts de collaboration pour la collecte des données seront essentiels pour progresser. Un aspect intéressant et stimulant est que les dossiers de chimie synthétique ne sont presque jamais totalement complets car il existe une limite pratique à la quantité de données sur les résultats des réactions qu'un chimiste peut analyser et interpréter. Les systèmes d'apprentissage devront être capables de traiter des données incomplètes.
Que va-t-il se passer ensuite ?
Ensembles de données
De plus en plus d'ensembles de données sur les structures et les activités chimiques sont mis à la disposition du public, et il existe désormais des bases de données gratuites qui fournissent des informations à la fois qualitatives et quantitatives. (11) Ceci est d'une importance énorme pour la communauté informatique qui a besoin de données de qualité afin de pouvoir développer de nouvelles technologies. La disponibilité générale des ensembles de données de référence continuera à augmenter, ce qui entraînera une accélération des développements des méthodes d'apprentissage automatique dans la découverte de médicaments. Il semblera de plus en plus étrange de publier des méthodes de calcul qui sont étalonnées sur des ensembles de données propriétaires non divulguées.
Nuage
Les entreprises pharmaceutiques doivent protéger soigneusement leur propriété intellectuelle et ont donc des politiques très strictes en matière de partage des données. La crainte que les données ne finissent entre de mauvaises mains a été la raison pour laquelle l'industrie pharmaceutique a adopté tardivement le cloud computing. Mais les entreprises pharmaceutiques externalisent maintenant de plus en plus leur infrastructure informatique. Les fournisseurs de services basés sur le cloud sont bien sûr conscients des préoccupations de leurs clients en matière de sécurité et sont en concurrence non seulement avec la qualité technique des services, mais aussi avec la sécurité et la fiabilité. L'utilisation des services dans le nuage va continuer à augmenter.
Logiciels
Il existe un certain nombre de cadres open-source pour l'apprentissage machine et un certain nombre d'écosystèmes pour le cloud computing sont devenus des outils standard pour les scientifiques travaillant avec des données, par exemple les prévisions financières ou le comportement des clients. Il reste à voir comment les informaticiens de la R&D vont intégrer les outils standard d'apprentissage automatique aux outils spécifiques au domaine de la conception de médicaments. On s'attend déjà à ce que les membres du personnel informatique de la R&D aient une connaissance approfondie de l'apprentissage machine, et les personnes issues de ces domaines, comme les cheminformaticiens, les bioinformaticiens, les chimistes informaticiens et le personnel informatique de la R&D, continueront à en apprendre davantage sur l'apprentissage en profondeur et à en exploiter les possibilités.
Les données de chimie pour le QSAR ne sont bien sûr qu'une autre forme de données, comme les données d'image pour la reconnaissance d'objets, les données audio pour les interprètes de langues, ou les positions de jeu de plateau pour les machines à jouer aux échecs ou au go. La spécificité de la RQSA est peut-être que les ensembles de données de la vie réelle sont souvent petits par rapport à ceux d'autres contextes où l'on dispose souvent de plusieurs ordres de grandeur d'échantillons supplémentaires. L'apprentissage approfondi nécessite de grands ensembles de données. Les réseaux profonds peuvent peut-être être formés d'une manière ou d'une autre à trouver de puissantes transformations de caractéristiques sur de grands ensembles de données avec des données générales avant d'être formés davantage sur des ensembles de données plus petits présentant un intérêt particulier.
Fonctions de notation
L'absence de bonne technologie pour l'estimation rapide des forces intermoléculaires (fonctions de notation) est un domaine particulièrement intéressant. Il s'agit d'un domaine technologique dans lequel les prévisions concernant les progrès futurs sont trop optimistes depuis de nombreuses décennies. L'utilisation de méthodes d'apprentissage approfondi pourrait s'avérer être une voie à suivre.
Références
- https://en.wikipedia.org/wiki/Visual_system
- Goodfellow, I. ; Bengo, Y. & Courville, A. (2016), "Deep Learning", The MIT Press.
- Silver, D. ; Huang, A. ; Maddison, C. J. ; Guez, A. ; Sifre, L. ; van den Driessche, G. ; Schrittwieser, J. ; Antonoglou, I. ; Panneershelvam, V. ; Lanctot, M. ; Dieleman, S. ; Grewe, D. ; Nham, J.Kalchbrenner, N. ; Sutskever, I. ; Lillicrap, T. ; Leach, M. ; Kavukcuoglu, K. ; Graepel, T. & Hassabis, D. : "Maîtriser le jeu de Go avec les réseaux neuronaux profonds et la recherche dans les arbres". Nature 529 (2016), Nr. 7587, 484-489
- Wu, Y. ; Schuster, M. ; Chen, Z. ; Le, Q. V. ; Norouzi, M. ; Macherey, W. ; Krikun, M. ; Cao, Y. ; Gao, Q. ; Macherey, K. ; Klingner, J. ; Shah, A. ; Johnson, M. ; Liu, X. ; Łukasz Kaiser ; Gouws, S. ; Kato, Y. ; Kudo, T.Kazawa, H. ; Stevens, K. ; Kurian, G. ; Patil, N. ; Wang, W. ; Young, C. ; Smith, J. ; Riesa, J. ; Rudnick, A. ; Vinyals, O. ; Corrado, G. ; Hughes, M. & Dean, J. : 'Google's Neural Machine Translation System : Bridging the Gap between Human and Machine Translation", arXiv(1609.08144v2).
- Rumelhart, D. E. ; Hinton, G. E. ; Williams, R. J. : "Learning representations by back-propagating errors. Nature 323 (1986), Nr. 6088, S. 533-536
- Hsu, F. : "Derrière Deep Blue : Construire l'ordinateur qui a battu le champion du monde d'échecs" : Princeton University Press, 2002
- https://en.wikipedia.org/wiki/Deep_Thought_(chess_computer)
- Ma, J. ; Sheridan, R. P. ; Liaw, A. ; Dahl, G. E. & Svetnik, V. (2015), "Deep Neural Nets as a Method for Quantitative Structure-Activity Relationships", J. Chem. Inf. Model. 55(2), 263–274.
- Dahl, G., E. ; Jaitly, N. & Salakhutdinov, R. (2014), "Multi-task neural networks for QSAR predictions", arXiv(1406.1231).
- Pereira, J. C. ; Caffarena, E. R. & dos Santos, C. N. (2016), "Boosting Docking-Based Virtual Screening with Deep Learning", J. Chem. Inf. Model. 56(12), 2495–2506.
- Bento, A.P. ; Gaulton, A. ; Hersey, A. ; Bellis, L.J. ; Chambers, J. ; Davies, M. ; Krüger, F.A. ; Light, Y. ; Mak, L. ; McGlinchey, S. ; Nowotka, M. ; Papadatos, G. ; Santos, R. & Overington, J.P. : "The ChEMBL bioactivity database : an update". Dans : Nucleic Acids Research 42 (2013), Nr. D1, S. D1083-D1090