Visitas: 4
Por Andrés F. Cardona, MD MSc PhD MBA.
Pocas frases han resultado tan acertadas como el motivo primario de esta entrada “Caminamos a hombros de gigantes”. Este decálogo impreso en la revolución científica del siglo XVII y expuesto ampliamente en la Philosophiæ naturalis principia mathematica recogió de manera sencilla un apotegma de máximo calado. El sentido de la cita de Newton deja entrever que la dinámica de sus logros se apoyó, no sólo en sus propias virtudes, si no también en el conocimiento y saberes construidos por otros previamente. El origen de esta sentencia viene de una carta que escribió Isaac Newton a Robert Hooke el 15 de febrero de 1676, y proviene de un elocuente parafraseo a Bernard de Chartres, filosofo del siglo XII que había escrito “Somos como los enanos aupados a hombros de gigantes, de manera que podemos ver más cosas y más lejanas que ellos, no por la agudeza de nuestra vista o por nuestra elevada estatura, sino porque estamos alzados sobre ellos y nos elevamos sobre su gigantesca altura” (Según Jean de Salisbury). Simplificando la metáfora en la visión pragmática de John McCarthy, Marvin Minsky, Nat Rochester y Claude Shannon, la inteligencia artificial (IA) es la simulación de la razón en un agente no vivo. Posteriormente, y en el contexto diagnóstico se definió la IA como cualquier sistema o plataforma que permita interpretar adecuadamente diversos datos relacionados con salud, especialmente en su forma nativa. Globalmente, la mayoría de las tareas de interpretación de la IA se pueden agrupar por clases de problemas incluyendo la digitalización de imágenes, el análisis de series de tiempo, reconocimiento de voz, y el procesamiento del lenguaje natural, entre otros. Algunas de estas áreas tienen asociaciones diagnósticas que no parecen tan obvias, como la identificación de elementos reguladores del genoma a través de lectores visuales que permiten identificar lecturas anormales recurrentes en las secuencias de ADN, de forma análoga a la usada para la identificación de patrones de píxeles en imágenes por convolución (1,2).
La IA se inspira en algoritmos in vivo, amplificando su capacidad de forma exponencial. Sin embargo, las aplicaciones de la IA en la genómica clínica están dirigidas a realizar tareas que resultan no funcionales para el utilitario humano debido a la propensión al error de los enfoques estadísticos estándares. Muchas de las herramientas de la IA se han adaptado para abordar múltiples pasos involucrados en el análisis genómico, incluido el llamado de variantes y su clasificación, el análisis de la correspondencia entre el fenotipo y genotipo, y eventualmente, predecir la modificación dinámica del fenotipo a partir de un genotipo base (3).
La interpretación clínica del genoma es sensible a la identificación de variantes individuales entre millones que constituyen el ecosistema de una célula entre millones de ellas, evento que requiere una precisión extrema. Las herramientas convencionales son propensas al equívoco sistemático asociado a la sutileza propia de la preparación de las muestras y librerías, a la tecnología utilizada para la secuenciación, al contexto de la secuencia, y por la influencia, muchas veces impredecible de la evolución biológica (mosaicismo somático o cambios epigenéticos) (4). Los algoritmos generados por la IA pueden aprender los sesgos del análisis del genoma a partir de una fuente de variantes de referencia para producir estrategias adaptativas para el llamado de variantes. DeepVariant, una plataforma para el llamado de variantes basado en redes neuronales convolucionales demostró recientemente un mayor rendimiento para la identificación de variantes a partir de dependencias complejas en la secuenciación (5). Además, resultados recientes sugieren que el Deep learning esta listo para revolucionar la identificación de variantes para las tecnologías de secuenciación basadas en nanoporos (6). Hace poco, Luo y colaboradores demostraron la utilidad de la red neuronal convolucional Clairvoyante, un modelo capaz de reducir el margen de error del análisis de una secuencia nucleotídica bajo el 5%. Este sistema disponible en código abierto obtuvo puntajes superiores al 90% para la predicción de variantes (incluyendo SNP o indels) obtenidas a partir de las plataformas Illimina, PacBio y Oxford Nanopore. El modelo de IA fue reproducible en muestras independientes y logró encontrar variantes en menos de 2 horas en un servidor estándar (7).
Clasificación de variantes
Se han desarrollado diversos métodos para la clasificación de variantes no sinónimas (8). Algunos, se han integrado en meta-predictores basados en Deep learning (modelos que procesan y fusionan las predicciones producidas por varios otros predictores) que superan tanto a sus componentes individuales como a la combinación de estos cuando se integran mediante una regresión. Por ejemplo, el enfoque combinado de agotamiento dependiente de anotaciones (CADD, por su denominación en ingles combined annotation-dependent depletion approach) integra una variedad de características en un algoritmo de aprendizaje automático enfocado en predecir la patogenicidad de las variantes genéticas. Una extensión de CADD basada en Deep learning, denominada DANN, demostró un rendimiento mejorado utilizando el mismo conjunto de características de entrada que CADD, pero combinadas en una red neuronal profunda (9). No obstante, por el momento la precisión en la clasificación de las variantes no ha resultado suficiente para facilitar la interpretación de los informes clínicos.
Otros métodos basados en AI hacen predicciones a partir de datos de sencuencias protéicas o de ADN con un mínimo de elaboración manual. El enfoque de PrimateAI que utilizó una red neuronal convolucional uso información de especies cruzadas para facilitar el análisis. La red pudo aprender dominios de diferentes proteínas relevantes, aminoácidos conservados y mutaciones patogénicas con representatividad en múltiples enfermedades. PrimateAI integró su entrenamiento a partir de 120.000 muestras humanas y superó sustancialmente el rendimiento de otras herramientas de uso regular para la predicción de variantes patogénicas incluidas en Clinvar (10).
Clasificación de variantes no codificantes
La identificación computacional y la predicción de la variación patogénica de regiones no codificantes sigue siendo un desafío abierto para la genómica humana. Hallazgos recientes sugieren que los algoritmos de IA mejorarán sustancialmente nuestra capacidad para comprender la variación genética de las regiones no codificantes. Los defectos en el empalme génico son responsables del 10% de la variación genética patogénica, suelen ser raros y difíciles de identificar debido a la complejidad de los potenciadores de empalme (splicing enhancers) intrónicos y exónicos. SpliceAI, es una red neuronal profunda de 32 capas capaz de predecir empalmes canónicos y no canónicos directamente a partir de los datos de una secuencia de unión exón-intrón (11) (Figura 1). Sorprendentemente, SpliceAI pudo usar información de una secuencia de largo alcance (long-range sequence) para aumentar la precisión para predecir desde un 57%, utilizando un tamaño de ventana corto (80 nucleótidos) típico para muchas herramientas de predicción de empalme, hasta el 95% cuando se usó el algoritmo de IA. De igual forma, el modelo de IA fue capaz de identificar variantes candidatas de empalme críptico (ocultas) subyacentes a los trastornos del neurodesarrollo. Otro enfoque basado en Deep learning (DeepSEA) mejoró sustancialmente la capacidad para predecir la presencia de sitios hipersensibles a la ADNasa, diversas vías de transcripción y los cambios estructurales en las histonas (12). Como ejemplo, varias extensiones del modelo DeepSEA usadas en secuencias genómicas de familias con trastornos del espectro autista han revelado mutaciones de novo en segmentos no codificantes (13). En paralelo, extensiones del algoritmo ExPecto revelaron una mejoría en la capacidad pronóstica de diferentes perfiles de expresión génica extraídos a partir de secuencias de ADN germinal y somático (14).
Figura 1. SpliceAI, una red neuronal profunda que modela con precisión el empalme de ARNm a partir de una secuencia genómica y predice la presencia de mutaciones de cripticas no codificantes en pacientes con enfermedades genéticas raras.
Mapeo fenotipo-genotipo
El genoma humano contiene numerosas variantes genéticas patogénicas o potencialmente patogénicas (15), independientemente del estado de salud del individuo estudiado (16). Los algoritmos de AI han permitido mejorar el mapeo fenotipo-genotipo, especialmente a través de la extracción de información derivada del diagnóstico clínico, la integración de imágenes y el uso de datos derivados de registros electrónicos de la historia clínica. Considerando la utilidad de las imágenes dentro del procesamiento del diagnóstico genético, el desarrollo de la estructura facial constituye un ejemplo perfecto. La ontología del fenotipo humano enumera 1.007 términos para las anomalías faciales; estas alteraciones están asociadas con 4.526 enfermedad y 2.142 genes. Un experto en dismorfología a menudo identificará estas anomalías de manera individual y las sintetizará en un diagnóstico puntual o la conjunción de estos. Es así como el diagnóstico clínico puede enfocar la secuenciación de genes específicos basado en el fenotipo dominante. A menudo, el diagnóstico clínico y los hallazgos moleculares se superponen, pero no coinciden con precisión debido a la similitud fenotípica de múltiples alteraciones nosológicas bien caracterizadas. DeepGestalt, es un algoritmo de análisis de imágenes faciales basado en redes neuronales convolucionales que supera la valoración clínica, siendo lo suficientemente preciso para distinguir entre diagnósticos moleculares asignados a un mismo diagnóstico (por decir algo, diversas formas moleculares del síndrome de Noonan) (17) (Figura 2). Al integrar DeepGestalt con PEDIA (sistema de interpretación del genoma que integrado) el modelo fue capaz de utilizar características fenotípicas extraídas de fotografías faciales para priorizar con precisión variantes patogénicas candidatas para 105 trastornos monogénicos diferentes en una población de 679 casos analizados (18). Estos hallazgos han permitido conjeturar acerca de la utilidad del DeepGestalt para realizar escaneo facial dinámico facilitando la identificación de numerosos síndromes genéticos (19), entre otros, el síndrome de Cornelia de Lange diagnosticado por IA con una exactitud del 98.6% (75-85% para la evaluación clínica), o el síndrome de Angelman determinado con una precisión del 92% (72% para el diagnóstico clínico) (17).
A pesar de la notable integración entre la genómica y la IA, aún persisten los sesgos propios de la selección en el proceso de aprendizaje. Por ejemplo, el DeepGestalt mostró precisión marginal para la identificación del síndrome de Down en individuos de ascendencia africana versus caucásicos europeos (36.8% frente a 80%, respectivamente) (18). El reentrenamiento del modelo con ejemplos del síndrome de Down en sujetos de raza negra mejoró el perfil diagnóstico con una precisión próxima al 95%, dejando claro que el rendimiento inicial es propenso a la desigualdad interpoblacional favorecida por la subrepresentación muestral en el grupo de entrenamiento (19).
Figura 2A. DeepGestalt, flujo de alto nivel. La imagen de entrada se procesa primero para lograr una detección del perfil facial, para la detección de puntos de referencia y su alineación. Después del preprocesamiento, la imagen de entrada se recorta en regiones. Luego, cada región alimenta una red neuronal convolucional para obtener un vector softmax que indica su correspondencia con cada síndrome en el modelo. Los vectores de salida de cada estrato de la red neuronal convolucional se agregan y clasifica para obtener la lista que se correlaciona con el patrón genómico. El histograma del lado derecho representa los síndromes de salida del DeepGestalt, ordenados por la puntuación de similitud. B. Fotografías compuestas de pacientes con síndrome de Noonan con diferentes genotipos y diferencias faciales sutiles caracterizados a través del DeepGestalt. Foto publicada con el consentimiento de los padres y reproducida con autorización de Gurovich Y, Hanani Y, Bar O, et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019 Jan;25(1):60-64 (17).
Los síndromes genéticos que se identifican a través del análisis facial se pueden confirmar por el análisis genómico; sin embargo, en el caso del cáncer el fenotipo tumoral o las imágenes diagnósticas son incapaces de priorizar y predecir el patrón de las alteraciones somáticas del ADN. La IA ha permitidos disminuir la brecha entre el análisis fenotípico derivado de las imágenes y el origen genómico de las neoplasias sólidas. Un modelo de red neuronal convolucional integrado con datos de supervivencia pudo reconocer las características histológicas de los tumores cerebrales gliales, prediciendo las alteraciones canónicas y la respuesta al tratamiento (20). De forma general, algunos sistemas de visión computarizada basados en IA pueden predecir las aberraciones genómicas presentes en individuos con fenotipos complejos integrados en imágenes relevantes (20).
Glosario
Termino | Significado |
Red neuronal convolucional (Convolutional neural network) | Una red neuronal convolucional es un tipo de red neuronal artificial donde las neuronas corresponden a campos receptivos de una manera muy similar a las neuronas en la corteza visual primaria (V1) de un cerebro biológico. Estas, son aptas para poder aprender a clasificar todo tipo de datos que estén distribuidos de una forma continua a lo largo del mapa de entrada, y que a su vez sean estadísticamente similares en cualquier lugar del mismo mapa. Por esta razón, son especialmente eficaces para clasificar imágenes, por ejemplo, para su auto etiquetado. Sin embargo, las redes neuronales convolucionales también pueden ser aplicadas para la clasificación de series de tiempo o señales de audio utilizando convoluciones en 1D, así como para la clasificación de datos volumétricos usando convoluciones en 3D. |
Procesamiento natural del lenguaje (Natural language processing) | Campo de la IA que interacciona con la lingüística para facilitar la comunicación entre los sistemas computacionales y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces para establecer la comunicación entre personas y máquinas por medio del lenguaje natural. Regularmente incluye el análisis morfológico de las palabras y sus rasgos flexivos, el estudio sintáctico, semántico y pragmático del lenguaje. Además, permite la planeación, estructuración y generación de frases. |
Mutaciones crípticas | Genes mutados que están ocultos y tienen efectos inesperados en los rasgos que solo se revelan cuando se combinan con otras alteraciones. |
Transcripción | La transcripción es el primer paso de la expresión génica. Esta etapa consiste en copiar la secuencia de ADN para producir una molécula de ARN a través de las polimerasas encargadas de unir los nucleótidos para formar una cadena de ARN (usando el ADN como molde). La transcripción tiene tres etapas: iniciación, elongación y terminación. |
Scale-invariant feature transform (SIFT) | Algoritmo usado en visión artificial para extraer características relevantes de las imágenes que posteriormente pueden usarse en reconocimiento de objetos, detección de movimiento, estereopsis, |
PANTHER-PSEP | Sistema que estima la probabilidad de que un SNP que codifique un determinado SNP no sinónimo (cambio de aminoácidos) provoque un impacto funcional en la proteína. Calcula la cantidad de tiempo (en millones de años) que se ha conservado un aminoácido dado en el linaje que conduce a la proteína de interés. Cuanto mayor sea el tiempo de conservación, mayor será la probabilidad de impacto funcional. |
PolyPhen2 | PolyPhen-2 (Polymorphism Phenotyping v2) es una herramienta que predice el posible impacto de una sustitución de aminoácidos en la estructura y función de una proteína humana utilizando consideraciones físicas y comparativas sencillas. |
ClinVar | Archivo público con acceso gratuito a informes sobre las relaciones entre variantes genómicas y fenotipos humanos, con evidencia de apoyo. La base de datos incluye variantes de línea germinal y somáticas de cualquier tamaño, tipo y ubicación. |
COSMIC | Catálogo de mutaciones somáticas en cáncer. Recurso más grande y completo del mundo para explorar el impacto de las mutaciones somáticas en diversas neoplasias. |
OncoKB | Base de datos con algoritmos de conocimiento sobre oncología de precisión que contiene información sobre los efectos y las implicaciones del tratamiento de alteraciones genéticas específicas del cáncer. |
HGVS | Nomenclatura recomendada para la descripción de variantes génicas |
Vínculos relacionados | http |
SpliceAI | https://spliceailookup. |
DeepSEA | http://deepsea.princeton.edu/ |
ExPecto | https://hb.flatironinstitute. |
Face2gene | Home – Face2Gene |
PANTHER-PSEP | http://www.pantherdb.org/ |
PolyPhen2 | http://genetics.bwh.harvard. |
ClinVar | https://www.ncbi.nlm.nih.gov/ |
COSMIC | https://cancer.sanger.ac.uk/ |
OncoKB | https://www.oncokb.org/ |
HGVS | https://www.hgvs.org/mutnomen/ |
Referencias
-
- Torkamani A, Andersen KG, Steinhubl SR, Topol EJ. High-definition medicine. Cell. 2017;170:828–43.
- Leung MKK, Xiong HY, Lee LJ, Frey BJ. Deep learning of the tissue-regulated splicing code. Bioinformatics. 2014;30:i121–9.
- Jaganathan K, Kyriazopoulou Panagiotopoulou S, McRae JF, Darbandi SF, Knowles D, Li YI, et al. Predicting splicing from primary sequence with deep learning. Cell. 2019;176:535–48.
- Quang D, Xie X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 2016;44:e107.
- Poplin R, Chang PC, Alexander D, Schwartz S, Colthurst T, Ku A, et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol. 2018;36:983–7.
- Wick RR, Judd LM, Holt KE. Performance of neural network basecalling tools for Oxford nanopore sequencing. Genome Biol. 2019;20:129.
- Luo R, Sedlazeck FJ, Lam TW, Schatz MC. A multi-task convolutional deep neural network for variant calling in single molecule sequencing. Nat Commun. 2019 Mar 1;10(1):998.
- Tang H, Thomas PD. Tools for predicting the functional impact of nonsynonymous genetic variation. Genetics. 2016;203:635–47.
- Quang D, Chen Y, Xie X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics. 2015;31:761–3.
- Landrum MJ, Lee JM, Benson M, Brown GR, Chao C, Chitipiralla S, et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 2018;46:D1062–7.
- FDA approves stroke-detecting AI software. Nat Biotechnol. 2018;36:290.
- Zhou J, Troyanskaya OG. Predicting effects of noncoding variants with deep learning-based sequence model. Nat Methods. 2015;12:931–4.
- Zhou J, Park CY, Theesfeld CL, Wong AK, Yuan Y, Scheckel C, et al. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk. Nat Genet. 2019;51:973–80.
- Zhou J, Theesfeld CL, Yao K, Chen KM, Wong AK, Troyanskaya OG. Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat Genet. 2018;50:1171–9.
- Telenti A, Pierce LCT, Biggs WH, Di Iulio J, Wong EHM, Fabani MM, et al. Deep sequencing of 10,000 human genomes. Proc Natl Acad Sci U S A. 2016;113:11901–6.
- Erikson GA, Bodian DL, Rueda M, Molparia B, Scott ER, Scott-Van Zeeland AA, et al. Whole-genome sequencing of a healthy aging cohort. Cell. 2016;165:1002–11.
- Gurovich Y, Hanani Y, Bar O, Nadav G, Fleischer N, Gelbman D, et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019;25:60–4.
- Lumaka A, Cosemans N, Lulebo Mampasi A, Mubungu G, Mvuama N, Lubala T, et al. Facial dysmorphism is influenced by ethnic background of the patient and of the evaluator. Clin Genet. 2017;92:166–71.
- Martin AR, Kanai M, Kamatani Y, Okada Y, Neale BM, Daly MJ. Clinical use of current polygenic risk scores may exacerbate health disparities. Nat Genet. 2019;51:584–91.
- Hsieh T-C, Mensah MA, Pantel JT, Aguilar D, Bar O, Bayat A, et al. PEDIA: prioritization of exome data by image analysis. Genet Med. 2019.
- Dolgin E. AI face-scanning app spots signs of rare genetic disorders. Nature. 2019.
- Mobadersany P, Yousefi S, Amgad M, Gutman DA, Barnholtz-Sloan JS, Velázquez Vega JE, et al. Predicting cancer outcomes from histology and genomics using convolutional networks. Proc Natl Acad Sci U S A. 2018;115:E2970–9.
- Clark MM, Hildreth A, Batalov S, Ding Y, Chowdhury S, Watkins K, et al. Diagnosis of genetic diseases in seriously ill children by rapid whole-genome sequencing and automated phenotyping and interpretation. Sci Transl Med. 2019;11:eaat6177.
- Lello L, Avery SG, Tellier L, Vazquez AI. de los Campos G, Hsu SDH. Accurate genomic prediction of human height. Genetics. 2018;210:477–97.
- Wang B, Mezlini AM, Demir F, et al. Similarity network fusion for aggregating data types on a genomic scale. Nat Methods. 2014 Mar; 11(3):333-7.
- Meng C, Zeleznik OA, Thallinger GG, et al. Dimension reduction techniques for the integrative analysis of multi-omics data. Brief Bioinform. 2016 Jul; 17(4):628-41.
- Bersanelli M, Mosca E, Remondini D, et al. Methods for the integration of multi-omics data: mathematical aspects. BMC Bioinformatics. 2016 Jan 20; 17 Suppl 2:15.
- Ibrahim R, Pasic M, Yousef GM. Omics for personalized medicine: defining the current we swim in. Expert Rev Mol Diagn. 2016 Jul;16(7):719-22.
- MacArthur DG, Manolio TA, Dimmock DP, et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 2014 Apr 24; 508(7497):469-76.
- Tang H, Thomas PD. Tools for Predicting the Functional Impact of Nonsynonymous Genetic Variation. Genetics. 2016 Jun; 203(2):635-47.
- Richards S, Aziz N, Bale S, et al; ACMG Laboratory Quality Assurance Committee. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015 May;17(5):405-24.
- Li MM, Datto M, Duncavage EJ, et al. Standards and Guidelines for the Interpretation and Reporting of Sequence Variants in Cancer: A Joint Consensus Recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists. J Mol Diagn. 2017 Jan;19(1):4-23.
- Lindeman NI, Cagle PT, Aisner DL, et al. Updated Molecular Testing Guideline for the Selection of Lung Cancer Patients for Treatment With Targeted Tyrosine Kinase Inhibitors: Guideline From the College of American Pathologists, the International Association for the Study of Lung Cancer, and the Association for Molecular Pathology. J Mol Diagn. 2018 Mar;20(2):129-159. doi: 10.1016/j.jmoldx.2017.11.004. Epub 2018 Jan 23.
- Kundra R, Zhang H, Sheridan R, et al. OncoTree: A Cancer Classification System for Precision Oncology. JCO Clin Cancer Inform. 2021 Feb;5:221-230. doi: 10.1200/CCI.20.00108.
- Weinstein JN, Collisson EA, Mills GB, et al; Cancer Genome Atlas Research Network. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013 Oct; 45(10):1113-20.
- Davis RJ, Gönen M, Margineantu DH, et al. Pan-cancer transcriptional signatures predictive of oncogenic mutations reveal that Fbw7 regulates cancer cell oxidative metabolism. Proc Natl Acad Sci U S A. 2018 May 22;115(21):5462-5467.
- Castro M, Pampana A, Alam A, et al. Combination chemotherapy versus temozolomide for patients with methylated MGMT (m-MGMT) glioblastoma: results of computational biological modeling to predict the magnitude of treatment benefit. J Neurooncol. 2021 Jul;153(3):393-402. doi: 10.1007/s11060-021-03780-0.
- Zhang Z, He T, Huang L, et al. Immune gene prognostic signature for disease free survival of gastric cancer: Translational research of an artificial intelligence survival predictive system. Comput Struct Biotechnol J. 2021 Apr 12;19:2329-2346. doi: 10.1016/j.csbj.2021.04.025.
- Nosi V, Luca A, Milan M, et al. MET Exon 14 Skipping: A Case Study for the Detection of Genetic Variants in Cancer Driver Genes by Deep Learning. Int J Mol Sci. 2021 Apr 19;22(8):4217. doi: 10.3390/ijms22084217.
- Chakraborty D, Ivan C, Amero P, Ket al. Explainable Artificial Intelligence Reveals Novel Insight into Tumor Microenvironment Conditions Linked with Better Prognosis in Patients with Breast Cancer. Cancers (Basel). 2021 Jul 9;13(14):3450. doi: 10.3390/cancers13143450.
- Ding J, Bashashati A, Roth A, et al. Feature-based classifiers for somatic mutation detection in tumour-normal paired sequencing data. Bioinformatics. 2012 Jan 15; 28(2):167-75.
- Hao Y, Xuei X, Li L, et al. RareVar: A Framework for Detecting Low-Frequency Single-Nucleotide Variants. J Comput Biol. 2017 Jul;24(7):637-646.
- Spinella JF, Mehanna P, Vidal R, et al. SNooPer: a machine learning-based method for somatic variant identification from low-pass next-generation sequencing. MC Genomics. 2016 Nov 14;17(1):912.
- ST et al (2018) Deep learning mutation prediction enables early-stage lung cancer detection in liquid biopsy. IN: ICLR 2018 conference, Vancouver.
- Wood DE, White JR, Georgiadis A, et al. A machine learning approach for somatic mutation discovery. Sci Transl Med. 2018 Sep 5;10(457):141.
- Antaki D, Brandler WM, Sebat J. SV2: accurate structural variation genotyping and de novo mutation detection from whole genomes. Bioinformatics. 2018 May 15; 34(10):1774-1777.
- Onsongo G, Baughn LB, Bower M, et al. CNV-RF Is a Random Forest-Based Copy Number Variation Detection Method Using Next-Generation Sequencing. J Mol Diagn. 2016 Nov; 18(6):872-881.
- Going Deeper with Convolutions (2014) arXiv:1409.4842v1.
- Caravagna G, Giarratano Y, Ramazzotti D, et al. Detecting repeated cancer evolution from multi-region tumor sequencing data. Nat Methods. 2018 Sep;15(9):707-714.
- Qi H, Zhang H, Zhao Y, et al. MVP predicts the pathogenicity of missense variants by deep learning. Nat Commun. 2021 Jan 21;12(1):510. doi: 10.1038/s41467-020-20847-0.
- Zomnir MG, Lipkin L, Pacula M, et al. Artificial Intelligence Approach for Variant Reporting. JCO Clin Cancer Inform. 2018;2:CCI.16.00079. doi: 10.1200/CCI.16.00079. Epub 2018 Mar 22.
- Krallinger M, Vazquez M, Leitner F, et al. The Protein-Protein Interaction tasks of BioCreative III: classification/ranking of articles and linking bio-ontology concepts to full text. BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S3. doi: 10.1186/1471-2105-12-S8-S3.
- Habibi M, Weber L, Neves M, et al. Deep learning with word embeddings improves biomedical named entity recognition
___________
Andrés F. Cardona, MD MSc PhD MBA, Grupo Oncología Clínica y Traslacional, Clínica del Country, Bogotá, Colombia. Fundación para la Investigación Clínica y Molecular Aplicada del Cáncer – FICMAC, Bogotá, Colombia. Grupo de Investigación en Oncología Molecular y Sistemas Biológicos, (Fox-G), Universidad El Bosque, Bogotá, Colombia
Este artículo es republicado de AIpocrates. Para ver el artículo original en Aipocrates.org