class: title-slide, middle, center background-image: url(data:image/png;base64,#figures/Clases_RNASeq_Slide1.png) background-position: 90% 75%, 75% 75%, center background-size: 1210px,210px, cover .center-column[ # Workshop: Análisis de datos de RNA-Seq ### ⚔<br/>Aspectos generales de RNA-Seq / Control de calidad de los datos ####Dra. Evelia Coss #### 27/02/2024 ] .left[.footnote[R-Ladies Theme[R-Ladies Theme](https://www.apreshill.com/project/rladies-xaringan/)]] --- background-image: url(data:image/png;base64,#figures/liigh_unam_logo.png) background-position: 10% 10% background-size: 10% class: middle, center # Sobre mi ---- .left-col[ ###
Dra. Evelia Lorena Coss-Navarrete Investigadora Posdoctoral en el Laboratorio Internacional de Investigación sobre el Genoma Humano [(LIIGH), UNAM](https://twitter.com/LIIGH_UNAM), campus Juriquilla [
Dra Alejandra Medina-Rivera](https://liigh.unam.mx/profile/dra-alejandra-medina-rivera/) [
EveliaCoss.github.io](https://eveliacoss.github.io/) ] .center-col[ ###
Miembro - [LupusRGMX](https://twitter.com/LupusRgmx) - [Proyecto JAGUAR](https://twitter.com/PJaguarLATAM) - [Rladies Morelia](https://www.facebook.com/profile.php?id=100093337606435) - [CDSB - Mexico](https://twitter.com/CDSBMexico) - [RIABIO](https://twitter.com/RiaBioNet) - [The Carpentries](https://carpentries.org/index.html) ] .right-col[ ###
Formación académica - Doctorado en Biotecnología de Plantas, [Cinvestav, Langebio](https://twitter.com/uga_langebio), [
Dra Selene Fernandez-Valverde](https://twitter.com/SelFdz) - Maestría en Biotecnología de Plantas, [Cinvestav, Unidad Irapuato](https://twitter.com/CinvestavIra) - Ing. en Biotecnología, [UPSIN](https://www.facebook.com/UPSINSINALOA) ] --- ## Objetivo del curso: ---- .center[ Hacer de ustedes **bioinformáticos** aptos en sus nuevos laboratorios. ] <img src="data:image/png;base64,#figures/meme1.jpg" width="60%" style="display: block; margin: auto;" /> --- ## Bioinformática se conforma de la computación, biológica, matemáticas y estadística La bioinformática, en relación con la **genética y la genómica**, es una **subdisciplina científica** que implica el uso de **ciencias informáticas** para .pink[*recopilar, almacenar, analizar y diseminar datos biológicos*], como secuencias de ADN y aminoácidos o anotaciones sobre esas secuencias [NIH, 2023](https://www.genome.gov/es/genetics-glossary/Bioinformatica). --- class: inverse, center, middle
# Aspectos generales de RNA-Seq --- # Transcriptoma Es el conjunto de todas las moléculas de RNA producidos por el genoma bajo **condiciones específicas** o en **una célula específica (scRNA-Seq)** o en **una población de células (bulk RNA-Seq)**. ### ¿Porque es importante medir los cambios en la expresión génica (transcriptoma)? - Las variaciones en la expresión entre condiciones se puede relacionar con los cambios en los **procesos biológicos**. - El transcriptoma nos da una aproximación de los cambios relativos en la expresión génica de los **genes codificantes y no codificantes**. .content-box-gray[ Palabras claves: - Genoma - Fijo - Transcriptoma - Altamente variable ] --- ## El transcriptoma varía según: .pull-left[ - Tejido / Órgano - Célula - Ambiente (estrés) - Medicamentos (tratamientos) - Salud - Edad - Etapa del desarrollo ] .pull-right[ <img src="data:image/png;base64,#figures/Figura1.png" width="90%" style="display: block; margin: auto;" /> ] --- ### Idea principal de RNA-Seq ## Relacionar un fenotipo con los cambios de expresión de los genes en una condición dada <img src="data:image/png;base64,#figures/Figura2.png" width="80%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Imagen tomada de: https://www.acobiom.com/en/rna-seq-en/ ]]] --- # Flujo experimental de RNA-Seq ---- <img src="data:image/png;base64,#figures/Figura3.png" width="100%" style="display: block; margin: auto;" /> --- class: inverse, center, middle
# Consideraciones sobre la planificación experimental --- # Número de réplicas Las réplicas experimentales pueden realizarse como **réplicas técnicas** o **réplicas biológicas**. <img src="data:image/png;base64,#figures/replicates.png" width="50%" style="display: block; margin: auto;" /> - **Réplicas técnicas**: utilizan la misma muestra biológica para repetir los pasos técnicos o experimentales con el fin de medir con precisión la variación técnica y eliminarla durante el análisis. - **Réplicas biológicas**: utilizan diferentes muestras biológicas de la misma condición para medir la variación biológica entre muestras. .left[.footnote[.black[ Imagen proveniente de [Klaus, et al. 2015. EMBO](https://dx.doi.org/10.15252%2Fembj.201592958); [Introduction to RNA-Seq using high-performance computing](https://hbctraining.github.io/Intro-to-rnaseq-hpc-salmon/lessons/experimental_planning_considerations.html) ]]] --- # Profundidad de secuenciación Se refiere al número de veces que se lee un nucleótido durante la secuenciación. > En Plantas, con un mínimo de 30 M de lecturas puedes realizar la identificación de lncRNAs. <img src="data:image/png;base64,#figures/Figura13.png" width="50%" style="display: block; margin: auto;" /> .left[.footnote[.black[ [Illumina](https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.html); [Sequencing coverage and breadth of coverage](https://www.reneshbedre.com/blog/sequencing-coverage.html) ]]] --- ## El número de replicas biológicas es más importantes que la profundidad de la secuenciación El número de replicas depende de la *variabilidad técnica* y la *variabilidad biológica* del objeto de estudio, así como del *poder estadístico deseado*. .pull-left[ - **Variabilidad en técnica (mediciones)** * Extracción o preparación de bibliotecas - **Variabilidad biológica** * Inferencias poblacionales (mínimo 3) - **Poder estadístico** * Depende del método estadístico elegido Al incrementar el número de replicas biológicas el número de genes diferencialmente expresados también incrementa, más que el efecto en el aumento de la profundidad de secuenciación. ] .pull-right[ <img src="data:image/png;base64,#figures/replicates2.png" width="80%" style="display: block; margin: auto;" /> ] .left[.footnote[.black[ [Liu, et al. 2014. Bioinformatics](https://doi.org/10.1093/bioinformatics/btt688) ]]] --- # Evitar tener sesgos en tus muestras El **sexo** tiene grandes efectos en la expresión génica, y si todos nuestros ratones de control fueran *hembras* y todos los ratones de tratamiento fueran *machos*, entonces el **efecto del tratamiento estaría confundido por el sexo. No podríamos diferenciar el efecto del tratamiento del efecto del sexo**. <img src="data:image/png;base64,#figures/non_confounded_design.png" width="80%" style="display: block; margin: auto;" /> Lo ideal seria tener 50 % de machos y 50 % de hembras con edades o etapas de desarrollo similares o iguales. .left[.footnote[.black[ Imagen proveniente de [Introduction to RNA-Seq using high-performance computing](https://hbctraining.github.io/Intro-to-rnaseq-hpc-salmon/lessons/experimental_planning_considerations.html) ]]] --- class: inverse, center, middle
# RNA total y su purificación --- ## Aproximadamente el 2 % del RNA es mRNA en células eucariotas - 80 % rRNA - 15 % tRNA - **5 % otros (incluye mRNA y non-coding RNA)** .left[.footnote[.black[ Lodish H, Berk A, Zipursky SL, et al. New York: W. H. Freeman 2000. Molecular Cell Biology. 4th edition ]]] -- .center[**Solo se espera tener ~ 10 % de genes diferencialmente expresados**] <img src="data:image/png;base64,#figures/meme2.jpg" width="30%" style="display: block; margin: auto;" /> --- # Flujo experimental de RNA-Seq ---- <img src="data:image/png;base64,#figures/Figura4.png" width="100%" style="display: block; margin: auto;" /> --- # Aspectos generales de Genética - ¿Cuántos **tipos de RNA** existen? ¿Y en qué especies se encuentran? - ¿ **Un RNA** solo es transcrito por **una sola polimerasa** ? - ¿Cuántas **bandas** esperas encontrar en un gel de RNA (integridad)? - ¿En qué **compartimientos celulares** podemos encontrar al rRNA en células eucariotas? --- ## ¿Cuántos tipos de RNA existen? ¿Y en qué especies se encuentran? Es importante saber que quieren estudiar y el enfoque de su estudio. <img src="data:image/png;base64,#figures/Figura5.png" width="70%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Inamura K. 2017. *Cells* ]]] --- ## ¿Cuál de estos RNA NO se encuentra presente en todas las células eucariotas? .pull-left[ <img src="data:image/png;base64,#figures/Figura5.png" width="140%" style="display: block; margin: auto;" /> ] -- .pull-right[.content-box-green[ Respuesta: - Los piwiRNAs o piRNAs no se encuentran presentes en plantas ni en hongos. - Funcionan para el silenciamiento de transposons. ]] --- # Flujo experimental de RNA-Seq ---- <img src="data:image/png;base64,#figures/Figura6.png" width="90%" style="display: block; margin: auto;" /> --- ## ¿Un RNA solo es transcrito por una sola polimerasa? La repuesta es **NO**. .pull-left[ - Oligo dT (18 T) - Los componentes del transcrito del RNA dependerán de la RNA Polimerasa que lo transcriba. <img src="data:image/png;base64,#figures/Figura7.png" width="80%" style="display: block; margin: auto;" /> ] -- .pull-right[ > Los RNAs largos no codificantes (lncRNAs) pueden ser transcritos por la **RNA Polimerasa II, IV y V**. > > - La *Polimerasa II* coloca **CAP y Poly A** en los transcritos. > - Mientras que la *Polimerasa V* deposita **solo CAP**. ] --- # Flujo experimental de RNA-Seq ---- <img src="data:image/png;base64,#figures/Figura8.png" width="80%" style="display: block; margin: auto;" /> --- ## ¿Cuántas bandas esperas encontrar en un gel de RNA (integridad)? .pull-left[ <img src="data:image/png;base64,#figures/Figura9.png" width="60%" style="display: block; margin: auto;" /> ] .middle[.pull-right[ - Normalmente la respuesta es 2, correspondientes al **28S** y **18S** de rRNA. - Pero esto no es del todo cierto ... ]] --- ## ¿En qué compartimientos celulares podemos encontrar al rRNA en células eucariotas? - **Citoplásmico** – 28S, 18S, 5.8S, 5S - **Cloroplasto** – 23S, 16S, 5S, 4.5S - **Mitocondrial** – 18S, 5S *Ribo-Zero* y *RiboMinus* emplean perlas magnéticas para eliminar el rRNA, sin embargo, estos beads son específicos de las especies. Si no cuentan con tu especie de interés no te conviene esta técnica de aislamiento. --- ## Dependiendo del tejido u órgano analizado podemos localizar más bandas integras <img src="data:image/png;base64,#figures/Figura10.png" width="80%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Oliveria et al. 2015. *Genetics and molecular research* (GMR). An efficient method for simultaneous extraction of high-quality RNA and DNA from various plant tissues. ]]] --- class: inverse, center, middle
# Consideraciones ANTES de la secuenciación --- # Flujo experimental de RNA-Seq ---- <img src="data:image/png;base64,#figures/Figura11.png" width="90%" style="display: block; margin: auto;" /> --- # Tipos de bibliotecas .pull-left[ ***Single-end (SE)*** - Organismo bien anotado. - Bajo costo. - Solo un sentido en la lectura ***Paired-end (PE)*** - Anotación de nuevos genes - Análisis de expresión de isoformas - Análisis de expresión de genes antisenido ] .pull-right[ <img src="data:image/png;base64,#figures/Figura12.png" width="100%" style="display: block; margin: auto;" /> ] --- # *Paired-end* y Strand-specific <img src="data:image/png;base64,#figures/Protocolo_2.png" width="80%" style="display: block; margin: auto;" /> --- # *Paired-end* y Strand-specific <img src="data:image/png;base64,#figures/Protocolo_3.png" width="80%" style="display: block; margin: auto;" /> --- # Diseño de la corrida de secuenciación - **Propósito**: Evitar introducir sesgos técnicos que afecten el procesamiento de los datos. - Se propone la aleatorización de muestras: * Durante la preparación de las bibliotecas. * Rondas de secuenciación (*batch effect*). - Lo ideal es incluir todas las muestras en una misma línea para minimizar el *lane effect*. - Tener cuidado de no mezclar el mismo adaptador en la línea de secuenciación (~ 24 adaptadores). --- # Batch effect **Diferentes líneas de secuenciación** con nuestros datos resultan en una *baja certeza* sobre el resultado. - Debemos tener un **acomodo aleatorio y distribuido de las muestras** en caso de contar con diversas rondas de secuenciación. - Los reactivos de la secuenciación pueden variar entre corridas. <img src="data:image/png;base64,#figures/batch_effect_pca1.png" width="60%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Imagen proveniente de [Hicks, et al. 2015. bioRxiv](https://www.biorxiv.org/content/early/2015/08/25/025528) ]]] --- # Corrección por Batch effect Buen diseño experimental con un minimo de 2 Réplicas biológicas, pero aún puede haber variación técnica. <img src="data:image/png;base64,#figures/batch_effect_pca2.png" width="60%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Imagen proveniente de [Hicks, et al. 2015. bioRxiv](https://www.biorxiv.org/content/early/2015/08/25/025528) ]]] --- # Efecto batch en análisis masivo de transcriptomas Datos de RNA-Seq Controles vs Lupus (SLE) .pull-left[ - **Batch effect** <img src="data:image/png;base64,#figures/batch_effect_pca_Sofi1.png" width="80%" style="display: block; margin: auto;" /> ] .pull-right[ - **Corrección por Batch effect** <img src="data:image/png;base64,#figures/batch_effect_pca_Sofi2.jpg" width="60%" style="display: block; margin: auto;" /> ] --- class: inverse, center, middle
# Consideraciones en el análisis bioinformático --- ## Pipeline general .pull-right[ <img src="data:image/png;base64,#figures/pipeline1.png" width="80%" style="display: block; margin: auto;" /> ] .left[.footnote[.black[ Imagen proveniente de [mRNA-Seq data analysis workflow](https://biocorecrg.github.io/RNAseq_course_2019/workflow.html) ]]] --- ### Descarga de los datos ## Después de la secuenciación, verifica que tus datos se descargaran correctamente <img src="data:image/png;base64,#figures/Figura15.png" width="40%" style="display: block; margin: auto;" /> Verificar los números *md5* (encriptados) contenidos en los archivos: ```bash md5sum KO*/*gz ``` El número de referencia se encuentra presente dentro del archivo **MD5.txt**: ```bash cat KO*/MD5.txt ``` --- ### Descarga de los datos ## Es super importante esta verificación, ya que solo cuentas con unos días para descargar el archivo <img src="data:image/png;base64,#figures/Figura16.png" width="70%" style="display: block; margin: auto;" /> --- class: inverse, center, middle
# Control de calidad de los datos --- # Quality Check / Quality Control .pull-left[ - **Uno de los pasos más importantes. Dedícale tiempo.** - La calidad de tus datos importa, bibliotecas mal secuenciadas genera datos desconfiables. - Debes analizar su calidad para poder reclamar en la secuenciación (~1 semana). .content-box-gray[ Programas: - [FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) - [MultiQC](https://multiqc.info) ] ] .pull-right[ <img src="data:image/png;base64,#figures/Figura17.png" width="80%" style="display: block; margin: auto;" /> ] --- # Archivos fastq (fastq.gz / fq.gz) .pull-left[ - Derivan del formato FASTA. - **Muestra la calidad de cada nucleótido.** - Cada secuencia está representada por 4 líneas: + 1. @ ID del read + información de la corrida + 2. Secuencia + 3. Símbolo "+“ + 4. Información de la calidad de secuenciación de cada base. Cada letra o símbolo representa a una base de la secuencia codificado en formato (Escala *Phred* y código *[ASCII](https://www.drive5.com/usearch/manual/quality_score.html)*) ] .pull-right[ <img src="data:image/png;base64,#figures/archivo_fastq.png" width="100%" style="display: block; margin: auto;" /> ] --- # Phred Quality score / Puntuación de calidad ```bash Q = -10 x log10(P) # where P is the probability that a base call is erroneous ``` - Q = Phred Quality score - P = Probability of incorrect base call <img src="data:image/png;base64,#figures/Figura18.png" width="60%" style="display: block; margin: auto;" /> El valor máximo de calidad es = ~40 (zona verde) y los valores < 20 se consideran de baja calidad. .left[.footnote[.black[ [Quality control using FastQC](https://hbctraining.github.io/Training-modules/planning_successful_rnaseq/lessons/QC_raw_data.html) ]]] --- # Lo ideal <img src="data:image/png;base64,#figures/fastqc_1.png" width="80%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Archivo Fastq obtenido de [Babraham Bioinformatics](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) ]]] --- # Buena calidad pero contiene adaptadores <img src="data:image/png;base64,#figures/fastqc_2.png" width="80%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Archivo Fastq obtenido de [Babraham Bioinformatics](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) ]]] --- # Muy mala calidad <img src="data:image/png;base64,#figures/fastqc_3.png" width="80%" style="display: block; margin: auto;" /> .left[.footnote[.black[ Archivo Fastq obtenido de [Babraham Bioinformatics](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) ]]] --- # Per base sequence quality Distribución de la calidad de los datos en cada posición (bp). <img src="data:image/png;base64,#figures/fastqc_4.png" width="80%" style="display: block; margin: auto;" /> --- # Per base sequence quality - **Advertencia / Warning** Se emitirá una advertencia si el cuartil inferior de cualquier base es inferior a 10, o si la mediana de cualquier base es inferior a 25. - **Fallo / Failure** Este módulo emitirá un fallo si el cuartil inferior para cualquier base es inferior a 5 o si la mediana para cualquier base es inferior a 20. .left[.footnote[.black[ [Per Base Sequence Quality](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/2%20Per%20Base%20Sequence%20Quality.html) ]]] -- La razón más común de las advertencias: - Degradación general de la calidad en las **corridas de secuenciación extensas**. - La reacción química de la secuenciación se degrada con el aumento de la **longitud de lectura** y, en el caso de ejecuciones largas, es posible que la calidad general de la ejecución caiga a un nivel en el que se active una advertencia o un error. - Burbujas que pasan a través de una celda de flujo. - Bibliotecas de longitud variable. --- # Per tile sequence quality - *Perdida de la calidad* de las secuencias que se encuentran asociadas a una sola parte o a varias partes de la secuencia. - **Desviación del promedio de la calidad.** - Escala de colores de **azul** a .red[rojo]. - Lo idóneo es encontrar el análisis en **azul.** - Problemas con la secuenciación <img src="data:image/png;base64,#figures/fastqc_5.png" width="80%" style="display: block; margin: auto;" /> --- # Per sequence quality scores .pull-left[ - Subgrupo de secuencias con baja calidad universal. - Normalmente los datos de baja calidad se encuentran relacionados con una baja representación de secuencias, por lo que, suele darse solo en un pequeño porcentaje de las secuencias totales. - **Picos altos = la mayoría de los datos buena calidad.** ] .pull-right[ <img src="data:image/png;base64,#figures/fastqc_6.png" width="100%" style="display: block; margin: auto;" /> ] .left[.footnote[.black[ [Per Sequence Quality Scores](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/3%20Per%20Sequence%20Quality%20Scores.html) ]]] --- # Per base sequence content - Las líneas de este gráfico deberían ser paralelas entre sí. - **SIEMPRE da un FALLO para los datos de RNA-seq.** - Las bibliotecas producidas por un **primer usando hexámeros aleatorios** (incluyendo casi todas las bibliotecas de *RNA-Seq*) y aquellas que fueron fragmentadas usando transposasas tendrán un sesgo intrínseco en las posiciones en las que comienzan las lecturas (10-12 nt). - Este primer de **hexámeros aleatorios** no es tan aleatorio como podríamos esperar, dando un *enriquecimiento en bases particulares* para estos nucleótidos iniciales. - Sesgo técnico - No afecta negativamente los análisis posteriores .pull-left[ .center[DNA] <img src="data:image/png;base64,#figures/fastqc_7DNA.png" width="60%" style="display: block; margin: auto;" /> ] .pull-right[ .center[RNA-Seq] <img src="data:image/png;base64,#figures/fastqc_7RNA.png" width="60%" style="display: block; margin: auto;" /> ] --- # Per sequence GC content .pull-left[ - Mide el contenido de **GC en toda la longitud de cada secuencia** de un archivo y lo compara con una distribución normal modelizada del contenido de GC. - Porcentaje de G/C. - **~ 50% de GC en una secuencia.** - Distribución normal. - En caso de encontrar más picos se relaciona con **contaminación o dímeros de adaptadores**. ] .pull-right[ <img src="data:image/png;base64,#figures/fastqc_8.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Variaciones en el contenido de GC se relacionan con contaminaciones, pero se puede publicar .pull-left[ <img src="data:image/png;base64,#figures/fastqc_9.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="data:image/png;base64,#figures/Figura19.png" width="60%" style="display: block; margin: auto;" /> ] --- # Sequence duplication levels .pull-left[ - Secuencias que se repiten varias veces en el análisis. - Dímeros de adaptadores. - rRNA - Sesgo de enriquecimiento (sobreamplificación por PCR) ] .pull-right[ <img src="data:image/png;base64,#figures/fastqc_10.png" width="100%" style="display: block; margin: auto;" /> ] .left[.footnote[.black[ [Sequence duplication levels](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%20Sequences.html) ]]] --- # Overrepresented sequences .pull-left[ - Secuencias dentro del 0.1% del total de las secuencias. - Secuencias representadas en una alta proporción o repetidas. - Para conservar la memoria, sólo las secuencias que aparecen en las primeras 100.000 secuencias se rastrean hasta el final del archivo. ] .pull-right[ <img src="data:image/png;base64,#figures/fastqc_11.png" width="100%" style="display: block; margin: auto;" /> ] .left[.footnote[.black[ [Overrepresented sequences](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/9%20Overrepresented%20Sequences.html) ]]] --- # No emplees datos donde alguno de los reads está mal (*paired-end*) Datos públicos <img src="data:image/png;base64,#figures/fastqc_12.png" width="100%" style="display: block; margin: auto;" /> --- # Trimming .pull-left[ - Quitar lecturas de mala calidad. - Quitar bases con baja calidad. - Cortar secuencias de adaptadores. .content-box-gray[ Programas: - [Trimmomatic](http://www.usadellab.org/cms/?page=trimmomatic) - [Atropos](https://github.com/jdidion/atropos) - [Cutadapt](https://cutadapt.readthedocs.io/en/stable/guide.html) - [skewer](https://github.com/relipmoc/skewer) ] ] .pull-right[ <img src="data:image/png;base64,#figures/Figura17.png" width="80%" style="display: block; margin: auto;" /> ] --- class: inverse, center, middle
## Tarea para el **Jueves 29 de Feb** ### Elegir en equipos los transcriptomas que emplearán en su proyecto. --- ## Actividad ### 1) Elijan a su equipo. Equipos de 3 personas (3 equipos de 3 personas y un equipo de 2) ### 2) Elegir el tema de acuerdo a lo siguiente: Cada equipo tendrá que buscar, descargar y analizar datos de RNA-Seq que provengan de un **artículo científico**. Para la elección de los datos deberán: - Especie de tu elección, recomiendo una especie modelo (humano, ratón, Arabidopsis, etc). - Contar con un mínimo de **3 réplicas biológicas** por contraste. - Datos provenientes de un artículo científico (lo necesitaras para la discusión). - Recomiendo tener **2 contrastes como mínimo** (ejemplo: control vs condición 1). - Buena la **calidad de los datos** (FastQC). --- ## Actividad ### 3) Deben entregarme un documento con la **Descripción de los datos** por equipo: - Bioproject - Especie - Tipo de bibliotecas - Método de selección (ej: poly A) - Número de transcriptomas - Número de réplicas biológicas - Secuenciador empleado - Distribución de las muestras (control y tratamiento) (¿Cuántos hay de cada uno?) - Profundidad de secuenciación de cada transcriptoma > NOTA: puedes hacerlo en una tabla. Enviar al correo ecoss@liigh.unam.mx. --- class: inverse, center, middle
# Mis primeros pasos en Bash --- # Requisitos Contar con una terminal en tu sistema operativo - Si cuentas con Windows tener una terminal como [MobaXterm](https://mobaxterm.mobatek.net) o descargar y acceder a la terminal de [Visual Studio Code](https://code.visualstudio.com/). - Si cuentas con una Mac o Linux, ya tienes una terminal incluida. --- # Entorno de Bash <img src="data:image/png;base64,#figures/bash_terminal.png" width="80%" style="display: block; margin: auto;" /> --- # Rutas - Ruta/Camino absoluto ```bash . # (Punto) Directorio de trabajo en donde me encuentro .. # (2 Puntos) Directorio anterior (arriba) de donde me encuentro ~ # (virgulilla) /home/usuario, root, directorio raiz ``` Existen 2 jerarquías: - Ruta/Camino absoluto ```bash cd /home/usuario/data/ ``` - Ruta/Camino relativo ```bash cd ../ # Ir a la carpeta anterior ``` --- # Comandos básicos | Comandos | Información | Argumentos | |----------|-----------------------|------------------------| | `ssh` | Conexión a servidores | `ssh usuario@servidor.mx`| | `ls` | Observar el contenido de los archivos en una carpeta | `ls directorio/` | | `cd` | Moverse de directorios | `cd /home/usuario/data/` | | `mkdir` | Crear un nuevo directorio | `mkdir data` | | `rmdir` | Eliminar el directorio | `rmkdir -rf data` | | `nano` / `vim` | Editores de texto plano | `nano Archivo.txt`| | `cp` | Copiar archivos | `vim Archivo.txt`| | `mv` | Mover un archivo o carpeta | `cp Archivo1.txt /home/usuario/data/`| | `echo` | Para llamar y/o declarar variables | `echo "Hello world"` | | `chmod` | Cambiar permisos del usuario | `chmod 777 data/` | | `rsync` | Descargar o subir archivos | | | `scp` | Descargar o subir archivos | | --- # `cd` : Moverse entre carpetas ```bash cd /mnt/Guanina/bioinfo24/ ls ``` > **NOTA 1:** Si das `cd` y no indicas una ruta absoluta, te llevara al Directorio Raiz (~). > > **NOTA 2:** Puedes usar la tecla TAB para completar el nombre de la carpeta. En caso de que tengas más de dos carpetas que inicien igual, tendrás que terminar de completar el nombre. --- # `mkdir`: Crear nuevas carpetas Crear una nueva carpeta que se llame "Curso_RNASeq" y que contenga dos carpetas internas: `data/` y `graph/`. ```bash cd data mkdir Clase_RNASeq2024 ``` Movernos a esta nueva carpeta y generar las otras dos carpetas: ```bash cd Clase_RNASeq2024 mkdir data mkdir counts ``` Cuando terminen tendrán la siguiente distribución en sus carpetas. El directorio donde estamos localizados es `Clase_RNASeq2024/`. ```bash Clase_RNASeq2024/ # directorio de trabajo donde nos localizamos |- data/ |- counts/ ``` --- # `rsync`: <img src="data:image/png;base64,#figures/rsync.png" width="80%" style="display: block; margin: auto;" /> Descargar Información ```bash rsync ecoss@liigh.unam.mx:"/mnt/Guanina/bioinfo24/data/Clase_RNASeq2024/test.txt" . ``` Subir Información ```bash rsync ./test.txt ecoss@liigh.unam.mx:"/mnt/Guanina/bioinfo24/data/Clase_RNASeq2024/" ``` --- # Consultar información sobre archivos y directorios ```bash ls -l ``` Van a obtener algo como esto: <img src="data:image/png;base64,#figures/permisos1.png" width="80%" style="display: block; margin: auto;" /> --- # Información contenida Cada columna en la salida anterior tiene un significado: <img src="data:image/png;base64,#figures/permisos2.png" width="80%" style="display: block; margin: auto;" /> --- # Permisos Cada usuario tiene permisos diferentes cuando crea un archivo. Los permisos pueden modificarse con `chmod`. Los caracteres atribuidos a los permisos son: - `r` : escritura (Read) - `w` : lectura (Write) - `x` : ejecución (eXecute) En el siguiente ejemplo, el usuario cuenta con todos los permisos activos, mientras que el grupo y otros tienen solo permisos de lectura y ejecución. <img src="data:image/png;base64,#figures/permisos3.png" width="60%" style="display: block; margin: auto;" /> --- # `chmod`: Cambiar permisos La representación octal de chmod es muy sencilla - `r` = Lectura tiene el valor de 4 - `w` = Escritura tiene el valor de 2 - `x` = Ejecución tiene el valor de 1 .pull-left[ | Permisos | Valor | Significado | |----------|-------|------------------------------| | rwx | 7 |Lectura, escritura y ejecución| | rw- | 6 |Lectura, escritura | | r-x | 5 |Lectura y ejecución | | r-- | 4 |Lectura | | -wx | 3 |Escritura y ejecución | | -w- | 2 |Escritura | | --x | 1 |Ejecución | | --- | 0 |Sin permisos | ] .pull-right[ Por lo tanto: | Forma larga | Forma Octal| |-----------------------|-------------| | chmod u=rwx,g=rwx,o=rx| chmod 775 | | chmod u=rwx,g=rx,o= | chmod 760 | | chmod u=rw,g=r,o=r | chmod 644 | | chmod u=rw,g=r,o= | chmod 640 | | chmod u=rw,go= | chmod 600 | | chmod u=rwx,go= | chmod 700 | ] --- class: center, middle
# Miércoles 28 de febrero 2024 ## Diversos pipeline para Alineamiento, ensamblaje y conteo Gracias por tu atención, respira y coméntame tus dudas.