4  Análisis de datos de RNA-Seq

4.1 Bioinformática se conforma de la computación, biológica, matemáticas y estadística

La bioinformática, en relación con la genética y la genómica, es una subdisciplina científica que implica el uso de ciencias informáticas para recopilar, almacenar, analizar y diseminar datos biológicos, como secuencias de ADN y aminoácidos o anotaciones sobre esas secuencias NIH, 2023.

4.2 Transcriptoma

Es el conjunto de todas las moléculas de RNA producidos por el genoma bajo condiciones específicas o en una célula específica (scRNA-Seq) o en una población de células (bulk RNA-Seq).

4.2.1 ¿Porque es importante medir los cambios en la expresión génica (transcriptoma)?

  • Las variaciones en la expresión entre condiciones se puede relacionar con los cambios en los procesos biológicos.

  • El transcriptoma nos da una aproximación de los cambios relativos en la expresión génica de los genes codificantes y no codificantes.

Palabras claves:
  • Genoma - Fijo
  • Transcriptoma - Altamente variable

4.3 El transcriptoma varía según:

  • Tejido / Órgano
  • Célula
  • Ambiente (estrés)
  • Medicamentos (tratamientos)
  • Salud
  • Edad
  • Etapa del desarrollo

4.4 Idea principal de RNA-Seq

4.4.1 Relacionar un fenotipo con los cambios de expresión de los genes en una condición dada

Imagen tomada de: https://www.acobiom.com/en/rna-seq-en/

4.5 Pipeline general

Imagen proveniente de mRNA-Seq data analysis workflow

5 Control de calidad de los datos

5.1 Quality Check / Quality Control

  • Uno de los pasos más importantes. Dedícale tiempo.

  • La calidad de tus datos importa, bibliotecas mal secuenciadas genera datos desconfiables.

  • Debes analizar su calidad para poder reclamar en la secuenciación (~1 semana).

Programas:

5.2 Archivos fastq (fastq.gz / fq.gz)

  • Derivan del formato FASTA.

  • Muestra la calidad de cada nucleótido.

  • Cada secuencia está representada por 4 líneas:

      1. @ ID del read + información de la corrida

      2. Secuencia

      3. Símbolo “+”

      4. Información de la calidad de secuenciación de cada base. Cada letra o símbolo representa a una base de la secuencia codificado en formato (Escala Phred y código ASCII)

5.3 Phred Quality score / Puntuación de calidad

Q = -10 x log10(P) # where P is the probability that a base call is erroneous

  • Q = Phred Quality score

  • P = Probability of incorrect base call

El valor máximo de calidad es = ~40 (zona verde) y los valores < 20 se consideran de baja calidad.

Ejemplo de Buena calidad

Reporte de FastQC con buena calidad de las lecturas en la zona verde.

Ejercicio 3
  1. Visualiza el contenido del archivo “_files/secuencias_bash.fastq” empleando head. head _files/secuencias_bash.fastq
  2. Calcula el numero de lineas contenidas en este archivo. wc -l _files/secuencias_bash.fastq
  3. Imprime las lineas 4 a 8 del archivo. sed -n '4,8p' _files/secuencias_bash.fastq
  4. Podemos utilizar la función grep -c para contar el número de secuencias de un archivo (de nuevo, sustituya archivo por el nombre de uno de los archivos): grep -c "^@SRR" _files/secuencias_bash.fastq

5.4 Material suplementario