Single cell RNA seq

class: title-slide, middle, center
background-image: url(data:image/png;base64,#figures/Slide1.png) 
background-position: 90% 75%, 75% 75%, center
background-size: 1210px,210px, cover

#### <span class="author">Dra. Evelia Coss</span>
#### <span class="date">11/marzo/2026</span>
]

---

---

## Repaso: Secuenciación de RNA

.pull-left[
<img src="data:image/png;base64,#figures/singlecell-v.-bulk-image.png" width="100%" style="display: block; margin: auto;" />

.footnote-right[ 
Imagen tomada de: [Yan *et al.* 2024. *Int J Biol Sci*](https://doi.org/10.7150/ijbs.92525)]
]

.pull-right[
- **Bulk RNA-seq:** mide expresión promedio en un tejido; útil para detectar cambios globales, pero oculta heterogeneidad celular.
  + **Insuficiente para:** estudios de desarrollo temprano o tejidos complejos como el cerebro.

]

---

## Single cell RNA-seq (**scRNA-seq**)

.pull-left[
- Primera publicación en 2009 ([Tang *et al*, 2009](https://www.nature.com/articles/nmeth.1315))
- Popularidad en [2014](https://www.nature.com/articles/nmeth.2801)
- Estimar la distribución de los **niveles de expresión de cada gen en una población celular**.
- Análisis a **nivel de célula individual**
- Permite revelar **tipos celulares** (poblaciones raras) 
- Analizar las **dinámicas temporales y heterogeneidad**.
]

.pull-right[
<img src="data:image/png;base64,#figures/scRNA-overview.jpeg" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[ 
Imagen tomada de: [Single cell RNA sequencing](https://learn.gencore.bio.nyu.edu/single-cell-rnaseq/)]

---

## **Heterogeneidad:** Diversidad interna de un sistema o de un conjunto

.pull-left[
- 🔬 **No todas las células son iguales:** incluso dentro de un mismo tejido, existen diferencias en *tipos celulares, estados funcionales y niveles de expresión génica*.

- 🧬 **Variabilidad genética y transcriptómica:** cada célula puede expresar distintos genes o cantidades de RNA, reflejando funciones específicas.

- 🩺 **Relevancia en enfermedad:** la heterogeneidad celular explica por qué un tumor, por ejemplo, contiene subpoblaciones con distintos comportamientos (algunas más agresivas, otras más sensibles a tratamiento).
]

<img src="data:image/png;base64,#figures/UMAP_ex1.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[ 
Imagen tomada de: [Explicación completa de un UMAP](https://biostatsquid.com/umap-simply-explained/)]

---

- Descubrir **tipos celulares nuevos o raros**.
- Identificar **composición celular diferencial** entre sano vs. enfermo.
- Comprender la **diferenciación celular** en desarrollo y regeneración.
- Analizar **plasticidad y dinámicas de expresión** en células individuales.
- Construir **atlas celulares/genéticos** → catálogo completo de diversidad celular.
- Aplicaciones en **investigación básica y medicina personalizada**.
]

.pull-right[
<img src="data:image/png;base64,#figures/overview.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[ 
Imagen tomada de: [Kageyama, *et al*. 2018. *Front. Neurosci* ](https://doi.org/10.3389/fnins.2018.00315)]

---

## Variaciones de scRNA-seq

| Tipo de análisis         | Qué aporta                          |
|--------------------------|--------------------------------------|
| Unimodal (solo RNA)      | Heterogeneidad en expresión génica   |
| Multimodal (RNA + otros) | Regulación, proteómica, contexto     |
| Trajectories             | Dinámica temporal de procesos        |
| Interacciones celulares  | Comunicación y redes funcionales     |
| Integración datasets     | Comparación entre condiciones        |

---

---

## Flujo experimental de scRNA-Seq

.footnote-right[
Imagen tomada de: [Biorender](https://www.biorender.com/template/single-cell-rna-sequencing-scrna-seq)]

---

## Variaciones en las plataformas de scRNA-seq

Las plataformas varían en:
- **Rendimiento:** número de células que pueden analizarse.
- **Cobertura de transcripción:** si se basan en etiquetas *3’/5’* o en transcripción completa.
- **Resolución:** nivel de detalle por célula; algunas permiten detectar *isoformas y splicing*, otras solo cuantificación de genes.
- **Escalabilidad:** capacidad de procesar miles o cientos de miles de células en una sola corrida.

.content-box-gray[
- **3’ end (extremo 3’):**
  + Se captura el extremo final del mRNA, donde está la **cola poli-A**.
  + Es la estrategia más común en plataformas como 10x Genomics Chromium.
  + Limitación: no se obtiene la secuencia completa del transcrito, por lo que no se pueden estudiar isoformas ni splicing con detalle.

- **5’ end (extremo 5’):**
  + Se captura el extremo inicial del mRNA (inicio de la transcripción, TSS).
  + Útil para estudios de receptores de células inmunes (ej. TCR, BCR).
]

.footnote-right[ 
[Wellcome Sanger](https://www.singlecellcourse.org/introduction-to-single-cell-rna-seq.html)]

---

### Tecnologías de scRNA-seq

| Plataforma / Método                  | Rendimiento (número de células) | Cobertura de transcripción       | Resolución                                   | Costo relativo | Comentarios |
|--------------------------------------|---------------------------------|---------------------------------|----------------------------------------------|----------------|-------------|
| **10x Genomics Chromium (droplet)**  | Miles a cientos de miles        | Lectura parcial (*3’/5’ tags*)  | Buena para cuantificación de genes, limitada en isoformas | Moderado por célula | Estándar actual para estudios poblacionales amplios |
| **SMART-seq2/3 (well-based)**        | Centenas a miles                | Transcripción completa          | Alta resolución, detecta isoformas y splicing | Alto por célula | Ideal para estudios detallados de pocas células |
| **Micromanipulación / Dilución**     | Decenas                         | Transcripción completa (según protocolo) | Muy alta, pero poco reproducible | Alto | Útil para células raras o frágiles |
| **BGI/MGI DNBSEQ**                   | Similar a Illumina              | Parcial o completa según librería | Comparable a Illumina | Menor costo | Alternativa económica, menos extendida globalmente |
| **Oxford Nanopore (ONT)**            | Centenas a miles                | Lectura larga (transcripción completa) | Excelente para isoformas y splicing | Variable | Menor precisión en cuantificación, pero valioso para diversidad de transcriptos |

---

### Tecnologías de scRNA-seq

.footnote-right[ Imagen tomada de:
[France Genomique](https://www.france-genomique.org/technological-expertises/single-cell/scrnaseq/?lang=en)]

---

## Sistema de microfluidos de [10x Genomics](https://www.10xgenomics.com/products/universal-three-prime-gene-expression)

.footnote-right[
Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]

---

## Barcoding en la secuenciación con [10x Genomics 3’](https://www.10xgenomics.com/products/universal-three-prime-gene-expression)

.pull-left[
- **Cell barcodes (CB):** cada célula recibe un identificador único, lo que permite distinguir de qué célula proviene cada transcrito.
- **UMIs (Unique Molecular Identifiers):** cada molécula de ARN dentro de la célula recibe un identificador adicional para evitar contar duplicados generados por la PCR.
- **Captura en el 3’ end:** se utilizan oligonucleótidos con **poli-T** que hibridan con la cola poli-A del mRNA.

<img src="data:image/png;base64,#figures/10xgenomics_logo.png" width="30%" style="display: block; margin: auto;" />
]

]

.footnote-right[Imagen tomada de:
[Intro to scRNA-seq](https://umich-brcf-bioinf.github.io/workshop-intro-single-cell/release/html/00A-OrientingOnScRNASeq.html)]

---

## Secuenciación En 10x Genomics

- Generalmente se usa *paired-end*.
  + **Read 1:** contiene CB + UMI.
  + **Read 2:** contiene la secuencia del transcrito.
- Lista de los barcodes válidos: [Whitelist file](https://www.singlecellcourse.org/processing-raw-scrna-seq-sequencing-data-from-reads-to-a-count-matrix.html#chromium-versions-and-cell-barcode-whitelists)

.footnote-right[
[Intro to scRNA-seq](https://umich-brcf-bioinf.github.io/workshop-intro-single-cell/release/html/00A-OrientingOnScRNASeq.html); [Processing Raw scRNA-Seq Sequencing Data: From Reads to a Count Matrix](https://www.singlecellcourse.org/processing-raw-scrna-seq-sequencing-data-from-reads-to-a-count-matrix.html); Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]

---
class: inverse, center, middle

---

| Base de datos | Organismo/Tema principal | Características clave | Limitaciones |
|-------------------|------------------------------|---------------------------|------------------|
| [**Human Cell Atlas (HCA)**](https://data.humancellatlas.org/) | Humano | Proyecto global para mapear todos los tipos celulares humanos. Datos abiertos, estandarizados, con metadatos ricos. | En construcción; cobertura desigual entre tejidos. |
| [**scRNASeqDB (UTHealth)**](https://bioinfo.uth.edu/scrnaseqdb/) | Humano | 36 datasets de GEO, 8,910 células, 174 grupos celulares. Incluye visualizaciones (heatmaps, boxplots), correlaciones y anotaciones GO. | Limitado en tamaño comparado con HCA; centrado en humanos. |
| [**Broad Institute Single Cell Portal**](https://singlecell.broadinstitute.org/single_cell) | Humano y modelos | Portal interactivo con datasets de múltiples proyectos, herramientas de exploración y descarga. | Requiere familiaridad con su ecosistema; algunos datos restringidos. |
| [**CellxGene (Chan Zuckerberg Initiative)**](https://cellxgene.cziscience.com/) | Humano y ratón | Plataforma interactiva para explorar datasets masivos, con filtros y visualizaciones. | Necesita conexión estable; algunos datasets aún no integrados. |
| [**Single Cell Expression Atlas (EMBL-EBI)**](https://www.ebi.ac.uk/gxa/sc/experiments) | Multiespecies | Datos integrados de múltiples estudios, con herramientas de búsqueda por gen, condición o tejido. | Curación depende de estándares de cada estudio. |

---

## Datasets en Bioconductor

| **Paquete**            | **Contenido/Datasets**                                                                 | **Características clave**                                   | **Notas** |
|-------------------------|----------------------------------------------------------------------------------------|-------------------------------------------------------------|-----------|
| [**TENxPBMCData**](https://www.bioconductor.org/packages/release/data/experiment/html/TENxPBMCData.html)        | 9 datasets de PBMC (pbmc68k, pbmc33k, pbmc3k, pbmc6k, pbmc4k, pbmc8k, pbmc5k-CITEseq). | Usa HDF5Array para manejar datos grandes sin cargarlos en RAM. | Ideal para enseñanza y benchmarking en humanos. |
| [**TENxBrainData**](https://www.bioconductor.org/packages/release/data/experiment/html/TENxBrainData.html)       | Datos de cerebro humano y ratón generados con 10x Genomics.                            | Formato *SingleCellExperiment* estandarizado.               | Útil para estudios neurobiológicos. |
| [**TENxGenomicsData**](https://www.bioconductor.org/packages//release/data/experiment/manuals/TENxPBMCData/man/TENxPBMCData.pdf)    | Colección de paquetes en Bioconductor con datasets de distintos tejidos.               | Interoperable con *SingleCellExperiment*.                   | Recurso general para exploración. |
| [**scRNAseq**](https://www.bioconductor.org/packages/release/data/experiment/html/scRNAseq.html)            | Colección amplia de datasets de scRNA-seq de múltiples fuentes, incluyendo 10x.        | Compatible con *SingleCellExperiment*.                      | No limitado a 10x, incluye otras tecnologías. |
| [**HCAData**](https://www.bioconductor.org/packages/release/data/experiment/html/HCAData.html)             | Datasets del Human Cell Atlas (HCA) integrados en Bioconductor.                        | Acceso directo a datos curados del HCA en formato estándar. | Excelente para estudios de atlas celular humano. |

---

---

## Diseño de la corrida de secuenciación

**Propósito:** Evitar introducir sesgos técnicos que afecten el procesamiento de los datos.

- En plataformas como *10x Genomics*, las células se encapsulan en microgotas con oligos que incluyen barcodes únicos.
  + Para una sola gota (droplet), todos los códigos de barras de las células coincidirán. Los códigos de barras de las células serán distintos en todas las gotas.
- Esto permite **mezclar múltiples células en una misma corrida** sin perder la identidad de cada una.
- Para comparar condiciones, se puede usar **hashing o multiplexing de muestras** (ej. CITE-seq, MULTI-seq), donde cada muestra recibe un código adicional.
- Minimizar *batch effect* incluyendo condiciones en la misma corrida.
- **Corrección computacional** posterior si hay múltiples lotes.

---

## *Batch effect*

- Aunque cada célula tiene su barcode, sigue existiendo el riesgo de sesgos entre corridas o lotes de preparación.
- Lo ideal es procesar todas las muestras en la misma corrida de secuenciación.
- Si no es posible, se recomienda balancear condiciones en cada lote y aplicar **correcciones computacionales** (ej. `Seurat, Harmony, Liger`).
]

<img src="data:image/png;base64,#figures/batch_effect.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de:
[Batch Effect in Single-cell RNA-seq](https://www.elucidata.io/blog/batch-effect-in-single-cell-rna-seq-frequently-asked-questions-and-answers)]

---

---

## Pipeline general

.left-col[
1. Preprocesamiento
2. Control de Calidad (QC)
3. Normalización
4. Imputación (opcional)
5. Selección de atributos (feature selection)
6. Reducción de dimensiones
7. Clustering y anotación de células
8. Integración de conjuntos de datos
9. Análisis downstream (dependiendo del objetivo)
]

<img src="data:image/png;base64,#figures/scRNAseq_workflow_v2_p1.png" width="60%" style="display: block; margin: auto;" />
]

.right-col[
<img src="data:image/png;base64,#figures/scRNAseq_workflow_v2_p2.png" width="60%" style="display: block; margin: auto;" />
]

.footnote[Imagen tomada de:
[Best practices for single-cell analysis across modalities](https://www.nature.com/articles/s41576-023-00586-w)]

---

## Paso 1. Preprocesamiento

- A. **Alineamiento y conteo**: `Cell Ranger (count), STARsolo, Subread cellCounts`.
- B. **Pseudoalineamiento y conteo **: `Salmon - Alevin, kallisto - Bustools`,

- Herramienta estándar: `Cell Ranger` (10x Genomics).
- Alineador usado: `STAR` (splicing-aware).
- Clasificación de lecturas según anotación GTF:
  + ***Exónicas:*** ≥50% de la lectura intersecta un exón.
  + ***Intrónicas:*** no exónicas, pero intersectan un intrón.
  + ***Intergénicas:*** no intersectan exones ni intrones.
  + Sentido/antisentido.
]

.content-box-yellow[
- Si una lectura se alinea a un locus exónico y también a loci no exónicos, se prioriza el exónico.
- Se asigna máxima calidad de mapeo al locus exónico.
]

<img src="data:image/png;base64,#figures/cellranger.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[
[Processing Raw scRNA-Seq Sequencing Data: From Reads to a Count Matrix](https://www.singlecellcourse.org/processing-raw-scrna-seq-sequencing-data-from-reads-to-a-count-matrix.html); [Yu *et al.* 2022. Methods Mol Biol](https://pmc.ncbi.nlm.nih.gov/articles/PMC7771369/); [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]

---

## 📌 ¿Qué es `Cell Ranger`?

.pull-left[
- Software de 10x Genomics para análisis de datos de single-cell RNA-seq y otras aplicaciones.
- Procesa datos crudos provenientes de secuenciadores (FASTQ/BCL) y genera matrices de expresión.
- Incluye múltiples pipelines especializados según el tipo de experimento.

⚙️ Requisitos técnicos
- **Alto consumo de memoria y CPU:** recomendado instalar en servidores o clusters.
- Compatible con Linux (Ubuntu/CentOS).
- Se integra con **Loupe Browser**, herramienta gráfica para explorar resultados.
]

.pull-right[
.content-box-blue[ 
- `cellranger count` → genera matrices de expresión a partir de FASTQ.
- `cellranger vdj` → analiza receptores inmunes (TCR/BCR).
- `cellranger aggr` → combina múltiples muestras y realiza corrección de lotes.
- `cellranger reanalyze` → permite aplicar nuevos parámetros a resultados previos.
- `cellranger multi` → soporta multiplexing de muestras.
]
]

.footnote-right[
[Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#23); [Cell Ranger](https://www.10xgenomics.com/support/software/cell-ranger/9.0?utm_source=copilot.com)
]

---

## Referencias empleadas en `Cell Ranger` (10x Genomics)

- `Cell Ranger` prepara referencias usando el *genoma primario* y filtrando la *anotación GTF* para quedarse solo con genes relevantes
- Filtrado de **biotipos:**
  + Retiene: Protein coding (codificantes de proteínas), Long noncoding RNA (lncRNA), Antisense RNA, Genes de BCR/TCR (V/D/J), 
  + Elimina: Pseudogenes y Small noncoding RNAs (snRNA, miRNA, etc.).

.content-box-blue[
Ejemplo: 2020-A human (GRCh38/GENCODE v32):
- Anotación original: 60,668 genes.
- Después del filtrado: 36,601 genes.
- Esto significa que Cell Ranger descartó pseudogenes y RNAs pequeños, quedándose solo con los biotipos relevantes para scRNA-seq.
]

---

Interpretación de las columnas:

- **Genes before filtering:** número total de genes en la anotación original.
- **Genes after filtering:** genes retenidos tras aplicar los filtros de Cell Ranger (se eliminan pseudogenes y RNAs pequeños, se conservan protein coding, lncRNA, antisense y BCR/TCR).
- El número final de filas en la matriz de expresión dependerá de esta columna.

| Cell Ranger Reference | Species | Assembly/Annotation     | Genes before filtering | Genes after filtering |
|-----------------------|---------|-------------------------|------------------------|-----------------------|
| 2020-A                | human   | GRCh38 / GENCODE v32    | 60,668                 | 36,601                |
| 2020-A                | mouse   | mm10 / GENCODE vM23     | 55,421                 | 32,285                |
| 3.0.0                 | human   | GRCh38 / Ensembl 93     | 58,395                 | 33,538                |
| 3.0.0                 | human   | hg19 / Ensembl 87       | 57,905                 | 32,738                |
| 3.0.0                 | mouse   | mm10 / Ensembl 93       | 54,232                 | 31,053                |
| 2.1.0                 | mouse   | mm10 / Ensembl 84       | 47,729                 | 28,692                |
| 1.2.0                 | human   | GRCh38 / Ensembl 84     | 60,675                 | 33,694                |
| 1.2.0                 | human   | hg19 / Ensembl 82       | 57,905                 | 32,738                |
| 1.2.0                 | mouse   | mm10 / Ensembl 84       | 47,729                 | 27,998                |

---

---

## Cell Ranger: Outputs

.pull-left[
Después de correr el comando `cellranger count`, se crea una carpeta con el nombre que diste en el flag `--id`. Dentro de esa carpeta está el subdirectorio `outs/`, que es donde se guardan todos los resultados.

- **filtered_feature_bc_matrix/** → matriz de expresión filtrada (solo células válidas).
- **raw_feature_bc_matrix/** → matriz sin filtrar (incluye barcodes de fondo).
- **web_summary.html** → reporte interactivo con métricas de calidad.
- **metrics_summary.csv** → tabla con estadísticas clave (lecturas por célula, saturación de UMIs, etc.).
- **cloupe.cloupe** → archivo para abrir en Loupe Browser y explorar clusters.
]

.pull-right[
<img src="data:image/png;base64,#figures/CellRanger_outputs.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#34)
]

---

## Conteo de Droplets (gotas)

- El resultado de estas herramientas es una matriz de señal atribuida a **células y genes** (normalmente conteos de lecturas).
- `cellranger count`
- Esta matriz sirve como entrada para el procesamiento posterior.
- 💾 La matriz de salida suele almacenarse en formatos comprimidos como:
  + **MEX (Market Exchange Format)**
  + **HDF5 (Hierarchical Data Format)**
]

.pull-right[
<img src="data:image/png;base64,#figures/countingDrops.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[
[Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]
---

## Formato **MEX (Market Exchange Format)**

.pull-left[
- Es una manera estándar y ligera de almacenar **matrices de expresión génica** (UMIs o lecturas) asociadas a genes/transcritos y barcodes de células.
- [Cell Ranger Feature Barcode Matrices (MEX Format)](https://www.10xgenomics.com/support/software/cell-ranger/latest/analysis/outputs/cr-outputs-mex-matrices)
- Formato de texto plano/comprimido
- Empleado en `Cell Ranger` de 10x Genomics.
- Separación clara: 
  + **filas** = genes/transcritos (features)
  + **columnas** = células/barcodes
]

.pull-right[
.content-box-blue[
- Estructura de archivos:
  + `matrix.mtx` → archivo en formato Matrix Market que contiene la matriz dispersa de conteos.
  + `barcodes.tsv` → lista de barcodes (identificadores de células).
  + `features.tsv` (o genes.tsv) → lista de genes o transcritos.
]  
  
<img src="data:image/png;base64,#figures/Mexformat.png" width="60%" style="display: block; margin: auto;" />
]

.footnote-right[
[Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]

---

## `features.tsv.gz`

.pull-left[
- **ID del feature** → normalmente el identificador del gen (por ejemplo, ENSG00000141510).
- **Nombre del feature (gene_id del GTF)** → el símbolo del gen o el nombre de la molécula (por ejemplo, TP53, BRCA1).
- **Tipo de feature** → aquí es donde se especifica si el feature corresponde a:
 + Gene Expression
 + Antibody Capture
 + CRISPR Guide Capture
 + Multiplexing Capture
 + CUSTOM

]

``` bash
gzip -cd filtered_feature_bc_matrix/features.tsv.gz

ENSG00000141510       TP53         Gene Expression
ENSG00000012048       BRCA1        Gene Expression
ENSG00000139687       RB1          Gene Expression
CD3_GCCTGACTAGATCCA   CD3          Antibody Capture
CD19_CGTGCAACACTCGTA  CD19         Antibody Capture
```
]

.footnote-right[
[Cell Ranger Feature Barcode Matrices (MEX Format)](https://www.10xgenomics.com/support/software/cell-ranger/latest/analysis/outputs/cr-outputs-mex-matrices)
]
---

## Formato **HDF5 (Hierarchical Data Format)**/Loom

.pull-left[
- ⚡ Formato optimizado para *big data* → diseñado para manejar datasets muy grandes de manera eficiente.
- 📊 Contiene la información de la matriz junto con datos de **filas y columnas (barcodes de células y features de genes/transcritos).**
- *🔄 Versión Loom* → una variante popular del HDF5 en transcriptómica de célula única.
- 💻 Eficiente programáticamente → permite acceso rápido y flexible desde lenguajes como Python o R mediante librerías especializadas.
- 📦 Almacenamiento **binario jerárquico** → más compacto que texto plano y con mejor rendimiento en lectura/escritura.
- [Cell Ranger Molecule Info (HDF5 File)](https://www.10xgenomics.com/support/software/cell-ranger/latest/analysis/outputs/cr-outputs-molecule-info)
]

.pull-right[
  
<img src="data:image/png;base64,#figures/Loom_components.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[
[Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#11)
]

---

---

## Paso 2. Control de Calidad (QC)

- **Número de genes detectados por célula**
   + Filtrar células con muy pocos genes (posibles células muertas o vacías).
   + También descartar células con un número excesivo de genes (posibles dobles o multipletes).
- **Número total de lecturas/UMIs por célula**
   + Células con muy pocas lecturas suelen ser ruido.
   + Células con demasiadas lecturas pueden ser dobles encapsulados.
- **Porcentaje de genes mitocondriales**
   + Un alto porcentaje indica células dañadas o en apoptosis.
   + Se suele aplicar un umbral (ej. >10–20%).
- **Porcentaje de genes ribosomales**
   + Un exceso puede indicar sesgo técnico o células con actividad transcripcional anómala.
- **Detección de multipletes/dobletes**
   + Herramientas como `DoubletFinder o Scrublet` ayudan a identificar células que en realidad son mezclas de dos.
- **Distribución de células por muestra/lote**
   + Verificar que no haya sesgos de batch antes de la integración.

---

## Detección de douplets y multiplets

- ¿Cuántas gotas (droplets) traen más de una célula? (douplets 🍪🍪 o multiplets 🍪🍪🍪).
- ¿Cuántas células murieron durante el proceso de secuenciacion?

.content-box-blue[
- **A.** Cada gota debe contener **una sola perla y una sola célula sana**. 
- **B.** Gota con **una perla**, pero **sin una célula**.
- **C.** **Dos microesferas** en la misma gota con **una célula**.
- **D.** A veces, **dos células** se unen mediante **una sola perla en una gota**, creando un *doblete (douplet)*.
- **E.** Apoptosis
- **F.** Descomposición de las células en la suspensión. El mRNA de las células reventadas se combinan en el flujo acuoso para crear una mezcla de RNA ambiental
]

.footnote-right[Imagen tomada de: [Intro to scRNA-seq](https://umich-brcf-bioinf.github.io/workshop-intro-single-cell/release/html/00A-OrientingOnScRNASeq.html)
]

---

## Ejemplo: Reporte de Cell Ranger

.pull-left[
### Calidad de mapeo y secuenciación
El *dataset pbmc4k* proviene de **células mononucleares de sangre periférica (PBMCs) humanas**, con un total de **4,340 células con buena calidad.** Para más información consulta la página web en [10X Genomics](https://cf.10xgenomics.com/samples/cell-exp/2.0.1/pbmc4k/pbmc4k_web_summary.html).

- **Mediana de 1,235 genes por célula**
- **Saturación de secuenciación muy alta (90.5%):** Esto indica que la librería está bien representada y que el análisis downstream puede hacerse con confianza
- Cell Ranger v2.0.1
]

<img src="data:image/png;base64,#figures/CellRanger_reporte.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [dataset pbmc4k de 10X Genomics](https://cf.10xgenomics.com/samples/cell-exp/2.0.1/pbmc4k/pbmc4k_web_summary.html)
]

---

## Sample panel

.pull-left[
En el panel de información de la muestra dentro del reporte de cellranger count (por ejemplo en el archivo web_summary.html), lo primero que se revisa son los metadatos básicos del análisis. Estos incluyen:

- *🆔 Sample ID* → el nombre de la muestra asignado mediante el flag --id al correr cellranger count.
- *Chemistry* → la química de 10x Genomics utilizada (ej. Single Cell 3’, Single Cell 5’, Multiome, etc.).
- *📚 Reference Path y Transcriptome* → ruta y referencia genómica/transcriptómica empleada para mapear las lecturas.
- *🔢 Pipeline Version* → versión de Cell Ranger usada para el análisis, importante para reproducibilidad y compatibilidad.
]

<img src="data:image/png;base64,#figures/samplePanel.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#41)
]

---

## Sequencing panel

.pull-left[
- *📚 Number of reads* → número total de lecturas pareadas en la librería.
- *🧩 Valid barcodes* → cantidad de barcodes que coinciden con la lista blanca conocida del kit (aprox. 1 millón posibles).
- *🔢 Valid UMIs* → número de UMIs válidos (no compuestos por una sola base repetida y sin bases desconocidas).
- *📈 Sequencing saturation* → proporción de UMIs únicos válidos frente al total de UMIs válidos; mide qué tan exhaustivo fue el muestreo.
- *🎯 Q30 scores* → evaluación de la calidad de secuenciación para cada tipo de lectura: barcodes, UMIs, índices y lecturas de RNA.
]

<img src="data:image/png;base64,#figures/sequencingPanel.png" width="80%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#42)
]

---

## Sequencing panel

En el panel de métricas clave de Cell Ranger, se destacan dos indicadores muy importantes para evaluar la calidad de la secuenciación y la complejidad de la librería:

- 🎯 **Q30 Bases en lecturas de RNA**
  + Umbral mínimo: > 65% (lo esperado es > 80%).
  + Refleja la **calidad de la secuenciación.**
  + Si el valor es bajo, conviene revisar con el proveedor de secuenciación para descartar problemas técnicos.
  
- 📈 **Sequencing saturation**
  + Umbral mínimo: > 40% (aunque típicamente se observa entre 20% y 80%).
  + Indica la **complejidad de la librería** y qué tan exhaustivo fue el muestreo de UMIs únicos.
  + Si es demasiado bajo, puede sugerir que la librería no fue suficientemente diversa; en algunos casos se considera reconstruir la librería, aunque no siempre es obligatorio.

---

## Mapping panel

.pull-left[
- **🧬 Reads mapped to genome** → número total de lecturas que se alinean al genoma de referencia.
- **🎯 Reads mapped confidently to genome** → lecturas que se alinean de manera única y específica al genoma (sin ambigüedad).
- **📑 Reads mapped confidently to exonic/intronic** → lecturas que se alinean de forma única a regiones *exónicas* (codificantes) o *intrónicas* (no codificantes).
- **🔎 Reads mapped confidently to transcriptome** → lecturas que se asignan de manera única a un gen específico y son consistentes con las uniones de exones (splice junctions).
]

<img src="data:image/png;base64,#figures/sequencingPanel.png" width="80%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#41)
]

---

## Mapping panel

- **🧬 Mapped to Genome > 60%**
  + Lo usual es un rango de 50% ~ 90%.
  + Refleja la tasa de mapeo de lecturas al genoma de referencia.
  + Si el valor es demasiado bajo, conviene revisar la versión del genoma de referencia usada (puede haber incompatibilidad o falta de anotaciones).

- **🎯 Reads Mapped Confidently to Transcriptome > 30%**
  + Lo esperado es > 60% en la mayoría de los experimentos.
  + Indica qué proporción de lecturas se asignan de manera única a genes, respetando las uniones de exones.
  + Si el valor es bajo, puede reflejar problemas con la anotación del transcriptoma (ej. referencia incompleta o desactualizada).
  
.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#45)
]

---

## Cell panel

.pull-left[
- **🧮 Estimated number of cells** → número total de barcodes asociados con al menos una célula (estimación del total de células capturadas).
- **📊 Fraction reads in cells** → fracción de lecturas provenientes de barcodes válidos que están asociadas a una célula y mapeadas al transcriptoma.
- **📈 Median reads per cell** → número mediano de lecturas del transcriptoma por cada célula (barcodes asociados).
- **🧬 Median genes per cell** → número mediano de genes detectados (con al menos un conteo) por célula.
]

<img src="data:image/png;base64,#figures/CellPanel.png" width="80%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Single-cell RNA sequencing ~ Session 1](https://rockefelleruniversity.github.io/scRNA-seq/presentations/slides/Session1.html#46)
]

---

## Cell panel

- **📊 Fraction Reads in Cells > 70% (usualmente > 85%)**
  + Refleja el nivel de contaminación por **RNA ambiental.**
  + Si es menor a 90%, se recomienda considerar correcciones por RNA ambiental (ej. algoritmos como SoupX).

- **📈 Median reads per cell > 20,000/célula y Estimated number of cells entre 500 ~ 10,000**
  + Valores fuera de este rango pueden indicar problemas en la **identificación de células.**
  + Si los valores no son normales, conviene revisar el knee plot (gráfico de rodilla) y re-evaluar el número de células detectadas.
  
---

## knee plot / Gráfica en forma de "codo" (knee):

- **Eje X:** barcodes ordenados por abundancia.
- **Eje Y:** número de UMIs asociados a cada barcode.

.content-box-blue[
Interpretación: 
- Al inicio, los barcodes con muchos UMIs corresponden a células reales.
- Después, la curva cae abruptamente → ese punto de inflexión es el knee point.
- Más allá del knee, los barcodes tienen muy pocos UMIs y suelen ser gotas vacías con RNA ambiente.
]
]

.pull-right[
<img src="data:image/png;base64,#figures/emptyDrops_Fig2.png" width="90%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [Lun *et al*. 2019. *Genome Biology*](https://comunidadbioinfo.github.io/cdsb2023/control-de-calidad.html#:~:text=Lun%20et%20al%2C%20Genome%20Biology%2C%202019); [Processing Raw scRNA-Seq Sequencing Data: From Reads to a Count Matrix](https://www.singlecellcourse.org/processing-raw-scrna-seq-sequencing-data-from-reads-to-a-count-matrix.html); [Droplet processing](https://bioconductor.org/books/3.12/OSCA/droplet-processing.html)
]

---

## Clustering y expresión diferencial

.pull-left[
El reporte incluye proyecciones t-SNE con agrupamientos automáticos (8 clusters principales).

- Cada cluster tiene genes característicos con log2 fold-change (L2FC) significativo. Ejemplos:
  + **Cluster 1:** *LEF1, TCF7, CD27* (linfocitos T).
  + **Cluster 5:** *CD8A, GZMK, PRF1* (células T citotóxicas).
  + **Cluster 7:** *CD14, LYZ* (monocitos).

Esto confirma que el dataset captura la diversidad esperada en PBMCs (linfocitos, monocitos, etc.).

]

.pull-right[
<img src="data:image/png;base64,#figures/CellRanger_reporte_clustering.png" width="100%" style="display: block; margin: auto;" />
]

.footnote-right[Imagen tomada de: [dataset pbmc4k de 10X Genomics](https://cf.10xgenomics.com/samples/cell-exp/2.0.1/pbmc4k/pbmc4k_web_summary.html)
]

---

### ✅ Interpretación general a partir del reporte de Cell Ranger

- **Alta calidad técnica:** buena profundidad, alta saturación, barcodes válidos.
- **Buen número de células:** ~4,300, suficiente para análisis robustos.
- **Diversidad celular clara:** clusters bien definidos con genes marcadores esperados.
- **Conclusión:** el dataset *pbmc4k* es un ejemplo de referencia de datos de scRNA-seq bien generados, ideal para pruebas de análisis y benchmarking.

---

---

<img src="data:image/png;base64,#figures/scRNAseq_workflow_v3_p1.png" width="100%" style="display: block; margin: auto;" />
]

.pull-right[
<img src="data:image/png;base64,#figures/scRNAseq_workflow_v3_p2.png" width="100%" style="display: block; margin: auto;" />
]

.footnote[Imagen tomada de:
[Best practices for single-cell analysis across modalities](https://www.nature.com/articles/s41576-023-00586-w)]

---

---

Respira y coméntame tus dudas.