- Indata:Encellig RNA-sekvensdata (räknematris)
- Kvalitetskontroll (QC):Ta bort celler och gener av låg kvalitet
- Datanormalisering:Normalisera data för att korrigera för tekniska fördomar
2. Klustring
- Utför klustring på normaliserade data för att identifiera cellkluster
- Olika klustringsmetoder kan användas (t.ex. k-means, hierarkisk klustring, Louvain)
3. Identifiering av markörgen
- För varje kluster:
- Beräkna medeluttrycket av varje gen över celler i klustret
- Jämför medeluttrycket av gener i klustret med det i andra kluster
- Identifiera gener som är mycket uttryckta i klustret jämfört med andra kluster
4. Markörgenvalidering
- Ytterligare kriterier kan tillämpas för att välja markörgener:
- Vikningsförändring:Tänk på gener med hög veckförändring mellan klustret och andra kluster
- Statistisk signifikans:Använd statistiska tester (t.ex. t-test, Wilcoxon-test) för att bedöma signifikansen av uttrycksskillnader
- Specificitet:Se till att markörgener uttrycks selektivt i klustret av intresse
5. Tolkning och visualisering
- Analysera funktionerna och vägarna associerade med de identifierade markörgenerna
- Generera värmekartor, vulkanplottar eller andra visualiseringar för att presentera markörgenerna och deras uttrycksmönster
6. Validering i oberoende datamängder (valfritt)
- För att öka förtroendet, validera de identifierade markörgenerna i en oberoende datauppsättning om tillgänglig.