RNA dizileme sonrasında biyoenformatik analiz çeşitliliği oldukça yüksektir. Yapılabilecek analizlerden biri olan Hiyerarşik Kümeleme Analizi (hierarchical clustering), genleri birbirlerine olan uzaklıklarına göre (Öklid Uzaklığı, Manhattan Uzaklığı vb.) gruplandırarak, gen ifadelerindeki benzerlikleri belirlemek ve ilişkilerini görselleştirmek için başvurulan bir analizdir.

Hiyerarşik kümelemenin en yaygın biçimi, her veri noktasından kendi kümesi olarak başlayıp bunları yinelemeli olarak daha büyük kümeler veya “küme”lerde birleştirerek, verileri kullanıcı girdisi olmadan bir ağaç yapısı halinde düzenleyen aşağıdan yukarıya kümelemeli bir yaklaşımdır.

Araştırmacı K değişkenini ayarlayarak, verilerle ulaşmak istediği ayrıntı düzeyini belirleyebilir. Her iki yaklaşım için de kullanıcı, veri noktalarının benzer olarak kabul edildiği mesafe ölçüsünü belirtmelidir. Tipik olarak, Pearson korelasyonu kullanılır ve bu, genellikle RNA-sekans analizi için tasarlanmış yazılımda varsayılandır. Her iki yaklaşım da yaygın olarak kullanılmaktadır ve her ikisi de araştırmacının benzer ifade modellerini sergileyen gen gruplarını tanımlamasına yardımcı olarak daha ileri analizlere izin verir. Kümeler daha sonra fonksiyonel zenginleştirme analizi için girdi olarak kullanılabilir

Hiyerarşik Kümeleme Analizi
Hiyerarşik Kümeleme Analizi

Neden RNA-seq Verilerinde Kümeleme Kullanıyoruz?

RNA-sekans verilerinin kümelenmesi, genlerin denetimsiz bir şekilde mesafelerine göre gruplandırılmasıyla gen ekspresyon modellerini tanımlamak için kullanılabilir. Kümeleme RNA-seq verileri, kullanıcının gen grupları arasındaki ilişkileri düzenlemesine ve görselleştirmesine ve daha fazla değerlendirme için belirli genleri seçmesine olanak tanıyan keşif aracı olarak kullanılır.

Hiyerarşik Kümeleme

En yaygın olarak kullanılan hiyerarşik kümeleme yaklaşımı, kümeleri (orijinal olarak tek tek veri noktalarından oluşan) daha büyük kümeler veya “kümeler” halinde yinelemeli olarak birleştiren bir aglomeratif veya aşağıdan yukarıya kümeleme biçimidir.

K-Kümeleme

Veri noktaları, küme ortalamasına minimum mesafeye göre yinelemeli olarak kümelere bölünür. Küme sayısı (k) araştırmacı tarafından belirlenir. Araştırmacıya ideal k değerini belirlemede yardımcı olmak için Silhouette gibi çeşitli araçlar mevcuttur , ancak bir miktar öznellik kalır.

Kaynaklar:

  1. Murat Koptur, Akdeniz Üniversitesi, RNA Dizileme Veri Analizi, 2020
  2. Clarissa M. Koch, Stephen F. Chiu, Mahzad Akbarpour, Ankit Bharat, Karen M. Ridge, Elizabeth T. Bartom, and Deborah R. Winter, American Journal of Respiratory Cell and Molecular Biology, A Beginner’s Guide to Analysis of RNA Sequencing Data, 2018