我有一个介于 0 和 1 之间的正实数矩阵;行代表基因,列代表样本。行数比列数大一个数量级. 我想知道如何在R. 我知道热图是做到这一点的方法之一,但还有其他想法。以下是我想在可视化中强调的几点:
数据:
- 行和列没有顺序(您可能已经意识到);特别是行和列是可交换的。
- 矩阵的条目是介于 0 和 1 之间的正实数。
- 一小部分数据(10% 的行或基因,大约 1000 个)实际上是“有趣的”。
- 该矩阵表示样本中基因更活跃的估计概率。
目标:
- 我想展示:哪些基因更活跃,在哪个样本中。该矩阵有很多行,其中列之间的概率非常相似。
- 我可以订购行(基因)以使模式更清晰。
我的想法:
目前我可以通过选择一个截止值来确定样本中的活性基因(比如) 并以这样的方式排列基因,第一组行是样本 1 中的活性基因,第二组行是样本 2 中的活性基因,...
我也在考虑可视化数据的一个子集,可能是通过采样行。但我没有任何成功。
我知道这些想法可能不是很优雅,但会以一种使模式更易于识别的方式重新排列我的数据。
我知道以前有人问过类似的问题,但我认为我的问题更具体一些,所以希望我能从这个论坛的成员那里得到更好的意见。


