
左图是从休斯顿的古吉拉特人和丹佛的中国人样本中生成的主成分 1、2 和 3 的三维表示。当这两个人群汇集在一起时,中国人形成了一个非常同质的群体。它们在遗传变异的三个主要解释维度上没有太大差异。相比之下,古吉拉特人确实存在差异。这并不奇怪。在重建印度人口历史的补充材料中,值得注意的是,古吉拉特人确实倾向于在主成分分析中分为两个不同的群体。当你操纵HapMap古吉拉特人数据集时,你会一遍又一遍地看到这个发现。实际上,没有两个等效的群体。更确切地说,有一个“紧密”的群体,我将在我的数据集中将其标记为“Gujarati_B”,另一个群体“Gujarati_A”实际上只是由Gujarati_B群体之外的所有个体组成。即使与其他南亚人口相比,这两个不同的类别仍然存在于HapMap古吉拉特人中。Zack已经确定了这两个群体之间的主要区别:Gujarat_A的一些个体具有更多的“西欧亚”血统。为了在未来更加正式地处理这个问题,我只是根据个体在前两个主成分中的位置,将合并数据集中的个体分配到两个古吉拉特人群体之一。昨天晚上,我运行了 ADMIXTURE K = 2 到 10,使用了 75,000 个 SNP。我还删除了美洲原住民群体,并从 HapMap 中添加了更多的欧洲和东亚样本。以下是 K = 4 时的一些人口:

让我们深入到个人的层面。 这里是古吉拉特个体,以及信德人和我的父母(孟加拉人)。 我按照“欧洲”和“南亚”成分(浅蓝色和绿色,而紫色在巴布亚人中是模态,红色在东亚人中是模态)进行了排序:

ADMIXTURE图与PCA完全一致。 在PCA中,Gujarati_A表现出与欧洲集群的一系列距离,在ADMIXTURE中你也会看到同样的情况。 相比之下,Gujarati_B相对均匀。 那么发生了什么? 我很快就会在Sepia Mutiny上发布类似的内容。 但我猜测Gujarati_B是Patel的一个子集。 换句话说,它们在基因上是截然不同的jati。 我怀疑 Gujarati_A 是来自许多不同jatis的更多样化的群体。 这重要吗? 我相信是的。如果Gujarati_B是一个独特的民族社会群体,是古吉拉特人的一个子集,那么它们可能不如Gujarati_A那样适合作为南亚医学遗传学的代表。 更具体地说,Gujarati_B可能具有相对高频率的罕见疾病等位基因,因为它们是一个近亲繁殖的氏族。 相比之下,虽然 Gujarati_A 可能表现出南亚同族婚姻的所有特征,但如果它们是更多的不同群体,那么它们将拥有各种不同的罕见等位基因。 他们共同拥有的基因可能更普遍存在于南亚。













