自 Ralph & Coop 关于欧洲血统同一性模式的论文以来,我一直热切地想看看意大利有什么新发现。回想一下,在那篇论文中,作者指出,意大利尤其在欧洲国家中,表现出大量的深层人口结构。 虽然血缘关系网将许多欧洲国家和地区联系在一起,但在意大利,存在着可以追溯到古代的深刻的地区差异。此外,最近 撒丁岛 也受到了关注,可能对欧洲民族的起源特别有启发性。直到最近,我才对撒丁岛样本在 HGDP 数据集中的效用持适度怀疑态度。毕竟,它是一个孤立的岛屿,可能受到低有效人口规模特性的影响。但事实证明,现代撒丁岛人可能是我们今天最接近 5000 年前南欧人的近似值。PLoS ONE 上的一篇新论文拥有大量的意大利人样本,并采用了标准技术来确定人口结构。基于全基因组数据的意大利人口遗传结构概述
尽管人们普遍认为欧洲在遗传水平上相对同质,但高通量基因分型技术的进步已经解决了几个梯度,能够精确地定义不同的地理区域。当将北部和南部欧洲群体分开考虑时,存在明显的遗传差异。国内遗传差异也很明显,尤其是在芬兰,以及在其他欧洲人口中程度较轻。
在这里,我们展示了首次使用 1,014 名意大利人的 125,799 个全基因组单核苷酸多态性 (SNP) 数据进行的分析,这些意大利人具有广泛的地理覆盖范围。 我们通过主成分分析和基于模型的个体祖源分析表明,撒丁岛的现有人口在遗传上与意大利大陆和西西里岛有明显区别,并且在意大利半岛的现有人口中可以检测到一定程度的遗传分化。北部意大利和南部意大利之间的配对 FST 统计数据约为 0.001,而北部意大利与具有北欧和西欧血统的犹他州居民 (CEU) 之间的 FST 统计数据约为 0.002。意大利人口还揭示了精细的遗传亚结构,通过基因组膨胀(撒丁岛 vs. 北部意大利 = 3.040,北部意大利 vs. CEU = 1.427)得到强调,警告协会研究中隐藏的关联和人口亚结构可能产生的混淆效应。

SNP 的数量对于他们尝试的任务来说相当不错。我的个人经验是,对于 ADMIXTURE 或 PCA 等聚类算法,当你看国内差异时,超过 100,000 个 SNP 就会出现边际效益递减。样本量也相当大,尽管作者承认他们本可以对意大利中部进行更密集的覆盖。对于意大利,他们汇集了大量数据集,包括来自生物医学研究的数据。自然,他们也纳入了 HGDP 和 HapMap 意大利人的数据。在方法学方面,PCA 确实很难读。我不太确定标签是否正确(请参阅图 1 进行核实)。所以我只报告 ADMIXTURE 的结果。我看了看方法,确实有些担忧。我不清楚他们是否多次运行了 ADMIXTURE K 2 到 10。现实情况是,你应该。这是因为 ADMIXTURE 对种子参数的值敏感(你应该将其从默认值更改,并允许它从计算机时间伪随机生成),并且当你进行交叉验证等统计检查时,该值本身可能因运行而异!我的意思是,一次 ADMIXTURE 运行可能告诉你 K = 4 是最佳拟合,但另一次运行可能告诉你 K = 6 是最佳拟合。这种情况发生在我身上过。我曾经对一个数据集运行了多达 K = 20 的 20 次,交叉验证值本身在不同运行中随 K 值显示出相当大的差异(但有些 K 值的值似乎非常稳定,所以我对该 K 的拟合更有信心)。此外,有一段话让我有点好奇,作者对所使用的聚类技术的理解有多清晰,以及它们告诉我们什么(和不告诉我们什么)
目前撒丁岛人口中,平均北欧血统的混合比例为 14.3%,其中一些个体表现出非常低的北欧血统(268 名个体中有 36 名低于 5%,占样本的 13%)。
我对于将北欧的模式成分标记为“北欧血统”会谨慎一些。我已经对这个问题发表过很多文章,说明生成与真实生物世界对应性不大的统计制品有多容易。当你拥有两个遗传差异非常显著的种群,并且它们几乎立即聚集成一个独立的群体时,这还是有区别的。例如,非洲人和欧洲人。但当你拥有欧洲内部的变异,并且这些群体没有以排他性的方式分布时,就应该警惕将它们实体化为真实的种群。“北欧模式聚类”可能听起来不那么顺口,但它精确且不虚假。那么结果如何呢?没有什么太令人惊讶的,我邀请你自己仔细阅读这些数字并阅读补充材料。我确实注意到,意大利内部移民的证据在这些结果中非常明显。地理起源在北部的人经常与南部人(即南部聚类)聚集在一起,但起源在南部的人很少似乎与北部人聚集在一起。 在 20 世纪,有大量从中意南部到都灵等北部城市的移民潮,而墨索里尼鼓励南部居民迁移到德语区东北部。相比之下,很少有北方人南迁。总之,许多意大利北部的人的祖父母或曾祖父母来自意大利南部。而很少有意大利南部人的祖父母或曾祖父母来自意大利北部(尽管他们确实存在,我最近遇到过一个年轻人,他的母亲是那不勒斯人,她的父母来自威尼托地区)。此外,我很好奇撒丁岛人似乎表现出一定程度的遗传同质性。这让许多人感到惊讶,因为撒丁岛的历史,曾先后被迦太基、罗马和汪达尔统治。我有一个简单的解释:撒丁岛的海岸线是疟疾肆虐的。现代撒丁岛人口是土著山区居民的后代,他们周期性地重新定居沿海城市。我想指出,如果你看看 ADMIXTURE 的运行结果,莫扎比特人的撒丁岛模式成分的比例几乎与意大利大陆人一样高。这并不意味着遗传距离相等;莫扎比特人的主导聚类具有更高的距离。但这确实向我表明,在铜石器时代,地中海西部可能由一个类似撒丁岛的人口主导,后来被新来者取代和同化。最后,我不知道在哪里可以找到这些数据。这很可惜,因为这是如此庞大的数据集。但我特别注意到了部分数据来自生物医学领域,因为我怀疑这会使它们难以进入公共领域。



