数据的可视化效果很好。有时它会告诉我们一些事情……尽管我们并不总是知道是什么。 Slate 有一个交互式专题,展示了美国糖尿病在各县的增长情况。没有什么特别令人惊讶的。

但是,沿着从埃尔帕索到伊利诺伊-密苏里州边界的梯度线观察。州界线之间的差异很小,但沿边界的持续差异确实说不通。 是州级政策或法规导致了这种情况吗?或者,各州在测量方面存在差异吗?这种奇怪的模式出现在我看到的其他 CDC 数据中。更新:我认为这个谜团在评论中得到了解决。
非常有趣。我怀疑答案与产生县级估计的方式有关。我查看了原始数据来源,即 CDC,然后查看了相关的常见问题解答:http://apps.nccd.cdc.gov/DDT_STRS2/FAQ.aspx#countylevelestimates 其中指出,糖尿病患病率估计来自“CDC 的行为风险因素监测系统 (BRFSS) 和美国人口普查局人口估计计划的数据。BRFSS 是一项持续的、每月进行的、基于州的成人电话调查。该调查提供州特定的信息。”因此,CDC 然后使用一种复杂的统计程序(“间接模型依赖估计”,使用贝叶斯技术和多层泊松回归模型)从州到县的患病率估计。我的猜测是,州级平均值因此会影响县级估计。事实上,常见问题解答中也说明“州作为县级协变量被纳入。”这只是一个猜测,但我认为这很可能是答案。(我应该指出的是,我简要查看了各县失业率的地图,没有看到相同的模式;县失业率必须进行估计,因为在对 60000 个家庭进行的调查中,县级数据不足,但也许 BLS 没有使用州协变量。)













