在互联网的。com时代,一家名为Alexa的公司开始收集用户访问网站的统计数据,他乐动体育官网下载们在浏览器中安装了一个插件。作为该集合的一部分,Alexa将这些数据汇总成互联网上“前100万个”网站的集合——他们的插件用户请求最多的域名。然后,他们将该列表提供给互联网社区使用。
因为它是可用的,尤其是因为它是可用的免费的,“Alexa前百万这个列表在互联网上被广泛使用。在安全领域,进入Alexa前百万榜单通常被用来代表一个域名是否应该被视为默认“安全”。
背后的原因通常是这样的:
DomainTools曾经在Iris中提供了一个域名的Alexa排名作为一个指标,帮助调查人员自己进行这种计算。
亚马逊旗下的Alexa宣布,他们将从2022年5月1日起停止Alexa前百万榜单。这让我们有点为难:我们要继续使用“冻结”/过时的列表吗?我们要换别人的名单吗?我们会完全放弃Alexa排名吗?或者我们尝试在互联网上生成我们自己的顶级域名排名?
我们选择了最后一个选择:生成我们自己的。我们最近收购了远见安全公司它的DNSDB中有大量关于DNS请求的信息,所以我们有信心可以构建一个很好的替代品。
当然,这从来没有那么容易。
当我们开始研究是否生成我们自己的列表时,我们遇到了一个基本问题:前100万个域名依据什么标准?这个问题有很多答案,每个答案都有一个有趣的偏向:
有这么多选择,该选哪个呢?从我们的观点来看,最好的答案是“以上都是”。
我们不是第一个思考这个问题的人。2019年,一组研究人员研究了为研究目的建立顶级域名列表,以及确定这类列表的问题(流失,错误分类一个流行但恶意的域名等)。他们的论文分析了各种“顶级域名”列表之间以及与Alexa之间的重叠,并得出结论,组合方法最适合他们的目的。我们同意,并认为它也很适合我们的。
他们提出的方法使用一个域在每个列表中的位置来为每个域生成一个“分数”,然后从每个列表中取分数的平均值来生成一个域在最终列表中的位置。(实际上比这要复杂一点,但这是核心思想。)这种平均的实际效果是,从一个或多个列表中缺失的域将在最终列表中被下推,因为它们将从不具有该域的列表中获得“0”票。相反,在所有列表中的域将被向上推。这将奖励那些在所有收集类型中一致出现的域,我们认为这是一件好事——一个在多种抽样方法中排名很高的域可能是合理流行的。
研究人员已经建立了一个网站,可以自动组合多个列表,理论上我们可以使用他们的列表。我们选择不这样做,主要是因为我们想掌握自己的命运。我们将与Tranco团队合作,但在Iris中出现的实际列表将由DomainTools内部生成。
决定自己构建列表后,下一个问题变成:我们使用哪些数据源?我们已经知道我们想要使用Farsight Security数据集,并且我们想要对多个其他数据集进行平均,以试图解决数据中的盲点,但是我们要对Farsight Security数据集进行平均呢?在做这个决定时,我们想要得到一个混合的抽样方法,以确保我们得到一个很好的横截面,以不同的方式来看待这个问题。我们还需要考虑每个数据集的许可条款,以确保允许我们使用它们。最后,我们选择了4个数据集作为我们的“顶级”列表:
我们认为这种列表的组合是一种很好的、广泛的抽样方法的组合,而Tranco平均方法为我们提供了一种将它们收集在一起的好方法。
到今年第二季度末,DomainTools将改变我们的API和Iris中显示的排名分数,以使用这个新生成的排名。这对我们的客户来说意味着什么?实际上,它的意思是:
如果你正在使用虹膜API,并且在这些查询中使用Alexa排名字段,我们建议你尽快转移到新的“排名”字段。除此之外,我们预计用户体验不会有任何其他变化。我们有信心,这个榜单产生的数据将是相当稳定的,并将成为Alexa前百万榜单的透明替代品。
订阅DomainTools每月通讯,接收创新,实用的建议,以改善他们的安全态势。我们的目标是帮助组织在其组织的日常防御中变得更高效、更有知识和更积极主动。