注意:虹膜检测已经取代了PhishEye,具有极大的扩展功能。请探索Detect以满足您的品牌保护、反欺诈和欺骗基础设施分析乐动篮球视频需求。
“你走的每一条路,你注册的每一个域名,我们都会关注你。”
总结(TL;博士)
- 我们创建了一套有监督的机器学习分类器“威胁概要”,以查找可能被恶意分子用于网络钓鱼、恶意软件或垃圾邮件活动的域名
- 我们要在这些领域被武器化之前找到它们;我们认为这些域名注册时带有“恶意意图”
- 我们的分类器的准确性非常好
- 我们创建了一个新的机器学习基础设施,叫做曲柄,可以快速改变,运行实验,并自动评估结果,
- 我们有一个专门的数据科学和研发团队,这样我们就能一直领先于坏人一步
- 您可以轻松地将威胁配置文件评分集成到防火墙规则、Splunk或其他威胁情报流程中
- 它现在处于测试阶段,很快就会发布
简介
不幸的是,互联网上有一些不良行为者,他们注册、武器化和部署域名作为网络钓鱼、恶意软件或垃圾邮件活动的一部分。恶意域名使互联网变得更不安全,对每个人来说都更烦人。我们的目标是在这些域名被武器化并“大闹一场”之前识别并标记这些域名——这些域名注册时带有“恶意意图”。’,让战争的恶狗溜走。”
因此,在过去的18个月里,我们在数据科学和研发方面投入了大量资金,以创建威胁概况,这是DomainTools风险评分的一个组成部分,您可以使用它来增强现有的威胁情报流程。我们认为具有高威胁档案得分的域名属于“域名观察列表”,我们认为这些域名在不久的将来可能会变得危险。威胁概要的概述如图1所示。
《威胁概况》体现了我们的信念,即不良行为者使互联网成为一个更不安全、更令人讨厌的地方。
图1:Domaintools威胁配置文件的概述,显示了如何使用恶意域数据来训练分类器,然后对新的和更新的域注册生成风险评分
什么是威胁配置文件?
威胁概况是我们对不良行为者心态的看法:他们如何确定注册哪些域名,以及他们如何设置恶意基础设施。从这个角度来看,我们已经创建了一组三个机器学习分类器:一个用于钓鱼,一个用于恶意软件,还有一个用于垃圾邮件。
每个分类器都是独立设计、训练和优化的,以查找带有恶意意图的注册域。我们使用与风险评分的接近性组件相同的高质量行业和供应商列表信息,以及我们广泛的Whois和DNS数据库,来识别我们训练分类模型的重要领域特征。随着时间的推移,每个模型都要反复测试和优化,以验证其准确性。
这些分类器分析所有新的和更新的域名注册,生成分数,表明我们认为给定的域名具有恶意意图。具体来说,我们的模型寻找在未来18个月内随时可能武器化的领域。高分并不能保证不好;一个不良行为者可能注册了许多域名,但最终只使用了少数几个,但我们的威胁配置分类器旨在找到所有由不良行为者注册的此类域名,无论他们是否成为武器化。
重要提示:我们不寻找被破坏的域名,只寻找我们认为是由不良行为者或他们的代理恶意注册的域名。
分类领域
我们正在使用最先进的监督机器学习分类器来构建我们的威胁配置文件。每个分类器都是独立选择和调优的,以分别最佳地识别网络钓鱼、恶意软件和垃圾邮件威胁。以下是我们如何做到这一点的概述:
- 使用精选的区块列表数据和我们的Whois和DNS数据库创建培训和测试数据集
- 利用我们对不良行为者的广泛领域知识,我们在网络安全ttp方面的专业知识,以及对数据的详细分析,来确定哪些域的固有属性,即特征,对识别恶意意图最有用
- 使用我们的机器学习基础设施在不同的特征集和调优上运行网格搜索,以优化我们的分类模型
- 使用标准分类指标比较测试数据集上的模型精度
一个功能是机器学习术语,用于训练分类器或对项目进行分类的项目的固有属性。关于一件物品的“原始”信息是没有用的,它需要被编码以供计算机理解。这种“编码”就是特征。例如,如果你想训练一个分类器来预测某人的年龄,你可能会使用以英寸为单位的高度作为特征。该特征被编码为一个数字来表示高度。当分类器进行训练时,它会查看每个项目的集合特征,并从它发现的模式中学习。
对于“威胁简介”评分,我们从三类数据创建了特征:
- 域名本身,包括TLD
- 域名注册信息
- 域基础结构信息
我们发现,在预测网络钓鱼、恶意软件或垃圾邮件意图时,不同的特征或多或少都很重要。一个具体的例子:在你的域名中使用连字符,例如“com-online-today[.]test”。虽然连字符对于识别钓鱼域名很重要,但对于识别垃圾域名来说却不那么重要。
对于每个分类器,我们用两种方式寻找鉴别特征。首先,我们利用内部在网络安全和域名注册方面的专业知识。例如,我们的钓鱼分类器中使用的许多功能来自我们的专业知识创建PhishEye.其次,我们在做数据科学——我们在领域元数据中寻找相关性和模式。它不仅仅是域名或顶级域名中的字符。我们将查看域是如何以及何时注册的,并查看用于托管域的基础设施。
训练,测试,重复
我们花了18个月的时间研究和开发威胁档案分类器。为此,我们创建了一个健壮的机器学习基础设施(亲切地称为“曲柄”),以快速部署和测试对我们的功能和分类器的更改。使用曲柄,我们可以在我们的集群上同时运行不止几个,而是数百个分类器实验。所有这些都是为了发现特征之间有趣的相互作用并改进我们的模型。
为了确保我们的模型很棒,我们使用了一致的训练/测试方法。我们随机抽取域到训练或测试数据集中,然后执行k-fold交叉验证在用训练数据集建立的模型之上。这有助于确保模型不会脆弱或对训练数据过于敏感。我们太喜欢k-fold了,我们把它放进了曲柄。
我们使用一套标准的准确性指标来评估我们的模型。一些度量度量分类器的整体性能,而另一些度量在给定阈值下的性能。我们根据保留的测试数据集进行评估。我们的指标包括:
- 受试者-操作者特征(ROC)曲线
- 精度-召回率(PR)曲线
- 精度、回忆,以及F1的分数,在给定阈值处
对于ROC和PR曲线,通常都要同时查看曲线的可视化以及曲线下的面积(AUC).AUC越高,分类器做得越好,1.0是“完美的”。F1分数是精度和召回率的调和平均值,因此会同时考虑假阳性和假阴性。它比单纯的精确或回忆更可靠,也更难获得高分。这对我们和我们的高标准来说是完美的。它的范围也从0.0到1.0。
曲柄允许我们一次编码和执行数百个分类实验。我们可以快速比较每个实验的结果,并使用这些数据来帮助我们随着时间的推移改进我们的模型。
窥视引擎盖下
那么,它到底有多好呢?让我们看看威胁概要分类器之一的指标:网络钓鱼。这些数据来自我们最近的一轮测试;我们希望我们发布的威胁档案的性能会更好。
表1显示了我们的钓鱼威胁概要分类器的一些概要度量分数。虽然AUC和F1分数表现取决于应用程序,但我们对这些分数和我们归类为具有网络钓鱼意图的域名非常满意。
表1:网络钓鱼的概要指标
我们用于网络钓鱼威胁概要的分类器返回一个0到1之间的原始分数,其中0表示根本不是“网络钓鱼”,1表示完全“网络钓鱼”。为了将分类器的得分与测试数据集进行比较,您选择一个阈值,通常是0.5,然后进行“切割”。任何低于阈值的东西都被认为是0(不是钓鱼),高于阈值的东西都被认为是1(完全是钓鱼)。对于这个Phish实例,我们将阈值设置为0.46。
图2显示了当我们将Threshold参数从0调整到1时,Phish的Precision、Recall和F1分数是如何变化的。在图中,您可以跟踪优化分类器的精度与召回率之间的权衡:一个下降,另一个增加。我们很高兴地看到,对于一个广泛的阈值集,我们的Phish分类器产生了很高的F1分数。这意味着大多数原始分类分数不接近0.5,而是接近光谱的两端,使我们对分类的质量有很高的信心。
图2:根据阈值划分的威胁概况钓鱼的精度、召回率和F1分数。x轴是阈值,y轴是度量分数。
我们的恶意软件和垃圾邮件威胁配置分类器显示出更好的性能,F1分数接近或超过0.9,ROC AUC分数高于0.95。为什么我们要给你看三种分类器中表现最差的网络钓鱼?重要的是,我们的客户信任我们的分数和背后的数据科学。在安全领域,信任是赢得的,而不是给予的。我们的客户在将分数纳入其运营安全实践和流程之前,会想知道我们是如何生成和更新分数的。最重要的是,我们坚持自己的最高标准,无论是我们自己的标准,还是我们的客户和合作伙伴的标准。乐动首页
解释和使用
威胁配置文件是一种风险评分,应作为现有威胁情报流程的一部分使用。将“威胁档案”得分高的域名视为属于“域名监视列表”,这些域名可能在未来18个月内随时被武器化。根据我们对域的评分和您组织的风险承受能力的严重程度,您可能需要采取不同的行动:从在服务器日志中标记它们的外观到完全阻止域。
“威胁概况”评分格式类似于“接近度”评分格式,评分范围从0到100。“威胁简介”得分越高,域名注册的恶意意图就越高:
- 0,域是零列表的
- 50 +,可疑的
- 70+,我们建议的表示恶意的阈值
- 90+,对近期武器化充满信心
- 100,域名在行业屏蔽名单上
我们将三个独立分类器的结果组合在一起,创建一个综合威胁概要评分。该分数可选地附带支持证据,概述了分类器如何输入给定域的分数。威胁配置文件被设计用于与我们的邻近度分数帮助您了解出现在您的网络上的各种威胁—接近性以识别与已知恶意活动密切相关的域,威胁配置文件以在恶意意图域被武器化之前识别它们。
如果您只想降低整体风险,请使用DomainTools风险评分,这是接近性和威胁配置文件的组合。它是“一分制胜”,您可以轻松地将其集成到防火墙规则或其他自动化威胁情报流程中。
关于休眠域的说明
不是每一个由不良行为者注册的域名都会被武器化。许多公司将一直处于休眠状态,直到注册期结束。威胁概要的目标是找到所有注册的恶意域名,即使它们仍然处于休眠状态。从分类的角度来看,这些域不是“假阳性”,而是“未来阳性”,因为我们相信它们有可能在任何时候被武器化。
在为用户提供对在线资源的访问和保护网络免受威胁之间总是有一个权衡。我们相信,监视和/或封锁被我们的威胁档案评分标记的域名是隔离潜在威胁的有效方法,同时最大限度地减少对用户和客户的影响。
DomainTools的优势
我们有一个专门的研发和数据科学团队,不断监测我们的DNS数据库的变化,并评估新的屏蔽域名,以确定不良行为者的行为,并相应地更新我们的模型。此外,我们还构建了我们灵活的机器学习基础设施曲柄,以快速更改功能,运行实验,并自动评估结果。这个基础设施和风险评分本身一样重要——它意味着我们可以在未来保持高质量的预测,无论坏人如何改变他们的策略。
在恶意注册域名的猫捉老鼠游戏中,我们不是在建造一个更好的捕鼠器,我们是在让猫成为更好的猎人。查找恶意域名。
试驾一下吧
DomainTools风险评分与威胁概况将很快可用;我们现在正在进行测试。此外,我们最新发布的DomainTools应用程序Splunk内置支持我们新的风险评分与威胁概况和接近度。
今天就联系我们来访问API并亲自尝试一下。