人工智能(AI)已经逐渐成了新时代热词,然而这个热词可能只是技术营销的一粒仙尘、一个神奇的魔法棒。你只需在这里洒一点!用魔法棒一指!突然!似乎所有问题都迎刃而解。
随着越来越多的解决方案涌向网络安全市场,宣传人工智能的好处,通过大加宣传来解读它是很重要的。机器学习(ML)可以在某些领域提供变革性见解,但它存在局限性。如果你打算评估一种在网络安全中应用机器学习的解决方案,希望本文能够为你的决策提供一些信息,或者至少给你提供一种学习框架。
你想要人工智能还是机器学习?
答案是机器学习。
人工智能暗含对科技的认知反思——这种能力基于对人工智能的了解,并用于提升人工智能。然而,我们还远未达到这个目标。
机器学习是计算机科学的一个分支,有助于计算机基于输入数据进行学习,并可决定在非明确编程的情况下如何运行。机器学习从业者将利用开发工具集处理任务。不同的算法具有不同的用途,甚至技术与计算统计、数学优化和数据挖掘存在重叠。
通过数据学习可得到算法,之后机器学习可使用该算法
数据代表其行为样本,模型代表数据中的现实系统行为,而机器学习算法就是在构建模型。人们可以通过预先标记的示例数据对训练进行监督,也可以不对其监督。无论如何选择,数据都将代表现实世界。任何基于没有代表性数据的算法,都不能为人类提供有价值及通用性见解。
网络安全的关键在于攻击的初始阶段,如每次攻击时,恶意软件或鱼叉式网络钓鱼邮件都会有不同的变化,这使人们无法对其进行检测和分类。
如果有好的训练数据,先进的机器学习算法就可以很好地训练模型,之后通过新的、无标记数据筛选模型。然而问题是,人们很难预知新数据的分类有多准确。毫无疑问,每个算法都可能会出错。它可能会发出错误警报,或者发现不了恶意软件等。
机器学习并不完美,且也可能遭到愚弄
总而言之,当数据发生很大变异无法用于训练时,机器学习也就无用武之地了。例如,在反病毒中,由于存在多态性,同一个恶意软件的每次攻击看起来都不相同。这时,机器学习无法适应这种数据变异。此外,机器学习并不完美。根据所使用的技术和应用领域,它可能无法发现所有攻击,并可能错误地对活动进行分类。
如今我们随处可见用户行为、App使用等
现代IT基础设施越来越完善,也在用户行为、App应用、网络流量、认证活动等方面提供了大量的日志数据。像Splunk这样的具备第一代日志处理能力的工具,使IT专业人员能够在大型索引数据存储上进行类似于google一样的查询,这至少使当前任务可能达成。
今天,机器学习飞速发展,特别是自训练机器学习算法,为自动筛选大量数据并寻找异常的行为模式提供了一个强而有力的新机会。与其它数据集相比,这些异常的行为模式则被称为是异常值。这些工具都是自训练工具,几乎不需要专家插手,适应性强。随着整合更多的数据,这些工具可以进行再训练,来涵盖新的行为模式和研究发现。
目前的解决方案仍有一些缺点。于人类而言,由机器学习算法发现的异常现象通常可能很难理解,这是因为这种异常现象可能是一组抽象、难以理解的数据点。此外,这样的系统在梳理有许多重叠点的数据时效果较差。
机器学习正酝酿在攻击发生时开启防御
许多“下一代”供应商声称,要恶意软件执行之前,检测出恶意软件,通过图灵的证明只是徒劳。当恶意软件在某个端点执行时,很容易就能发现受攻击App偏离正常行为。
但是,当恶意软件执行时,协议取消:系统做出妥协,攻击立即通过网络进行传播,比如WannaCry。要避免这种灾难性后果的唯一方法是,隔离恶意软件,研究并映射其行为。机器学习结合隔离应用程序,从而防止恶意软件执行的不利影响。隔离可以消除漏洞,确保不会造成数据泄露,恶意软件也就无法横向转移到网络。
机器学习未来一片光明
随着微软在其基于虚拟化技术的安全特性设置中增加了隔离功能,我希望看到局部学习扩展到认证活动及用户行为分析,并涵盖一系列的攻击向量。
机器学习如能恰当地使用,将为网络安全带来激动人心的新机会。我们也将见证生产力和加强保护的新时代的到来,但我们必须避免相信营销炒作。