百度安全：无监督学习将突破样本限制带来更多想象空间

2017年09月26日 09:47　来源：中国新闻网

　　中新网9月26日电 25-26日，国内中西部最大规模的、最具影响力的安全峰会第二届SSC安全峰会在古都西安举办。本届峰会以『联动创新，御智未来』为主题，探讨“一带一路”和智慧城市建设背景下的网络安全技术发展，共同推动国家信息化建设和网络安全事业健康发展。百度安全受邀参加此次会议，并介绍了人工智能在Web安全领域的应用实践。

　　AI显著提升安全防御的规则运维效率

　　苹果发布iPhoneX采用人脸识别解锁，南方航空人脸识别智能登机，北京西站人脸识别进站 ……人工智能的时代已经来临，让人们的生活更加便捷。有数据显示，截止到2016年底，我国人工智能产业市场规模已经增长至95.6亿元，年均复合增长率高达40.25%，预计到2018年将达到203.3亿元。

　　在网络安全领域，人工智能也显示出了巨大的潜能，甚至有人认为这是安全防御应对日益猖獗的网络攻击能够占据上风的“核武器”。它对于提升安全运营中心的运维效率，提高发现黑客攻击的检测能力等等方面，都带来很大帮助。

百度安全事业部技术总监冯景辉在第二届SSC安全峰会演讲，介绍人工智能在Web安全领域应用的方法和实践

　　“人工智能不但可以显著地提高安全防御的规则运维效率，而且可以带来防御维度方面质的提升。”百度安全技术总监冯景辉在演讲中认为，传统的基于攻击特征的安全防护，存在着特征库难于管理、较高的误报率和漏报率等诸多问题，安全防护效果难以进一步提高，而近年来出现的基于语法规则的检测虽然在一定程度上弥补了特征的不足，但是因为不理解业务，只能进行特征文本级的匹配，对于有着更高智能的攻击也显得捉襟见肘。而通过机器学习，这些问题可以在一定程度上得到解决。他介绍了通过人工智能、机器学习领域的经典方法形成的分析系统和效果，以及如何与传统防护系统相互补充的经验。

　　无监督学习是未来空间更广

　　机器学习包括有监督学习和无监督学习等类型。现在行业实践最多的是有监督学习，比如图像识别、语音识别等。冯景辉介绍了目前有监督学习的方法和百度安全实践的成果，以及支持向量机、隐马尔可夫和深度神经网络等几种不同的算法和模型训练方法。“我们发现不同算法和模型得到的结果并不一样，所以我们可以综合利用不同方法来得到更接近真实的判断。通过不断调整参数，综合利用多种算法和训练模型，我们大大提高了检出率和准确率，减少了日志审计时人工审计的工作量。”

　　另一方面，虽然无监督学习在实践中应用并不多，但未来的潜能却很大。“互联网访问者众多，我们不知道谁是正常访问者，谁是坏人，但我们相信在互联网上正常访问者占大多数，所以只需要找到跟大多数访问者不同的个案即可。”冯景辉表示，“根据这个思路，我们综合文本特征、身份特征、访问行为特征、业务行为特征等多个维度，将其应用在电商领域，成功识别出了盗号、僵尸网络、恶意爬虫等，识别率也显著提升。”

　　人工智能应用在Web安全领域，最大的困难是样本量少，而且黑名单虽然多，但白名单很难判断。没有大量的有效样本来训练机器学习，就没法得到有效、可用的结果，更谈不上是人工智能。在这个问题上，百度安全有天然的优势。目前，百度云加速在云CDN市场拥有44%的市场份额，每天经过云加速的PV流量超过100亿。“我们有效选取了一部分黑名单和确定的白名单，积累了很多数据，并且将它们用在样本训练上，通过改进算法，能够更好地预判黑客的攻击行为。”

　　“机器学习最大的魅力在于，在看到结果之前，你可能永远不知道结果是什么，是怎样产生的。”冯景辉表示，未来无监督学习能够突破样本空间的限制，会对网络安全产生更大的影响。

【编辑:段红彪】

>产经频道精选：

·深度学习并未走进死胡同将推动人工智能发展

·工业互联网：加速布局为制造业转型升级赋能

·20城一居室月租平均2558元普遍上涨北京仍最高

·iPhone一降价就想买？两三个月后可能还要降……

·人才落户政策扰动楼市，限购缺口将敞开？

·首套房贷利率三连降：北上广深同框低息榜TOP10

·2月份一线城市新房成交面积环比降48%

·茶饮商标抢注、争议问题频现消费者和加盟商难分辨

99米“高空咖啡屋”	古巴举办“白色晚宴”
德国波恩樱花盛开	荷兰风信子进入盛放期

假期余额告急？点我充	被催婚的女入殓师
致敬森林消防员	阳春三月你想开了吗？

百度安全：无监督学习将突破样本限制 带来更多想象空间

>产经频道精选：

百度安全：无监督学习将突破样本限制带来更多想象空间