恒泰博远,专家级研发软件定制开发公司,为企业定制营销、办公、管理软件 在线咨询 :
咨询电话:010-82969001

大数据日志分析的成功来自于机器学习

来源:http://www.hengtaiboyuan.com 作者:恒泰博远 时间:2014-06-19

[摘要]数量庞大的通过各种设备产生的日志数据打开巨大的潜力的洞察力,但机器学习是需要做出清醒的认识

 

数量庞大的通过各种设备产生的日志数据打开巨大的潜力的洞察力,但机器学习是需要做出清醒的认识

 

机器生成的日志数据是大数据宇宙的暗物质。它是在每一层,节点和组件的分布式信息技术生态系统内,包括智能手机和互联网的,东西端点产生。它是收集,处理,分析和使用,随处可见,但大多是在幕后。

 

日志数据是至关重要的很多最不美艳企业应用,如故障排除,调试,监控,安全,反欺诈,法规遵从和电子发现。然而,它也可以是一个功能强大的工具,用于分析点击流,地理,社会化媒体,以及相关的许多客户为中心的用例等记录的行为数据。

 

[机器学习浮于大数据的海洋的所有船只。 |下载InfoWorld的大数据分析深潜这一热门话题进行了全面,实用的概述。 |切割技术开发和IT管理与我们的一次的天顶科技发生的事情总结的重点新闻。订阅InfoWorld的每日简报。 ]

 

凡人只能勉强跟上机器记录的数据。大部分是没有设计或供人类直接分析。除非过滤残酷效率,高音量,速度和品种的日志数据能够迅速压倒人的认知。这埃森哲最近的文章简明扼要地解释它的作者:

 

[A]的S日志文件的数量和种类的上升,它变得越来越难以日志管理解决方案来分析日志文件,跟踪潜在的问题,居然发现错误 - 尤其是当跨日志的相关性开始发挥作用。即使在最好的情况设想,它需要一个有经验的操作人员遵循的事件链,滤除噪声,并最终诊断的根本原因,以一个复杂的问题。

 

显然,自动化是关键,找到日志数据中的见解,特别是因为它所有的尺度到大数据的领土。自动化可以确保数据收集,分析处理,以及规则和事件驱动的反应是什么的数据后发现被作为数据流的迅速执行。可扩展的日志分析自动化的关键推动者包括机器数据集成中间件,业务规则管理系统,语义分析,数据流计算平台,和机器学习算法。

 

其中,机器学习的关键是自动化和扩展的日志数据洞察力的升华。但是,机器学习是不是一个尺寸适合所有人的方法来记录数据的分析。不同的机器学习技术适合于不同类型的日志数据,并以不同的分析挑战。当通过机器学习所寻求的相关性等图案可任意指定先验,监督学习是继续进行的方式。然而,监督学习需要人类专家编写的参考“训练数据”,以完善的机器学习算法的能力,辨别最相关的模式设置从日志中。

 

但是,当日志数据模式不能准确地预先定义的,不受监督和强化学习可能更合适。这些是机器学习动力,日志数据分析方案最适合于全自动化的,因为它们可以挑选出并优先考虑最相关的模式,以于手头的任务,而不需要的人提供的训练数据集。 (有关链接到这些机器学习方法的进一步详情,请参阅我最近的文章。)

 

multilog的相关性是一个核心的日志数据分析用例无监督和强化学习。由于异构日志的数据集相结合,并增加更多的异构,复杂和高深莫测,最有趣的数据变量和关系都不太清楚提前分析。因此,隐藏的模式可能是不可见的,如果我们只是尝试使用简单的查询,预先存在的报表和仪表盘,以及其他标准分析视图来查看它们。在这种情况下,机器学习可以通过使用各种定量方法,如聚类,马尔科夫模型,自组织映射,等等拉出最值得一提的模式作进一步的探索。

 

另一个关键的使用不受监督和强化学习的是识别,要么从未发生过,或者,如果他们有,从来没有被标记前人为分析人士以外的任何其他显著模式“噪音”。文章的作者讨论机器学习,可以“立即发现了用户的非典型访问模式,即使该特定的访问模式以前从未见过,并防止个人信息特别是高风险损失的假设性安全日志分析应用。 “

 

许多从海量日志数据是最具破坏性的见解将是这种性质的:复杂,埋葬,前所未有。从日志数据本身的学习,而不是从任何先验知识,将是科学家们有多少数据花费大量的时间。他们将越来越多地调整他们的机器学习算法来监听,即使是最先进的人类主题专家此前曾忽视在日志中“信号”。