Accumulo技术在美国受重用

分享到:
212
下一篇 >

赛迪智库 郑波 马智伟 郭艳红 编译

目前,Accumulo技术已经得到美国政府层面的**认可,NSA已将该技术作为内部组织架构运行的核心部分,在对来源于各方面的庞大海量数据进行分析处理时,所应用的运算程序基本都运行在Accumulo技术上,即NSA“大多数监控和分析应用程序的后台都是Accumulo技术”。基于Hadoop的Accumulo技术已在实质上被视为美国国家**战略的关键。

Accumulo技术已成为美国国家**战略的关键

Accumulo作为当今***、*强大的数据处理技术之一,已经得到美**认可。

(一)基于Hadoop的Accumulo技术是当今*强大、**的大数据处理技术之一

Hadoop由美国阿帕奇基金会开发,是一种能以可靠、高效、可伸缩的方式对大量数据进行分布式处理的计算平台(即分布式计算平台)。用户可以在不了解分布式底层细节的情况下,借此开发分布式程序,充分利用计算机集群的威力进行高速运算和存储各种数据。

Hadoop主要有五大特点:一是高可靠性,具有非常可靠的按位存储和处理数据的能力。二是高扩展性,Hadoop是在计算机集群间分配数据并完成计算任务,这些计算机集群可以较为容易地扩展到数以千计的节点中,因而能够处理PB级甚至更**别的数据。三是高效性,Hadoop以并行运算的方式工作,与传统的将海量数据限定在一台机器上运行的方式*大不同在于,Hadoop是将大数据分成多个部分,使得每个部分都可以被同时处理和分析,因此处理数据的速度非常快。四是高容错性,Hadoop在运行中首先假设计算元素和存储会失败,因此能够自动保存多个工作数据副本,并且能够自动将失败的运行任务重新进行分配。五是低成本,hadoop是开源的,任何人都可以使用,项目的软件成本因而大为降低。关键一点还在于,Hadoop是根据计算机集群中的节点数调节处理数据,即其不是将数据存储移动到某个位置以供处理,而是将数据处理移动到存储,因此具有支持高效数据处理的强大功能。

Hadoop的重要作用意义在于实现了一个分布式文件系统,即HDFS系统(Hadoop Distributed File System)。要实现对海量数据的计算,前提必须是要有一个稳定、**的数据容器,HDFS系统即是十分适合具有超大数据集(large data set)的应用程序。HDFS系统可以提供高传输率并以流的形式访问文件系统中的数据,从而使用户可以较为容易地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop支持高效数据处理的特性,使得零散的、不具备关联性的海量数据得到了有效整合处理,使其在大数据处理中得以广泛应用。

(二)基于Hadoop的Accumulo技术已成为美国国家**战略的关键

开发Accumulo技术的主要目的是运用于国防及**领域,旨在利用先进的数据分析技术进一步改善美国的网络**状况,打赢数字化战争。从战术层面来讲,即借助Accumulo技术对大数据进行分析,高效检测网络中出现的异常数据,以便于及早发现网络中的可疑行为并将目标及时快速定位,达到利用大数据打击网络领域犯罪行为的目的。从战略层面来说,美国政府开发Accumulo技术的初衷是,可用于支持NSA的数据处理方案也能应用于国防部的整个**作战体系当中。

目前,Accumulo技术已经得到美国政府层面的**认可,NSA已将该技术作为内部组织架构运行的核心部分,在对来源于各方面的庞大海量数据进行分析处理时,所应用的运算程序基本都运行在Accumulo技术上,即NSA“大多数监控和分析应用程序的后台都是Accumulo技术”。美国国防部对Accumulo技术在应对大数据上所展现的强大处理分析能力表示认同,现已着手实施内部改革计划,加紧将Accumulo技术纳入国防部数据分析系统。基于Hadoop的Accumulo技术已在实质上被视为美国国家**战略的关键。

美国正在全力构建联合信息环境

美国防部正在开发通用型云与数据云架构,Accumulo为其重要组成部分。

(一)NSA在大数据技术应用和数据**领域一直走在全球*前列

NSA大数据项目的三大支撑技术中*具代表性的是Accumulo技术,它可以极为有效地分析万亿规模级别的数据,尤其是在通话记录分析领域*能体现这一分析机制的强大能力。比如,可以通过数据分析很容易确定嫌疑目标的网络延伸范围以及所涉及的交流对象。比较而言,NSA在大数据采集、处理和分析等方面的技术水平,甚至已经超过了谷歌、脸书、亚马逊和苹果这些**的大型互联网企业。

出于对政府可能滥用个人数据的担心,美国有些企业并不认同NSA的政策和做法,甚至存有疑问。对此,本文认为,NSA是美国大数据创业热潮的*强有力的推手,迄今为止,NSA所属的In-Q-Tel风险投资公司已经投资了200多个大数据、云计算、搜索与分析创业项目,而获得In-Q-Tel公司的投资还意味着可以得到来自政府部门的订单,所以NSA对推动科学技术的发展起到了很好的促进作用。希望Accumulo技术的下游用户群体能尊重NSA在大数据开发和运用上的技术,一些大的Hadoop供应商如果想要在美国政府中有所作为,就必须主动加大对Accumulo技术项目的支持力度。

(二)美国国防部正在全力构建联合信息环境

截至目前,美国各大兵种的网络信息系统尚处于自成体系的状态,美国国防部十分希望改变这种状况,尽快建立起一个高效的、互联互通的国防**网络。构建联合信息环境是迄今为止美军*大的联合信息技术行动项目之一,该项目集“网络作战中心、数据中心、基于云应用程序和服务的身份管理系统”等子系统于一体,建设目标是在整个美国国防部内部开发出通用型云与数据云架构,从而将包括网络**、战地情报等在内的庞大海量的用例集全部涵盖在内,为美国三军“提供互联互通的基于云的网络和服务,并在需要的时间和地点交付保密的语音、数据和情报”。早前,美国国防部还曾宣称将在联合信息环境内纳入“分析云”的网络作战能力,以确保在适时启用大数据技术时,具备可靠的深挖网络攻击和内部威胁的能力。

Accumulo技术正是美国国防部投入大量精力和财力着力建设的联合信息环境项目的基本技术支撑,对加快这一项目的建设进程起到了极大的推动作用。目前,整个美国国防部都在围绕着搜集、储存、分析大量的用例集,加紧构建发展多功能云和数据云基础设施,这些用例几乎涵盖了从网络**领域到战场情报领域各个方面,不仅仅是****领域的用例,甚至将医疗用例也包括在内。美国国防部国防信息系统局下属的联合信息环境技术同步办公室是该项目的主要技术领导,目前正以“增量进程方式”加紧推进该项目的同步协调开发工作。

(三)目前美国网络**状况很糟糕,但发展前景乐观

网络**领域的复杂性是全球各国共同面临的客观事实,美国公众对此也很关心,希望了解真实的情况。总体而言,目前的美国网络**现状确实很糟糕,一些怀有**动机的用户也在利用互联网络进行活动,这些隐患无疑等同于美国庞大繁杂网络系统中的定时炸弹,使得互联网用户的正常活动处于极大的风险之中。以目前的网络**技术水平,还远不能做到有效应对对美国网络的渗透、侵害行为。

值得肯定的是,美国网络**状况正向着不断改善的方向发展。一方面,政府对提高国家全局域网络的**性极为重视,*近,美国国土**部和国家标准化与技术研究所合作,通过行政命令的方式,共同努力创建了一个网络**框架协议规定,初期是建立在网络用户自愿加入、自愿遵守相关规定标准的基础上,未来将视情况发展而定。这对于现今十分复杂的网络**领域来说,政府的举措无疑是向改进糟糕的网络**状况迈出了一大步。另一方面,从技术层面而言,利用数据处理技术在网络上检测可疑行为并及时定位目标、检查网络中已知疑犯的动向等技术性操作已经很容易实现。

美政府和企业将加大对Accumulo技术进一步应用

美将建立“生命分析模式”,Accumulo技术将得到进一步应用。

(一)美国国防部正在进行以大数据为基础的改革

美国国防部认为,大数据将改变战争游戏规则,美军必须充分利用大数据,在未来全域**行动中牢牢把握战争的主动权。自2012年3月起,美国政府已先后启动了两轮大数据研究发展项目,希望通过改进从大量复杂数据中获取情报的能力,增强美国应对国家**挑战的能力,并同时刺激大数据产业的发展。美军目前推进的大数据项目正是美国国家项目的重要组成部分。

目前,美国国防部正围绕着Accumulo技术处在改革的行动中,而且作为基础技术支撑的Hadoop供应商,如Cloudera和Hortonworks等近来也都主动加大了对Accumulo技术项目的支持力度。美国国防部的改革目标,就是要打造一个统一、联合、**的端对端数据服务平台,以满足作战指挥、日常训练和基本建设的大数据需求。要实现将“从无人机视频到医疗信息”的各个方面的海量数据*终整合到一个单独的数据分析系统中这样的具体技术目标,需要通过对庞大海量的数据分析、处理以及分布式计算、数据可视化等手段,全方位改进美军网络系统,达到有效利用大数据技术与网络威胁对抗的目的,打赢数字化战争。

(二)美国企业已开始认可NSA的大数据处理技术水平

NSA对Hadoop、Accumulo、Bigtable、Nosql等开源性先进技术的成功运用,为美国企业在大规模生产环境应用部署大数据处理技术提供了十分有参考价值的经验和示例。NSA大数据项目的优势还在于,在大幅压低成本的同时,极大地提升了政府部门分析非结构化数据的能力。“棱镜门”事件对美国政府造成了一些被动,但该事件也从另一个侧面展现了美国政府部门所具备的信息**技术实力。因此,NSA的大数据项目不仅对于美国大数据商业企业来说十分有吸引力,而且也成为许多国家政府及**IT企业关注的对象。

尽管部分美国企业的决策者对Accumulo技术在运行的**可靠性上尚有一些疑虑,并且对该项目下一步的研发情况表示关心,但并未影响该项技术的��广应用。迄今为止,已经有几十家不同类型的美国企业安装了Accumulo技术系统,其中,美国20强企业中已有3家安装,50强企业中有5家安装,还有不少企业已表示对此有兴趣。

(三)NSA更大的追求目标是建立“生命分析模式”

较之于开发网络防御能力,NSA更重视对网络进攻能力的开发。NSA更宏大的设想是建立起一套“生命分析模式”,建设目标是对整个网络系统进行异常行为检测,充分利用大数据提高美国在网络上的主动性。从工作原理上讲,就是首先建立起一套反映正常行为的网络运行模式,然后再根据正常状态基准数据指标去检测偏离值,通过比对数据指标,发现并定位网络侵害行为或者潜在的隐患威胁。

按照NSA的要求,Sqrrl公司已经启动了“生命分析模式”项目。目前,该项目研发团队的工程师们正着手对大量的数据图进行分析,尝试着建立起一批稳定的、处于分散状态的数据图形,意在使这些数据图成为能够反映网络正常行为状态的用例,为每一个网络系统活动建立一套反映正常行为的标准模式。可以想象,这将是一个数量十分庞大、繁杂的用例集,需要搜集、处理、分析、储存海量的数据。而且在项目推进过程中也存在着不可预见的因素,对Sqrrl来说将是一个很大的挑战。

(本文译自美国**科技博客网站GigaOM发表的《美国国防部的大规模分布式数据战略》一文)

你可能感兴趣: 业界新闻 大数据处理 应用程序 互联网 创业
无觅相关文章插件,快速提升流量