随着大数据成为行业发展下一个热点,未来的十年可能是“大数据”引领智慧科技的时代,也可能大数据就是一场。但不管未来如何变化,大数据一下子“火”了是不争的事实,而开源技术Hadoop也水涨船高成为用户试水大数据平台和应用的热点技术。
Hadoop究竟是什么,对于这个问题答案或许很多人并不了解,笔者不仅也要问:到底这个“火起来”的开源技术有何魅力?通过进一步的学习和了解,介绍一下什么是Hadoop,希望通过本文大家对Hadoop有清晰的认识。
提及Hadoop有着众多版本的说明,其实是早年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机的开源软件库,并以自己儿子的大象玩偶为其命名,谁能想到如今占据“大数据”热门首选技术。
查询,简单来说Hadoop是Apache软件基金会所研发的源码并行运算编程工具和分散式档案系统,支持数据密集型分布式应用程序,在Apache v2许可认证下,Hadoop框架透明地为应用程序提供可靠性与数据移动保障。Hadoop实现了一个被称为map/Reduce的计算模型,在这个计算模型中应用程序被分为很多的小块,每一块都能在集群中的任意节点上执行或重新执行。另外,它还提供了一个分布式文件系统(HDFS)来在计算节点上存储数据,为集群提供了非常高的聚合带宽。
可见,之前谈到Hadoop,业界姓名缘分测试小游戏总与MapReduce放在一起,但其实HDFS和MapReduce一样都是Hadoop的基础。既然如此,Hadoop属于开源技术是否免费提供应用?笔者了解软件的安装部署是需要付费,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,专业运行中人工输入代码费用不菲,更不用提部署Hadoop集群的硬件和相关配置的成本。
正如谈到,Hadoop有数据应用上的优势,HDFS和MapReduce都是基础,但并不容易部署与实施,其实如今针对Hadoop开源技术推广,市场开发应用上主要有两个圈子:一个是做算法、分析的圈子,另外一个是做架构、设计的圈子,如何把这两个圈子技术有效的结合产生应用是大数据的突破点。
本文由 恒宇国际(www.neivn.cn)整理发布