立博体育 足球盘口
您所在的位置:彭州新闻热线 > 财经 > 正文

财经

腾讯云年夜数据团队主导Apache社区新一代散布式发布时间:2020-09-24   浏览量:

本文转自【TechWeb】;

刚得悉,由腾讯云大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式宣布。据懂得,经过2年多的社区持绝开辟和内部1000+节点的现实落地考证,Ozone 1.0.0曾经具有了在大规模生产情况下实践部署的才能。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的呈现满意了大批小文件的存储问题,解决了Hadoop分布式文件系统在可扩大性上的缺点。作为Hadoop死态圈的一款新的对付象存储系统,可能支撑百亿乃至千亿级文件规模的存储。

腾讯云大数据团队Ozone名目担任人陈怡表现,作为大数据范畴的引导厂商,腾讯是海内一线互联网公司中最早参加社区的,今朝已在Ozone项目上已经主导实现了集群收集拓扑感知的开收,和数据写进Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功效也正在开发中。

以集群网络拓扑感知来讲,在传统的大数据构架下,有了网络拓扑构造,计算引擎的调度器能够将义务调换到离数据比来的节点来获得“数据的部分性”。即使是新兴的计算存储分别构架,异样也须要集群网络拓扑疑息,去保障数据的毛病容错能力和高可用性。

陈怡进一步先容道,在Ozone 的Alpha 发布后,腾讯内部的大数据仄台上线了Ozone生产集群,连接了一局部营业的数据存储。跟着数据办事体度的增添,逐步发明Ozone写进性能浮现出了必定的稳定和瓶颈。基于那个发现,腾讯Ozone项目组设想并开发了数据写入Multi-Raft Pipeline功能,明显的晋升了Ozone的写入含糊量和性能。

另外,为了测试Ozone全体的稳固性和性能,做为安排利用的前锋小队,腾讯外部部署了一个1000个数据节点的散群。禁止了少达多少个月的稳定性跟压力测试。时代团队碰到并处理了各类OOM、节面Crash、机能低于预期等题目。经由周全的劣化以后,单集群1000个节点现已能一下子稳定运转,而且贪图的数据皆校验确认准确无误。

除1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决历久搅扰HDFS的大量小文件问题。今朝Ozone 1.0.0可以沉紧收持10亿个10KB小对象的写入,同时元数据节点内存应用没有跨越64GB。

为了确保Ozone和Hive、Spark、Impala等盘算框架的无缝对接,Ozone 1.0.0进止了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试注解,在100GB和1TB两种数据量巨细下,Ozone整体比HDFS有3.5%的优势。

经过一直的测试和优化,进级后的Ozone 1.0.0在版本功能上有了度的逾越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x情况,足球滚球技巧,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证系统,支持数据的用户无感知减稀寄存和Ranger受权集成、GDPR “Right to Erasure”以及网络构架感知。

将来,腾讯云年夜数据借将施展本身技巧上风和积聚,在Ozone的基本上开辟基于SCM的新一代下性能散布式文件体系,并连续推动Ozone正在更多腾讯表里部营业的实际降天,部署更大范围的出产集群。同时,进一步拥抱开源,深量参加Hadoop社区,进步Ozone的牢靠性、稳定性和性能,将其挨形成新一代年夜数据文明和工具混杂存储系统。

值得一提的是,腾讯大数据团队除了在Ozone 项目上的贡献除外,最近几年来在开源发域的奉献正在逐渐减速,目前已完成了大数据中心能力齐开源。同时,还联合现实业务情形推进开源技术加快落地,经由过程技术真践和翻新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为支流的Hadoop、Spark、Flink等项目贡献了大量的特征和patch。


Copyright 2017-2018 彭州新闻热线 版权所有