解密大数据存储中的键值存储容错存储和数

沈阳白癜风医院 http://m.39.net/pf/a_5837445.html

随着信息技术在经济社会中的广泛应用,人们日常生活中的网络购物、上传照片视频、更新社交网络、移动支付等行为都导致每时每刻产生大量数据。特别是近年来,数据呈现指数型增长。

年,全球范围内采集、创建和复制的所有新数据总和仅为16.1ZB(1ZB=1×GB),而年则增长至33ZB。根据国际著名数据公司IDC的预测,年全球产生的数据量将增至ZB。而我国的数据量增长最为迅速,在年,中国新增数据量占全球的23.4%,预计到年该比例将增至27.8%,我国将成为全球最大的数据产地。

图片来源:pexels

大数据与国计民生息息相关,正日益对个人、企业、国家产生重要影响。年,国务院发布了《促进大数据发展行动纲要》,将大数据上升为国家基础性战略资源。数据已成为人类发现新规律,提出新方法,发明新技术,形成新产业的重要基础。数据驱动创新发展,已成为重要资源。大数据基础设施与软件平台的构建,大数据的应用分析,有关标准与规范的制订,需要研究资源汇聚、数据收集、存储管理、分析挖掘、安全保障和按需服务等问题。

随着数据采集技术的不断发展以及新型应用的不断涌现,数据存储呈现了以下一些典型的特征。

1

数据规模大且增长快速,因此其载体存储系统变得越来越大,故障频发,数据容错已然成为存储系统的基本要素之一。

2

非结构化数据占主导,不方便使用二维逻辑来表示,如长文本、图片、音频、视频等,使得传统的关系型数据库与文件系统都难以承载这些数据,提供高性能访问。

3

存取速度要求高。为了支持大量用户对海量数据的访问和可靠性需求,数据中心采用多中心异地备份,用户就近访问,但多个备份的版本与一致性控制会降低系统的性能。

↑点击图片购买本书↑

本书介绍作者在大数据处理系统支持方面的部分成果。在非结构化存储方面,介绍了键值存储系统的读、写与范围查询等方面的性能优化方法,主要是弹性灵活的布隆过滤器设计、哈希分组与键值分离技术相结合的存储结构设计、哈希索引与日志结构合并树相结合的索引结构设计等。在数据容错方面,介绍了基于纠删码容错存储系统的故障数据恢复与系统扩容、三副本到纠删码的容错机制转换等方面的优化方法,基本思路是降低这些过程中读写的数据量、负载均衡以及降低编解码的复杂度。在数据一致性方面,介绍了本书设计的两种细粒度一致性模型RedBlue和PoR,主要思路是总结出分布式系统不同操作对数据一致性的需求,设计并实现了不同级别的一致性协议,使得备份系统很多操作在保证一致性的前提下,可以使用级别低的协议,缩短同步延迟。

作者简介

许胤龙,中国科学技术大学计算机学院教授、国家教育部软件工程专业教学指导委员会委员、国家高性能计算中心(合肥)常务副主任。曾任中国科大计算机学院副院长。年于北京大学数学系获学士学位,、年于中国科大计算机系获硕士、博士学位。主持多项国家自然科学基金面上、国家项目,参与多项国家、国家自然基金重点、国家重点、科技部重点研发计划等项目。曾获得国家级教学成果二等奖、安徽省教学成果特等奖与一等奖、宝钢全国优秀教师奖、中国科学院优秀指导教师奖等。指导的学生曾获得全国优秀博士论文提名奖、中国科学院优秀博士论文等。主要研究方向有存储系统、数据处理、高性能计算等。在FAST、SOSP、MICRO、VLDB、ATC、IEEEICDE、SIGMETRICS、INFOCOM、WWW、ACMToS、IEEEJSAC、IEEETPDS、IEEEToC、IEEETCAD等国际顶级学术会议与学术杂志上发表了一系列高水平学术论文。

李永坤,中国科学技术大学计算机学院副教授,中科院青促会会员,仲英青年学者,信息存储专委委员。获得ACM合肥分会学术新星奖、CCF-腾讯犀牛鸟基金优秀奖、PingCAP优秀合作奖、中科大海外校友基金会优秀教学奖等奖励。主要研究方向是存储系统,包括键值存储系统、内存系统、虚拟化系统、图存储系统等。目前共发表论文60余篇,包括FAST、ATC、ICDE、VLDB等。主持国家自然科学基金青年与面上项目各一项、科技部重点研发计划子课题,科技部青年科学家项目课题以及PingCAP、华为等多项企业合作项目。曾担任ASPLOS(ERC)、APSys等会议程序委员会委员,并担任JournalofComputerScienceandTechnology青年编委,西安交通大学学报第一届青年编委。

吕敏,中国科学技术大学计算机科学与技术学院副教授。年毕业于安徽大学数学系,获学士学位;年获得安徽大学应用数学硕士学位;年获得中国科学技术大学数学博士学位。同年进入中国科学技术大学计算机系做博士后;年留校工作。年在普渡大学计算机系进行访问交流。在VLDB、SIGMOD、INFOCOM、TPDS、VLDBJournal、ACMTrans.等国际重要会议和期刊上发表多篇论文,参与编写英文学术专著一部(MorganClaypool出版社)。

李诚,年获得德国马普学会软件系统所(MPI-SWS)博士学位,现为中国科学技术大学计算机科学与技术学院特任研究员,博士生导师。李诚研究员一直从事分布式计算、一致性模型、系统性能优化等方面的基础理论和系统构建的研究工作,其成果发表在SOSP、FAST、OSDI、ASPLOS、USENIXATC、VLDB、EuroSys、SoCC等计算机系统领域著名国际会议上。现担任FCS期刊青年AE。年入选ACMFCA成员和微软亚洲研究院铸星计划。年当选CCF高级会员。曾担任第十四届/第二十一届ChinaSys程序委员会共同主席、SOSPPosterSession程序委员会共同主席、EuroSysPublication共同主席、ACMSIGMETRICSPublication共同主席,长期参与SOSP、Middleware、DSN、ICDCS、SRDS等系统领域著名国际会议的程序委员会。获AIMostInfluentialScholarHonorableMentioninComputerSystems奖、ACMChinaSys新星奖()、ACM中国新星提名奖(),安徽省第五届青年教师教学竞赛工科组一等奖()、第二届全国高校教师教学创新大赛安徽省省赛二等奖。

内容简介

本书分为三篇,分别涉及大数据处理中的键值存储、容错存储、数据一致性三个领域。每篇首先简要介绍相关领域的基础知识、系统优化的关键技术以及主流的系统等,然后介绍作者在相关领域的部分研究成果。具体来说,在键值存储方面,介绍了动态布隆过滤器设计、哈希分组与键值分离技术相结合的存储结构设计、哈希索引与日志结构合并树相结合的索引结构设计等方面的优化方法,旨在降低读、写放大,提升读、写与范围查询的性能;在容错存储方面,介绍了纠删码的数据布局、故障数据恢复算法、源数据节点与恢复节点选择以及系统扩容等方面的优化方法,旨在降低I/O数据量与负载均衡,加速故障恢复;在数据一致性方面,介绍了RedBlue和PoR细粒度一致性模型及其使用方法,为在备份系统中安全使用低延迟的弱一致性同步、提升系统性能提供理论依据和实践基础。

本书可供从事键值存储、数据存储与数据一致性等计算机系统领域研究的科研工作者与研究生参考,也可以作为相关课程的辅助参考资料。

目录速览

前言

第1篇键值存储系统第1章键值存储31.1大数据特征及存储挑战31.1.1数据存储的发展趋势31.1.2数据存储面临的挑战41.2键值数据模型及访存接口51.3系统架构及关键问题61.3.1常见数据结构61.3.2基于日志结构合并树的键值存储系统71.3.3写放大问题.3.4读放大问题.4相关研究.4.1写性能优化.4.2读性能优化.5本章小结13附录专业名词中英文对照表13第2章HashKV:基于哈希分组的键值系统.1键值分离关键问题分析.2HashKV的主要设计思路.3HashKV的核心技术简介.3.1存储管理.3.2垃圾回收.3.3冷热感知.3.4选择性键值分离.3.5崩溃一致性.4优化实现.5实验评估.5.1实验设置.5.2性能比较.6本章小结27第3章ElasticBF:弹性布隆过滤器.1静态布隆过滤器的不足.1.1布隆过滤器.1.2键值存储系统访问特征.1.3布隆过滤器的动态和静态分配策略对比.2ElasticBF的设计与实现.2.1细粒度布隆过滤器分配模块.2.2热度管理模块.2.3布隆过滤器内存管理模块.2.4系统实现.3实验评估.3.1实验设置.3.2实验性能分析.4本章小结45第4章UniKV:统一索引的键值存储.1哈希索引与日志结构合并树对比分析.2UniKV设计.2.1差异化的索引设计.2.2键值数据的部分分离存储.2.3基于键范围的数据动态分区.2.4范围查询优化.2.5崩溃一致性.3实验评估.3.1实验设置.3.2基准测试.3.3混合工作负载下的性能.3.4YCSB工作负载下的性能.4本章小结59第5章DiffKV:差异化键值分离管理.1现有优化技术缺点分析.2DiffKV的概要结构.2.1系统架构.2.2数据组织结构.3DiffKV的优化实现.3.1合并触发merge.3.2merge过程的进一步优化.3.3垃圾回收.3.4崩溃一致性.4细粒度的键值分离策略.4.1差异化的值管理.4.2冷热感知的vLogs.5实验性能.5.1实验设置.5.2基准测试.5.3YCSB测试.6本章小结74第6章应用案例.1开源系统.2图处理系统.2.1图分析场景.2.2基于键值的图存储管理.3分布式数据库.4本章小结85第2篇基于纠删码的容错存储第7章容错存储系统.1海量数据存储.1.1数据规模.1.2大规模数据存储系统.2容错存储系统.2.1存储系统容错的重要性.2.2容错存储技术概要.3主流容错存储技术简介.3.1多副本.3.2RAID.3.3纠删码.3.4再生码.4本章小结97第8章RDP编码单磁盘故障修复过程优化.1RDP码简介.2RDP码传统的单盘故障恢复方法.3行校验与对角线校验混合的单盘故障恢复方法.3.1问题描述.3.2数据读取量的理论下界.3.3修复过程中的负载均衡问题.4RDP码的单盘故障混合修复算法.5实验结果.5.1数据块大小的影响.5.2磁盘个数的影响.6本章小结第9章故障修复任务的分批优化调度.1故障分批修复的负载不均衡问题.2分批修复故障数据的性能瓶颈分析9.2.1故障修复的网络瓶颈.2.2修复批次内数据非均匀分布.3分批修复模型.3.1替换节点图.3.2源节点图.3.3一批修复任务选择算法.4SelectiveEC的设计.4.1单节点故障修复.4.2异构环境.4.3多节点故障修复.5实现.6性能评估.6.1单节点故障修复.6.2多节点故障修复.6.3AmazonEC2中的修复性能.6.4模拟大规模分布式存储系统.7本章小结第10章多副本到纠删码的转换.1相关背景.2传统三副本到纠删码的静态转换方法问题分析.3动态条带构建技术.3.1基本思路.3.2示例.4动态条带构建算法.4.1算法.4.2性能与实现复杂度分析.5动态条带构建方法的系统集成.6实验与性能分析10.6.1实验环境10.6.Mbit/s网络实验结果10.6.Mbit/s网络实验结果.6.4编码转换对前台读写请求的影响.6.5编码转换对前台应用的影响.7本章小结第11章容错存储系统扩容.1CRS码简介.2CRS码的扩容问题.3基于CRS纠删码扩容优化的基本思路示例.3.1优化编码矩阵.3.2优化迁移策略.3.3校验解码数据.4CRS扩容算法.4.1设计编码矩阵.4.2设计迁移策略.4.3校验解码数据.5实验结果.5.1五种扩容策略的比较.5.2域参数w的影响17.5.3扩容后的编码性能11.6本章小结第12章基于热度的在线扩容优化机制.1已有扩容算法简介.2基于热度扩容的必要性分析.3热度感知的在线扩容优化机制.3.1概要流程.3.2详细流程.4实验评估.5本章小结第3篇数据一致性第13章分布式一致性.1蓬勃发展的互联网服务.2异地备份与系统模型.3一致性与系统性能的矛盾.4异地备份面临的挑战.5本章小结第14章RedBlue一致性模型.1已有的一致性模型简介.1.1强一致性与弱一致性.1.2多种一致性模型的共存19.1.3其他的相关工作19.2RedBlue一致性.2.1RedBlue一致性的定义.2.2状态收敛.3副作用的复制.3.1影子操作的定义.3.2RedBlue一致性再讨论.3.3不变式保证.3.4操作分类方法.4Gemini异地备份系统的设计与实现4.4.1系统概述4.4.2事务的排序与复制.5应用程序的迁移与适配.5.1编写生成操作和影子操作.5.2TPC-W影子操作分类20.6实验结果.6.1实验设置.6.2TPC-W和RUBiS的测试结果.6.3Quoddy的测试结果.7本章小结第15章PoR一致性模型25.1RedBlue一致性模型的局限25.2偏序限制一致性.3限制的推导.3.1状态收敛.3.2不变式保证21.3.3发现限制的算法.4Olisipo的设计与实现.4.1并发控制协议2.4.2实现细节25.5实验评估15.5.1案例研究15.5.2实验设置.5.3平均用户感知延迟.5.4吞吐峰值.5.5单个请求的延迟.5.6不同并发控制协议的影响22.6本章小结参考文献科学出版社传播科学,创造未来。篇原创内容



转载请注明地址:http://www.xiniua.com/jsjn/10198.html
  • 上一篇文章:
  • 下一篇文章: 没有了