区块链
挖矿,比特币,EOS,以太坊

ipfs存储 王东临:区块链存储的前世今生(深度)

133

根据区块链思想者40人论坛成员、YottaChain创始人王东临先生2018年8月5日晚间在DAGA | Blockchain & AI (核心群)的在线分享语音整理。


王东临:区块链思想者40人论坛成员,书生集团/书生云/YottaChain创始人,中国十大青年科学家,中国软件行业十大杰出青年,首届中国杰出工程师,OASIS国际工业标准组织UOML-X技术委员会主席,民进北京市委委员,中华杰出工程师委员会副会长,北京民营科技企业家协会副会长,密码学/分布式存储专家
大家好,我又来了。
上次做完分享后,群主整理得很好,发出来反响不错,所以我又答应群主再做一次分享。
我跟区块链相关的技术专长是密码学和存储,上次分享了密码学的一些基础知识,这次就讲讲存储。
存储是IT基础架构中最复杂的,而且涉及到桌面存储、企业级存储、分布式存储、云存储、区块链存储等不同的时代。
今天时间更紧张,主持人给的是1小时时间,内容却更多,所以我将以语音为主讲,关键的词用文字。我讲话有点口音,大家担待点。一、桌面存储
先讲讲桌面存储。
桌面存储是存储中最简单的
桌面存储是存储中最简单的,其实也是很有些行外人士会觉得说,这存储有什么复杂的,你看我买了这个笔记本,我买个PC来,都带块硬盘。说清楚就是一块硬盘。这个可能是一般感觉比较简单的这个存储的概念。
其实即使是桌面存储,其实也没有那么简单的,就是那个Windows,我们桌面系统主要的用Windows1为主,那么Windows它的存储系统其实做的也是比较复杂的,从最早的这个什么FAT到后面做NTFS等等。
那么存储的这个它的这个包括它的这个存储系统,不仅是硬盘,主要是它的这个存储这个系统,那么这是非常复杂,因为最早比如说一个盘可能只能够最大有有一个限制好像是两G左右,那么超过两G怎么办?那就只能切成多个盘。
这是那个这是32位系统的一个限制,当然我我这个刚才的说法不够准确的,应该说他是那个Cluster的这个数量是受到这个16位,不是32位,我刚才下那个口误收出的性质,它一个Cluster,它有多少个扇区?一个扇区有多少个?
自己,然后这样算出来大概一个盘大概能有多大,总而言之,反正就是原来的这个限制还是非常大的,所以后来就改成了32位。
从FAT到NTFS
其实在往后就是这个32位其实也不够了,然后又存在着说,我这个一个里面能有多少个目录,每个目录底下有多少文件,可能大家日常用不觉得这是什么问题?其实存储系统里面一向有一个相对比较重要的问题,就是这个大量的小文件怎么管理的问题?
一个目录底下放上一百个文件,他觉得没关系,一千个文件,1万个文件,那我能不能在一个目录底下放100万个文件,要是在温度适宜下,估计这就崩溃了。但是那个比较好的存储系统,只是完全可以支持,甚至支持到多少个亿的文件都可以,那这里面就体现出这个差异出来了。
不好意思,刚才说那个那个都是姿势的这个大小是说是就是FAT的话,16是这个两T,不是两G,我刚才又是一个口误,因为当时是太古老很流行事情了一下。没有记得太清楚。所以仅仅是在Windows底下就有FAT12这是。最早我接触计算机的时候就是这样的,12位的这个FAT表,FAT16,rs342,还有后面就是这个NTFS这个是最近这十几年一直都用的是这个NTFS。
其实关于存储系统的话,那么就还有一个缓存的问题,就是说我开一个比如说我的电脑PC里面笔记本,现在有的笔记本,就说我有一块5百G的一块硬盘,然后我再用一个64G的这个闪存,让上春来为这个硬盘来做。
缓存
做缓存,然后我的性能虽然没有那个网上的好,但是比单纯硬盘会好得多,就说你的这个当你读写的时候,如果你的这个读写的这个文件这书去他刚好在黄村里面缓存命中了,那么我就享受到是缓存的性能,如果缓存没有那么还要到这个持久化存储,就到硬盘子里来去出血,那么这个时候速度比直接都是硬盘还要略微慢一点,因为是到缓存里面先找了一圈,大体上是这么一个说法。
它实际上在运作过程中有专门的这种缓冲的算法,一般说来就是这个最近最常使用的保留在黄金区,然后就没用的就把它从环境区里面替换出来,这里面有很多这个复杂的算法。
这个算法的话,有一点大家一定要注意做存储的,因为涉及到的是用户的数据,所以比起你的各种什么功能性能这方面来说,最重要的是什么?可靠性,因为你哪怕慢一点,不能把用户数据丢了。
可靠性
那么像我刚才讲的,这个一旦加上缓存之后,这个数据的导入导出等等,其实来说就增加了一一层这个数据问题的这个风险。所以这些都涉及的较特别的那个仔细,特别久经考验才能拿来用。
所以为什么说淳朴是最复杂的,就是因为存储你是不能够出差错的,存储这块的东西,他你不能够只是图1个功能快速上线,你必须要对这个数据的可靠性来去负责。所以这里的所有的这些架构设计必须是容错性特别好的,特别不容易出错的。
然后你的这种实现要比较可靠,代码的这种检查测试已经过一段时间的这个运行之后才敢拿出来给用户来去用,所以存储系统它的这个特别重要,也特别的一般说也特别贵,这整个it技术架构中应该说最重要的一个部分。二、企业级存储
那企业级存储那有个什么概念?这个就是桌面机,就指的是你的这个PC笔记本,在这个桌面的这个所谓用户,就是各个终端,我们每个个人用的,这叫专门用户。
那么企业级就是说在这个街坊里面你看不到地方这个服务器用的,那么这个的话,因为它的存储是所有大家都共享的,他一定要出问题,是整个这个企业整个公司都会受影响,所以他的要求就更高了。
可靠性也好,性能也好,各方面要求就更高了。
企业级存储
所以他也就会更贵了。
那这这个是企业存储一个概念,一般都是说你拿桌面级的说什么比思念根本看不上,我们做企业级的这个要求,跟你那是不一样的。这就有点相当于说做银行,广州金融资产的,看你的这你的家里面买一个什么家用的保险柜,他就觉得你那个算什么,我这个金库我这个才是这种可靠的能够扛,什么什么样的这种攻击,什么样的这个保护,你那个家里面弄弄一个保险柜,你那个只是家用级别的,根本就是靠不住的,我弄两个专业的这个到这就就把你给偷了,就是这么一个感觉。
那么这个企业级存储,我给他他讲一个概念,现在基本上全都是几个大的这个it巨头在把控像就是IBM惠普emc内泰艾普HDSR这几个是最大几个巨头。
那么我们中国的这个华为,我们是民族的骄傲,这个华为做这个企业级存储做了十几年,也是最早跟R外资的巨头一起学,然后干了十几年,据说都进入到这个高层的这个模拟相线里面来了。那么现在在一些这种像银行这样的这种关键应用的时候,对?
像华为这样的排除在外,它依然是只有那几个外资巨头的能够使他们能信得过的。因为然后这些所谓企业级存储着巨头公司,他们就拿这个数据的这个安全性和性消耗用户,你这个多花点钱有什么关系,万一数据丢了,万一系统崩溃了,你整个不就万一存储这个崩溃了,那我你的整个系统不就全崩了吗?所以用户也舍得花钱,所以这些卖的都特别贵。
价值真的那么重吗?
贵到什么程度?我听说某家公司的某一个产品线,行硬件在内这个毛利大概在85%以上,大家想想看,这是什么概念?那么这市场有多大,直到了今天。对各种分布式存储云存储已经强调了很多市场之后,这市场大概每年大概还在600亿美元左右。
你们想想看这什么概念?这还是一块很大的市场。那么这个企业的存储其实当然我刚才讲了半天,说他这里面多么专业,有多么高的要求等等等等。
其实这个技术经过这么几次研究,其实也没有什么太多的这个技术秘密,已经是一个非常成熟的了,之所以被几个巨头能够把持的原因是最主要的,并不是一个技术参与,更多是一个品牌的差异,就是这些大公司用了这么多年,然后记得很多的品牌,然后这用户他也出了几钱,然后一旦他买了一个品牌,晓得,万11000万一出问题的,那谁买的谁就要担责任。
所以那那其他的买大品牌总没有错,所以就出现了这么样一个情况。我刚才讲的是这个产业新状态,那么我想今天是技术讲座,那么我主要就是讲一下这个技术,那么从这个企业级存储这样展开讲了,我这么说,我有个朋友专门做存储技术的这个培训,它的是入门级镇,大概就是讲三天,然后他说只能讲一个基本概念。
基本概念很重要
所以这里面的话我也不能够往深了讲了,那么我要说的是,我只能简单说一下,我别说是生了,那个表面东西我也只能够比较简单的讲一下,请大家这个理解和原谅。那么企业级存储的话,它主要的形式还是说整个系统有共享一个特别贵的特别可靠的批示的公司,花大小钱买过来的。所有数据都存他,那他是可靠的靠的住的。
然后,那么那其他的各个系统的那个所有数据都往那淳淳,那我们就是事后的了。然后他就去讲究一个是数据的可靠性,一个是讲究它的这个性能,那么从可靠性的话,那么这时候就有了容易编码的概念,一般称为叫栗激素。那么锐的它有不同的这个级别,那么最常用的有那个什么?瑞在灵瑞的,依瑞的五和瑞德六。
还有他们的这个组合,比如说什么瑞E0R瑞瑞的五零等等,那那个零,它其实是没有勇于就是把好多快盘把它绑在一起,就相当于是一块大的盘,比如一个盘,四个tea or10块盘绑在一起,就相当于一块410T的盘,从外面感觉它就是一块盘,所以没有任何的荣誉,任何一个盘坏的,那么整个数据都会有丢失。
瑞德异我们叫做镜像,什么意思?就是说我同意每个数据写两份,其实就是双副本,然后任何一个盘坏的没关系,然后硬盘数据还有一份,所以这叫做Raid1。RAID1
它的这个读写性能跟瑞跟您比起来,差别不是太大,但是朋友多用一倍的盘。但瑞泽五就是一个比较常用的那个制作一个级别的。它的就是有一块冗余,比如说我整个这个瑞的组里面,我有这个八块盘,然后我可以画一块的话就是说不完没关系,数据不会丢,这八块里面任何七个盘都能把数据能够取出来,然后所以锐队伍的话,至少要求得有三块盘才能够实现这个内任务。
瑞典六的话就多一次容易容易两块盘,所以他至少要求四块盘四个盘里面我能够去两块出来,只要任意有两个盘没坏就行了句话说,它总体上就应该是容易两块,可以任意划掉其中两块盘,然后可以保证那个数据也不会丢,回到第三块的时候数据才会丢。就是说我们如果单独依靠硬盘厂价,给的硬盘质量多么好,硬盘不会坏,这点其实已经是不够用了。
对,个人那个作品集存储,你可以这么做。但是企业存储的话,这样是可靠性是不够的。那么我就要允许不管你买了哪家的盘,买到资产多么好,多么贵的盘。
它盘中有坏的时候,担心的朋友买了1万块100万块盘的时候,绝不可能不坏的,所以他在用的过程中,而且就算他盘得真的很好用的过程中,因为种种原因,比如说你因为这种什么高温也好震动也好,还是因为其它的甚至还有一种研究说,噪音也会可能导致硬盘损坏,对冲硬盘大喊大叫,还真有可能会影响到它。
体系架构允许出问题
所以的话,那么就在做这个体系架构设计的时候,一定要允许他这个坏。从这个企业的存储以上对于这种故障的容忍度,这就是设计的一个非常重要的一个因素。
那么R瑞午的话允许画一个盘,然后他会这样的,就说一旦这盘坏了,那么我时时有人在72小时都有人在现场运维一旦盘坏了报故障了,然后马上就用盘把它换掉,那么这个时候的话,每块一个盘我都放假,美化一个盘我都换掉。
如果这个只要运维就是运行维护这块,因为工作做得好,那那么这个盘就数据就不会丢比较可靠,这是这个瑞德我当时的设想,这里面体现出企业存储一个重要特点,就是有专人在机房做,运维时时有人看护着,这是它的一个重要的。但是它也存在着一个风险,就是说盘坏了之后,换了新版新盘的,在门店之间什么叫重建?
就是我我新盘要要往里写数据,这叫重建。因为那盘比较小的时候,一个硬盘,像我最早买硬盘的时候大概只有几十兆几百兆那个重建会很快。现在的硬盘动不动就几个T那一重建可能就需要几十个小时。那万一在重建的过程中,在这几十个小时之内,如果还U盘坏了,那怎么办?
那么这就是一个风险了,所以我要解决着风险,所以又又搞到这个set6我们追的六,它就更多浪费,附上空间。
RAID6
但是它的故障容忍度就越高,一个盘如果坏了,然后那个我马上换。在重建过程中,如果又换个盘没关系,等我这个盘只要重建完了,又勇于又多了一个,然后这时候我我就可以重见那个坏的地儿还盘,所以RAID6的可靠性比锐的51高很多这个很多,不是几倍的关系,这都是!
数量级这好几个数量级的这个插。我把我那个前两年我自己做过的这个计算的数据我调出来的,我们就是按照这个厂商给的这个数据一块,企业级硬盘它的年故障率是0.55%。那么在这种情况之下,如果是15块盘一个睿智组的话,那么为着您的可靠性是就12.0,就是说每年可能会有8%的这个乐组可能会坏掉,那么瑞泽五的话就变成了99.99,就我们通常称叫四个九,那么所有的六有多少?
R六六大概就会到。这个可靠性你看它就相当于比如政府就高了一千倍的可靠性。企业级存储我也就先简单介绍到这里,这里面要研究生这个非常多的我就就表面的东西先简单介绍这么一点,然后我们下面介绍一下这个云存储。
说错了是这个分布式存储,这个语音讲话就是容易有口误,不像这个打字相对来说,有一个重新可以准备我的一个过程,请大家这个刚才也有几次口误了,请大家谅解一下。分布式存储

三、分布式存储
那么分布式存储他和这个云存储他什么不和这企业存储什么区别?这其实跟我上一次讲的这个it基础架构的这个是第二代技术支持有关系的企业,一存储就是我们讲的第一代技术,分布式存储就是属于第二代技术。
那么它的特点是什么?就是说我不需要你每一个存储那么可靠那么贵,我不需要,我也同样也是靠数量,我来做冗余,然后我的数量很多,然后浓度也很多,最后得到我的这个可靠性,其实比你这个企业的存储其实一点都不差,而且甚至还更可靠,这个就是这个分布式存储的一个重要的一个特点,我们教室通过叫水平扩展来靠拢于这个可靠性水平,扩展,提高它的这个容量和性能。
那这个R分布式存储,他大的思路什么意思?就是我第一我选这个年假的这个PC服务器,就是拿PC做服务器,然后每台服务器里面有很多个硬盘的盘位,可不是我们通常的PC讲你们可以挂什么?两个盘四个盘,它这里面可以挂什么?最早是挂什么?
六个盘八个盘,后来就是12个盘24块盘一台服务器,你们可以挂挂好这个盘,然后这是一个叫这叫一个存储服务器。那么我很那个存储服务器把它连接起来,那么就构成了一个大的一个存储。
然后那对外通过软件把它控制起来后,那你感觉他还是一个很大很可靠,容量很大,可靠性非常好的这样一个存储系统。
11个9的可靠性比7个9的可靠性高了10000倍
那么因为这个PC服务器很便宜,然后里面装的也是相对比较普通的这个硬盘,所以它整个它的这个成本会控制得非常低,而且它的可靠性就说我是靠荣誉性来提高它的可靠性。那么他怎么冗余?
那么一般典型的分布式存储就是叫我们叫三副本,就是一个数据,平均一个数据是要存三份,这三台不同的服务器上各存一份,那么它的可靠性多少?我们计算过可靠性是这个11个九,这就是为什么从这个亚马逊的S3这样的存储它的可靠性,说是按照11个九来去设计这个原因,那么11个九合作七个九,你不要以为只差了百分之几十,它的可靠性实际上是差了1万倍,就是刚才讲的这个6.6比对政府高一千倍。
那么分布式存储的这个三副本比资格最的六,又可靠高度1万倍,就是说它的这个虽然它更便宜了,其实可靠性不仅一点不差,反而还比传统的这个企业存储还能够高很多,不是高过百分之几十,百分之什么几倍的这么一个,而是能够出1万倍出来。
然后它的分布式存储,啦他这种扩容就是靠叫横向扩容,不像那个企业级的这种第一代技术,它是纵向我蛮越来越大的一个越来越贵的,这什么机头往往你那拿去扩容,而是说我要靠我只要增加这个存储节点,然后我就可以扩充,而且在扩容过程中服务是不中止的,不不需要停机,这些都是非常重要的这个关键点。
不间断运行
这些服务器可不像咱们个人电脑这个关机关机无所谓,服务器是要72小时不间断运行的,你不知道什么时候就有人访问什么,对?你看我们现在看来,网站要是登了,腾讯当了十分钟,那都是个新闻,所以你你的这种扩容能不能在线不停机扩容,这就是要求就比较高了。
那么它为什么可以不停机扩容?就是因为我增加出口节点,总是在网络里面,这存储这个整个这个分布式系统组织,分布式就是数据存在不同的这个存储服务器存储节点上,然后每一个冲击点,它是通过这个网络加入到这个存储网络里面来。那么他不管是出故障了把它拿走,还是说我要哭,总增加新的节点来,都不影响其他的正常运行。
当然这里面一旦有新的这个存储节点加入进来之后,那么就需要整个数据做一个叫再平衡,那么就要把原来的有些数据拷到这个新的这个服务器上,数据能够相对比较均衡一点。服务器的这个压力负载能够相对比较平衡。那么在做这个叫再平衡的时候,那么这个时候各个节点都会比较忙,整个系统性能会有明显的这个下降。
所以如何解决这个这白,但是就是我刚才讲再平衡的这个新的问题,也是这个分布式存储的一个要点之一。
但是分布式存储大家注意到没有?其实有的地方它是有退化的,就是说企业级存储里面的这个数据容易率其实不是那么高,比如说刚才讲这个六,如果我是15个盘一个这个组的话,那么我就是其中只是我能够存的信息是三个盘的有效信息,我的总盈率只是15/13而已,相对来说不是那么高。
分布式存储用了三个副本
但是分布式存储用了三个副本,就说总利率是300%。其实它占的这个盘的空间盘的数量其实都很多的。那为什么说分布式存储笔写存储还要便宜很多?因因为切身所讲,这厂商都是以数据为人质,要挟这个用户要的价格特别贵。那么贵到什么程度?为了他,甚至就沿着硬盘,他都要锁码,就是你只能买我的这个硬盘。
你从硬盘的原厂商来去买都不行,不能用,只有这个硬盘云厂商专门为我的存储公司供应的,那个有特定编码的那个硬盘才可以用,然后价格就可以贵上好几倍出去,其实全世界的硬盘公司到今天大概就只剩下三家左右了,包括我刚讲的那些公司,通通都没有资金,盘,以前IBM自己有硬盘已经卖掉了,现在这家存储公司其实自己是不生产硬盘的。
而这个分布式存储PC服务器是大路货,硬盘大路货。所以他虽然用了三倍的冗余,但是它总的成本还是要便宜很多,而且分布存储它的技术要求其实会更高,因为你要去协调这么多的这个中枢节点,最后总体看起来像是一台大的这个存储服务器一样来,他当节点不可靠,通过它最后形成了一个可靠的一个存储词,这有点像我们区块链,用不可靠的做节点,那那形成了一个可靠的一个有系统的,所以这样说对于这个软件的这个设计要求还是比较高的。
Google对分布式存储做出巨大贡献
我在上一次讲座的时候,我提到过这个第二大技术里面google做出巨大的贡献,包括这个分布式存储,那么我们google的这个好豆腐反思疼,那么也是其中的一个非常具有典型意义的这样一个系统,那当这系统其实最早是什么假货的人搞的,但是发扬光大,这是google这个毕竟是,但这是开源的的,其实大家都在用,包括Facebook包括什么都在用。
但是还是这个好豆腐生态,还是以这个google为首要搞起来的。那今天也有很多这个创业公司在做这个好多普的生态,google也有自己的那个红军系统,叫这个google的这个发扬丝腾。
其实就是这个好豆腐,只是它取了一个google的这个名义,这个是我在硅谷时候跟这个google的工程师,这是核心工程师专门去了解过的,问他们做的跟这个和豆腐都差不多,google也有自己的那个红军系统,叫这个google的这个发药时疼!
其实就是这个好豆腐只是它取了一个个股的这个名义,这个是我在硅谷之后跟这个google的工程师,这是核心工程师专门去了解过的,问他们做的跟这个和豆腐都差不多。
云存储

四、云存储
那个云存储,就是原则上用的也是这个分布式存储,但是云存储,因为语音是为公众提供这样一个大的一个存储服务,它的这个量是要远远超过这个企业集成的,就是这个企业级系统,他们那些讲的,我们做一个企业多么重要,数据多么多,可靠性怎么样,但是他那个任何一个企业的量,永远没法跟这个互联网公司或者云服务公司的量去相比,所以云存储它的这个要求会更高一些。
我换句话说,那么企业的存储是可以用这个分布式存储来代替的。但是云存储只能用分布式存储,用这个企业移动技术,那是做不到的,我最早我讲过有有一个网站叫阿里巴巴用企业级存储来去做了。
那么到了后来他也没办法,只会之后换成了这种那分布式存储,这个是因为我讲的这种企业存储,它的扩容是这种叫纵向扩容,你如果换换换换成最大的一个设备了,你还怎么换?而这种分布式存储它是横向扩容,它可以无限制的,就是说只要加长节点就扩容,所以它可以无限制的增加,这个优点是超出了这个企业的存储的。
所以它不仅仅是一个廉价替代品分布存储,它也是有超出了区域存储的这样一个优势。那我们再看这个那么云存储的话,那么它除了考虑到这个作用分布层次来搭建的时候,它其实还会有更多的问题。
首先那个有这个跨地域的问题,因为你承载不仅是一个企业,你承载哪这么多用户的这个数据来,那么你要不要做这个异地容灾的问题,那么一个大的云服务公司,那你是不是应该都有在各个不同的城市都有它的这个节点,当时你讲的这个节点是个大数据中心,而不是一台服务器,就是他都有有数据中心。
那么在这种情况下,那么你应该有这个异地容灾的这么一个规划和设计,但是实际上和大家想象的会不一样。
异地容灾
其实这个本土的这个服务商,他一般从来他就算在各个全球各地有很多的机房,但是它本身并不自动为你提供异地容灾的这么一个服务。我正讲的这个容灾的意思就是一旦出现灾难之后,然后能够马上能够去恢复服务,我能够容忍这个灾难,不会因为灾难摧毁我的这个所有的数据,退回我的这个技术架构这个叫做容斋。
实际上这个事实上真相是不管云服务商,亚马逊也好,阿里也好,它在全球建了多少个机房,他那他是每个机房单独收费,你要想一容灾,你自己在各个我的多个机房上都购买操作空间,然后你自己来去做数据的这种那那个融灾做数据的复制同步这这样的一个这个是目前其实是这么一个现状。
那么一般所谓的这个分布式存储技术,它其实本身并不是去跨这个地域的,一般指都是在同一个地域的同一个地方里面,它是跨不同的服务器,或者跨不同的机柜,但是他一般不会跨地域,那么有很多的这个分布式存储系统,它在做宣传的时候,他说我可以跨地域实现这个实现这样一个低穿的分布式。
但是事实上几乎没有在这个商用的生产系统,一般没有人这么去用。因为它这个性能会非常的差,它的所以以至于没有实际系统在使用。那么真正能够使用的是什么?其实就是说我是在同一个地点,就是同一个机房内部用分布式存储,然后我在异地之间用容灾系统的方法来去实现,那么为什么这个要做容灾系统有单独的系统,而不是存储系统做?
网络延时
因为它的这个性能它的延时不一样,就是说因为你的那个异地的话,它的那个网络的延时一般会在几百个毫秒,尤其在中国美国会比较快,美国大概几十个毫秒,中国可能就会到几百毫秒的量级。而你这个根部存储它的这个延时大概会在几个毫秒的这个样子,那么这个时候的话就说得得有数量级的差别,那么我就那那种方法就不好使了。
不仅仅是刚才讲这个颜色上的这个差异,这个L的岩石和这个网络的延时的这么一个差异,就网络延时就是网上网络跨地域的这样一个数据传输所需要花时间叫网络的这个演示。那么它的更大点再说,从做容灾来说,应该说他有他的很多特殊专门的技术来。
你如何在不影响应用情况下能读数据?然后数据如何保证它的完整性等等,这个里面其实也有很多很深的学问来这个已经超出存储了,那我就不细讲了。
我可以这么说,原来传统的专门即是以这个G为单位的,当然现在有些个人倒TB上,但是也是最近传统的观念,就是这个桌面级是以G为单位的写的,存储那是以这个TB为单位的,那么到云存储往往就是pb级别,那就起步了,一个pb就是一千个T叫就一个pb,然后一千个这个P是一个1B这是我们一个比较简单的直观的讲他们这个这样一个区别,这个区别就有点相当于什么概念?
电话交换机
然后咱们做的那个咱们说这个电话交换机,这个企业,你们内部各分工的这个企业交换机,那么电信用的那个交换机,大家打电话用交换机,那个是多少亿用户用的,那是叫电信级别交换机大。
那么实际上当你到了这个pb级别甚至更更多的时候,那么这里面还会有一些这个问题,所以比如说虽然理论上你也分不清楚,你只要完你不当加成节点,你就可以容量可以提升来,但是真正做起来时候来保证它的这个性能可靠性,出现任何故障的时候,它的故障的融入程度就在任何一个时候都可能出现故障。
你不要说噢我刚好就在我做什么事情的时候,就那一瞬间,虽然所以这个他就崩溃了,你不能怪我,那那没那是任何时候你都不允许数据出故障的,所以这是一种设计起来就都是特别复杂的,那我这里面就不吸氧了。
其实真正当你真到了像比如像google那样的几百万台服务器的时候,这里面有很多复杂技术,我就不细讲了。这里面我可以介绍一下,我们对分布式存储其实是做了比较大的一个贡献的。
我刚才讲了现有的这个分布式存储,它的数据总盈率其实是三倍,这就是其实是特别高的,然后它的这个数据路径,它是从你这个计算服务器的那个虚拟机到什么接触网交换机,到汇聚网交换机到核心网交换机,再到充斥网络的这个户籍网交换机,传输网络的,就是网交换机到存储的元数据节点得到程序数据节点的下来,其实它的这个性能颜色是比较慢的。
我刚才讲的一般典型的都会在毫秒级别的这么一个岩石,那么这个对于硬盘本身也是行长级别,再说这个还算是可以接受的。
闪存
我当时将来便扫尘后你就没法接受了。
闪存的这个岩石它是在微秒级别的。那么如果你用一个毫秒级别的软件去匹配一个微秒级别的存储介质的话,那么你是PK不了的。所以这个散存。当它的持续降价的时候,它未来它会把现有的这些这个技术架构的东西都会有这种巨大的这样一个冲击,就像当年的这蒸汽机一样的会冲击今天的所有这些巨头,会把他们逃掉,像恐龙一样把他们干掉。
那么我们做了什么事情?我们做了一个叫分布式共享这个存储,还有叫什么去tCPIp的这个技术,最后他实现什么?第一是我把这个存储系统的这个性能大幅度提高,然后我会把存储系统的这个数据路径大幅度缩小,这样的话把它的性能提高到了这个微秒级别,可以跟闪存相匹配,这是我们干的第一个事情。
然后我们干的第二个事情就是我们又重新启用了这个容易编码来实现这个数据的可靠性的这样一个保护。
刚才大家我也提到过了,其实从做瑞的到做多副本就是这个三副本的这个分布式存储其实是一个倒退,那么他为什么要这么倒退?
其实也是有一些迫不得已的原因的。这个原因就是说他在做分布式存储或者云存储的时候,它的服务器本身它有我们叫单点故障,就他的cpu内存都可能会坏。
服务器
一旦一台服务器画完之后,它上面的所有的盘全部都掉线了,就盘不不一定坏,但是他都都不会访问了。
这个时候如果你的服务器你的盘用的是瑞典组的话,那所以整个的组全部掉线了。对,就是你这个组你可以去解决这个盘哗哗哗的问题,但是你解决不了服务器坏的问题。所以他只好把这个数据存在多台服务器上,这就是多副本,就这么来的。
那有人可能就会说了,那我能不能说这数据存在多个节点上,我用这种用一编码的方式来去实现这点的话确实是早就有人去做了,但是做好的结果就是它的这个性能会特别差。
然后复杂度比周瑞的复杂度要高很多,然后我们说他那个不叫这个瑞德,他叫这个瑞把。把这个D换成了,这个N所以到现在为止,几乎没有一个真正能够在性能可和性方面都能够满足的这么一个方案,真正在生产系统商用能够实现。
所以我们就用N加三的容于实现了传统N乘以三的荣誉,同样效果就说比如说同样陈述句这12个盘,那么我们用12+35块盘,就达到了11个九的可靠性。
而用传统的这种分布式存储,而且讲传统其实就指现在流行的所有的这些存储的各大公司都在用的,那么它的就需要36块盘,到现在看我的成本降多少,然后我这样的空间,我的号店全都跟着下降了,这是我们的第二个贡献。
超人控系统
那么我们第三个贡献,我们做的是这种超人控系统,再一个把这种计算存储做成一个子系统,把它把它融合在一起来,然后再一次系统形式再去扩展,而不是像传统的是把计算当成大城市存储为大程度词。
如果说计算刚才大的计算资源池存储最大的存储资源池,然后中间通过痕迹化机连接起来,它每一个词特别大,然后中间的网络机也特别复杂,所以这那么这种架构的话被我们打破了,而我们新的这种方式的话,它的这种扩容时候的这个可靠性就非常简单,很容易就能扩到很大的一个规模出来。
以上介绍的就是我们在这个分布式存储云存储上面做的这个贡献,我给他举个例子说,同样存储一个EB的存储,这现在还是一个非常大的速度,非常考验你的功夫的,别人家可能要上万平米的机房才能够去建,而我们只需要3000平米的机房。
然后我们的这个建设成本和我们号店都比别人现有的这些大公司的这个技术要能够节省非常多的这么一个比例,这存储真太复杂了,你看我稍微稍微的我还是跳着讲,只讲最表面最新型的一点东西出来,你看这一小时过去了,现在才刚开始讲区块链存储,大家就耐心点,好,我下面开始讲这个区块链存储了。
区块链存储

五、区块链存储
那么区块链存储的话,我们先讲,最早的区块链就是传,我讲我们话说叫传统的区块链,那就是比特币这种传统区块链,他存储存哪里那区块里面的。然后它的这些数据实际上是每一个全节点就全占本节点,他都要存一份的。
那么现在比特币的全占本节点大概是5000多个,我的印象中那么就意味着它的这个存储就存储5000多份,这个荣誉率是非常高的。但是区块链就是靠这个荣誉力去实现它的可靠性,就是说我每一个节点它都是不可信的。
但是我总不能说我这点同时变坏人,那么这时候我依靠大多数人就形成了一个可靠的一个系统出来,这是区块链设计的一个基本的一个原理。然后这个东西为什么还可行?
因为它每个区块传的数据很少,像比特币一个区块才一兆,后面讨论这个要扩容也不会快到什么,两次要撑死了十兆个人提议,那那么现在的好像我的印象中,比特币到今天发展这么多年了,这么多数据出来的也不过才几十个!
G对我们的春笋说这几十个G那个根本就不算什么,虽然还有人去抱怨这个会越大,这个其实是一个非常小数字的,你就像几百个G又算什么几个T都是小case,所以这个问题的话倒是虽然他重复这个几千遍的这个存储这个到那融于问题都关系不大。
每个区块存储的数据非常有限
但是它毕竟每个区块存储的数据是非常有限的,有限到什么地步?他每个区块那个他是要打包的交易,就说我们有多少交易时候是要寄到这区块里面来的,然后用这个存到这个区块里面,让所有账本都记下来,然后让大家去做鉴证,才能实现它的这个可靠性。
但是一个区块就那么依照大小能穿多少笔交易,那么它出来一个什么问题,交易炒的时候倒没事,交易多的时候,据说这主猜到需要一天多时间才能够把它那个打包,就说每个区块只能打包一部分交易,因为煤气快打到变成交易,它十分钟出一个区块,你算之后堆积这个几几万笔,几十万笔交易,一直都没有能够打包进这个区块,所以要等到20小时以后,才可能把现在的区块全部把它把它记录他。
那么在你的这个交易没有进入到你的区块之前的时候,其实你这个交易是叫没有被确认的,像你我转账了。没有什么情况?他确认这状态。现在我们银行转账基本都转过去了,它这个转账可能一一天有时候都可能转不过去,但如果交易少的时候,可能预期很快,那交易多的时候他就会转的就会特别慢,所以这个是去框架存储,它存储空间太小了,就小道就连记一个账他都经常都不够用。
那么人类数据有多少?我会告诉你,现在大概一个是比较大工这个算法,到现在为止,人类异常的数据大概已经有了几个,ZB了,那么到什么2025年左右能到几十个利B大概就是这么一个情况。
大数据
那么你整个这个区块链总会才几十个,G有几百个G这个量级那你才能成多少数据,所以区块链这个存储只能存一些非常简单的,非常少量的,当然也是比较重要的这样一些数据是可以的。
那么你要存我其他的数据来,他这个其实是完全不适用的。那既然如此,那为什么现在很多人在讲这个区块链存储,那我就讲现在却存储的新的这个发展的这个阶段,那么区分存储的下个阶段就是以这个叫APFS为代表的,它做的是一个叫去中心化存储,就是我把数据存在各个节点上,它不是不是存在区块里面的?其实这个IPS本身他不是区块链,他只是一个叫去中心化的存储。
然后他用的概念就是说我把数据存在分成了很多份,存了很多节点上来。然后只要这些节点不是同时的话掉,那我数据还会有,也是用刚才讲的用容易编码的方式来数据实数实现数据的这种可靠性的保护。那么我们可以这里面可以去做这种计算它的这个容易程度。
那APFS它是允许你自己用户是自己去设计的,那你自己去定义,反正订越多,你花的钱就容易越多,花钱就就越多,那么你可以指定这个这个就是N中取,M比如说我这H70RM取这个30,就是说我是传到汽车节点,只要任意三四个节点还在,那么我的数据就能恢复。
那么当然想这个可能你会去问,那么中间如果节点时间推移,慢慢的它失效了,关机了,那怎么办?高可靠性
不用担心,因为每一个节点失效的时候,就会系统会选出另一个节点,他来去把数据复制一份,所以不会担心的问题。
就是说比如还刚讲的38/70,就是说当我有一个节点,当今故障光去找,不管什么原因的时候,那么就会从其他的六十九九点钟任意跳出三河酒店出来,把数据恢复了,然后就恢复出那块假的那D70个节点它的那个数据来,然后再选一个新的地点来代替它,所以这样的话,你只要不会说41个节点同时全部都坏掉,那么这个数据它就会永永远都会在他是这么一个原理来去实现的。那这个去昨天存储跟区块链什么关系?
是因为做。APF这个团队还要做一个区块链项目,叫做这个发扩印,然后用犯困来作为这种去中心化存储的这么一个激励手段。就什么意思?就是说你任何人给他是硬盘的去挖矿,到这个这个APF是什么来来去挖矿。
然后你你挖矿的时候,你构成了你存储空间,然后要用的人就是就买这个发空运的这个B然后然后拿着B来去换存储空间,简单说是证明模式,当然它这个货币模型讲起来这个也还花点时间来,这不是我们今天讲存储的重点,我就不细讲了。
那么目前的状况是这样的,是APX从2015年上线到现在一直在运行。区块链存储
发扩音是在去年容纳2.5亿美元,但是还没有上线。就说这个存储系统在的,但是它的这个激励的这个系统这个区块链舅舅还没有上线,那么目前就是这么一个阶段。
实际上那现在很多人讲的这个区块性存储就讲的是这种用区块链来经历的这样一个去中心化存储,这就是现在通常所说的出县区矿建存储,就指的是这么一个意思,那座这种区块链存储的话,那么它有它得很大的一个价值来,就是说我可以数据的话,其实我不需要那抓钱存到这个区块里面去的,我只需要在区块里面存一个指针,我真正的数据是存到这个这种去中心化存储里面来的,然后我在我的区块里面只要打包一个指针来,那么多指针,它指枪的这个文件就是可以无限大的。
就比如说我们讲的这个那个USIES它现在它在底下的存储,其实就用的是这个IPFR来做成US的这个存储,但是APFS那它有APS的这个问题,除了它的这个经济模型这个发扩音这个还没有上线以外,那么他有几个比较重要的问题,一个就是它的数据没有加密,加密这个问题对于这个区块链存储来说,它是至关重要的。
为什么?对于一个中心化城市来说,不管它叫什么云村组还叫什么企业存储。对中性化城市来说,我们对这个中性化的机构往往有一种天然的信任,它是一个专业干这个的,他有严格的纪律,它有规范的制度,有很好的内控措施,所以或者数据传达去事有有人管的,所以就想大家觉得我把有银行的保险箱,我把东西存到银行保险箱里面来,这是应该是可靠的,会有这种感觉。
腾讯
所以所以我的这个中心化机构它可能是google,可能是什么腾讯,大家会觉得它是相对比较可信的,我一个频道把现网数据传到去,他也没有闲工夫拿去翻看我数据拿去干什么。
当然了其实这个问题并没有那么理想,也逐渐在被人所怀疑,比如说百度现在的云盘基本上被人家关掉了就成百度了,那么百度对于数据,它的这种职业道德口碑怎么样?
我想至少可以说有还是有很多人是不信任百度的。那么其实是比较好的行为规范的,比如说Facebook大家应该知道前段时间那个什么叫什么剑桥那数据公司,用Facebook数据来去这个做了很多的研究,最后引起了一场虽然大波最后查博客,跑到美国国会做一天的这样一个咨询,然后包括现在欧洲出现出了这个数据隐私保护的这个政策,就是针对这些有数据的大公司的。
那么但是不管怎么样,至少到现在为止,大家觉得我数据放在这些中性化的大公司里面来,我至少就算不好不爽,我还能够接受还能忍受,但是到了这个区块链存储的时候,它的每个冲击点,难道挖矿了人根本不知道他是什么人。有时候遥远的陌生的人其实就罢了。
他有可能就是你的同学,你的同事,你的邻居,你的竞争对手,或者说你的情敌等等都有可能。
IPFS
那么如果你的数据不加密,你就存到那个硬盘上来,你觉得是不是一件很可怕的事情?
那么IPFS它口号是叫取代http,他意思说用APS码冒号加上哈希值代替http加上url,那么这个哈其斯我上次讲过的,如果大家不记得的话,你可以说就相当于是一个指针,一个这样一个男。那么他这个先别说他这个是否可行,因为IPS它没有计算能力,只能够取代动静态网页,不能取得动态网页,所以它并不能取得。
HTTP那么就这就算是他魏征,这是一个非常好的一个marketing非常好的一个口号,也是他能够从两多亿美元的一个非常重要的一个关键点。但是就算他真的能够取得一些GDP你们有没有想过,其实他这里面相当于说明一个什么事情?
它只是设计用来存储像网页这样的公开数据的,它并不是设计用来存储你的个人和企业数据的,你的个人企业数据往上面放,你还是小心。而且一传上去,你可能删都删不掉,不小心放上去那可就惨了。那这五天怎么办?
那么就有人去做了加密的这么一个奶那个存储,那这这这是有人做的。其实这里面其实有没有想过,为什么abs项目方它没有做加密的?这其实是有原因的。他自己也是跟你讲的,要加密你自己在做。
加密
他不是不知道数据需要加密,等他一说你自己在做,然后我是不负责的。那这个什么原因?
那我来给你们介绍一下。我们做这个云存储的其实是有一个非常重要的一个一点叫做这个数据的去重,我刚才介绍云存储的时候,可能忘了最后这点了,那么在区分存储里面,我把它这个来来补充一下,这个问题是是是存在的,非常非常关键。什么叫去重就去掉重复数据,比如说我有一我有一个那个项目计划书我有。
团队成员都有,那么可能我的这个客户他也有。当我们大家都往这个区块链上存,或者网银存储尚存的时候,那么数据成几份,我是不是只存一份就行了,这物理上只存一份。
每个人看起来感觉好像这份都是属于我的,那是通过这个系统给你这么一个感觉,其实物理上只存了一份,当然说这里的时候我一定要专门注明一下,所谓这一份它本身是要带冗余编码的,就我刚才讲的那种为了数据可靠性的做荣誉,不管这种,于是叫统一编码这种鱼,还是你去做多副本,那种鱼那都是要去都需要去做种鱼的。
所以因为冗余中秋有一种方式是多副本来做冗余,所以有人把这豆腐本和我多个人去存也要存多份,很容易就搞混在一起的,这是一个非常容易搞混的概念,来请你们一定不要混淆的,那这是两回事。
数据可靠性
一个是数据可靠性,就一份数据里面我要高兴,他肯定要要要做纯勇于承属于中是属于多副本的荣誉,你应该是多个人,存的时候我只存一份,我并不需要存多份。那那种进取重的比例有多高,我可以给大家介绍一个。
数据就是说我自己以前我是做过各种银行服务的,那么我们做大概就是说是比中等规模用了两年时间,做大概一千多万的用户,大概有几十亿份文件,不到10P的数据,那么我们的总盈利是两倍多,不到三倍。
那么360那是我的天使投资人是我股东,所以我我了解他们的这个运营数据,就是360云盘,大概3亿人,100P以上的这个数据,它的这种盈利是五倍。就是说你的用户越多,你这种运率就越高。
这个是可以想象出来,而且在实践的数据中也是得到验证的。那么我这个区块链存储,我用区块链技术,要把全世界的这个闲置的资源把连接起来,来做各种应用的地产存储,它的这种银行会更高,因为360盘只是一个应用一个应用,它都有五倍的这种盈利。
那么我们如果说把全球的这个都把连接起来的话,各种应用的加在一起的话,那这个总盈率应该是会更高的,我估计比如说十倍,我们可以去猜,会有这么一个总疑虑。
降低存储成本
那么这种毅力就意味着什么?
意味着我的存储成本其实是减少的,有很多人以为这个去关键处要要就是我们讲的区块,你们存储说这个东西他不靠谱,我见过这样的文章,他们是完全不懂,像APF这种这种的驱动性和存储是怎么做的?
实际上因上数据去重的话,它的它的这个存储成本其实是远远低于亚马逊阿里云这样的这种云服务商的这个存储的这个成本的,这是区块链存储的一个魅力,他利用这种激励模型,把全世界的这种存储资源连接起来,而且用的人越多,它的这个平均成本还越少,形成了一个这么一个区块链效应。
但是在行业里面虽然有一个工资常识,就是加密和驱虫是矛盾的,你加密之后你是不能够去重的,这个表面上看他一加密之后数据变成乱码了,你加密和它加密的那出来,结果不一样,所以加密后我就没法去充了。其实这一点的话,反而不是问题!
任何一个专业的这个系统设计人员,他都能够解决这问题,因为只需要把加密这些文件的哈利兹把他摁拿出来,然后再来去对比就可以了。
当然这里面也有很多的这个问题需要解决,比如说会不会有人给了一个假的哈里知,明明我的文件跟它一致不一样,因为我纯系统的是一个家跟鸿渐没法去验证,就会导致真正这个黑痣的文件就以后就传不进来了,这里面都是要解决的问题。
陷阱很多
就是涉及到这种这种数据存储加密什么的,他有很多很多的这个里面都会有很多的陷阱,你一不小心你就可能会出问题,所以这方面是特别特别专业的,然后我现在继续说,那么在这个区块链存储,我在这个加密后去创里面真正难解决的问题,其实是数据的授权的问题,那这个授权问题是什么?就好比说你有一份文件,你传上去的,存钱的。
OK然后当我也有同样文件,我穿起来之后,系统一识别,这文件已经有了,那么已经有了之后不用再重复存了。那么我以后再读写访问的,其实是你当初存的那份文件。这么看大家看明白什么问题没有?相当于系统把你原来的那个文件授权给我,可以去使用了。
我觉得这个问题会很大吗?校内系统可以把你的文件可以任意授权给任何人,那这个里面这加上区块链的这么一个去中心化的那个节点,不可信任的特点,那就等于说你的这个数据其实是没有保护的。
所以所有在这个行业里面,人大家都在讲这个加密后不能去草产品后不能驱虫,每个老专家都给新入行讲,这是一个工资常识,所以大家都记住了,尽管有些人没有研究,为什么不能,但是他们记住这个不行,这是行规,大家都知道,所以所有人都要面临选择。你要不选加密,要不选去重两个只选一个。
去重或者加密
那么IPFS他去拿这个去重保持它的这个做这个含量,做这样一个这种存储的这么一个效率。然后那个他让用户来去选加密,为什么?他意思就是说你来选加密后,你导致的这个存储成本提高,就是你用户自己来承担这个成本我就不管了。其实银行这里是这么一个意思。
所以今天我们看到市面上的这些区块性项目来,要不就是选择这个去重的,就像这个IPS要不就选择做加密的,现在基本上就是这么一个情况,所以这个事当前做关于存储的碰到的一个这么一个问题。那么还有一个问题就是你的问题。
其实我刚才在讲的分布式存储,为什么不用为编码的跨节点这种编码时候就提到了有这么一个性能的问题,那么你这个驱动性化存储你就容易编码,如果你来做那跨节点的话,同样会存在这个性能的问题。
所以现在在市面上就有很多,因为IPFS是明星项目,就有很多人那去做给APS加密,那就然后加密后就不能去从那就就是降低了这个这个它的存储的这个效率了,还有做提高性能的,给它做加速的等等,就有怎么样的,这个现在都创业了。那这里面那我介绍一下。
其中这个要他欠他是如何解决这些问题的,而且是有一种创造性革命性的方法,非常好好有效地就解决了那这个这种现有的这个权限存储的这个问题。
存储权限
首先那刚才讲的加密和去重的问题,那全世界都没办法的问题,也形成行业公司常识的问题,现在被YottaChain解决了,那从这种最基本的存储和密码学加密的这个原理出发,然后完全脱离了原有的行业里面别人用的那种那种框架,没有用大家习惯的那个路径。
最后非常那巧妙的,也非常可靠的把这个问题给解决掉,可以实现这个你在对加密后数据同样能够驱虫,加密区从两不误两个都可以兼得。那这里面的话算法的话,这样列出来,这个肯定就就比较复杂了。
那么我简单说下去中间有一个误区,被原来的所有人都给忽略了,一个误区是我们中间有关键的一步,我们是用数据的铭文来对密钥进行加密,一般都觉得说是拿密钥,这明文加密对不对?
我们要做密钥都没有交易,我们倒过来的。拿民风的作文必要把密钥做铭文,用明文做密钥来来,对。
这个密钥等明文拿去加密,不知道怎么讲,是不是有点这个绕口令,所以确实是完全突破所有大家的这种习惯性思维,这样的话我们就突破被陈毅怎么解决问题,非常好地解决了这样一个加密后驱虫的问题。所以用这个油少欠存储的数据,它是加密的,非常可靠的!加密可怕到什么程度?
我们用同样的技术,我们曾经到地图come,就是全球每年都有几千个黑客,每年到拉斯维加斯去聚会,互相切磋,互相比试,我公信跌倒的,你就说了你攻击我电脑,那我就说了,大家就这么着,每年切磋比试,已经形成了这么一个这个习惯性的盛会,这个这这个event叫做deep亢,那么在2015年我们也去那边了,我们就跟全世界的这个最优秀的最顶尖的黑客做了一个公开的这个验证,公开的挑战。
与黑客的挑战
那我们怎么做?就是我们带上一密码箱的一百美元现钞就就到那受要是去了,然后我们干脆都不用在你攻我攻你的,我直接把我的这个服务器敞开,你进来随便进,我还把我的管理员的账户密码全都告诉你们,谁来我都告诉你,然后要能把你们的用户数据偷走,那这钱就归你了,就那摆着。
所以当时还是很轰动的,就连abc站的美国主流媒体都跑到报道了,最后结果全球将近一千个黑客都来去想拿这笔钱,最后没有一个能拿到。其实我们做挑战的产品就跟现在区块链存储是一样的,就是就是我的这个我存数据的这个服务器,他是有完全不信任人来控制的。
而且这人他不仅可能是坏人,他可能有高超的技巧,是全世界最牛的最伟大的黑客,但是它也不能够偷出来,我的数据,他也他也没法做这点,所以你的数据即使存在它的硬盘里面,你也不用担心也是可靠的。然后同时我们在加密做得这么好的情况下,也不赏识数据去重的这么一个优越性。
那么这个时候我们实际上数据去重不仅仅意味着我的这个硬盘的我的存储的成本降低,我比比亚马逊比阿里云还要便宜,不仅仅意味着这一点,还意味着有一种新的崭新的一种激励模型,这种事和区块链的经营模型它就可以出现了,那是什么样的一个经济模型?
就是说当如果你有比如说100G的这个硬盘存储空间,你如果纯自己数据,你只能够存170,对不对?
商业逻辑
但是我说拿来哇快,拿完框之后,你获得的我们的这个这个U它的B然后你再来买数据空间。
对,然后你会发现什么也可以存200G的数据,手里还能富余,好多之后又逃避,这中间并不是说我们这个这个要他给你做补贴的,像滴滴呀美团掏钱给你做补贴了,他实际上是因为数据去重,导致你100G的物理空间进到系统之后,它其实可以存500寄到一个T的这样一个数据来。所以你用这个B买了200G空间后,自然就还有富余的是这么回事。
所以并不是那些闲得发慌的人会专门想挣钱人,他去当矿工去去挖矿,而是说你自己正常的用户,你把你的这个存储空间拿来给自己用,你不如用那外框,然后再存储,这样的话就是一个非常好的一个符合区块链模型的这样一个经济模型,这就出来了。
所以我们都加密以后去从对于这个区块链存储来说,这是一个至关重要的非常关键的一个技术。然后关于这个性的问题,是这样的,我们会在在这个妖塔,它除了这种去中心化的刺激话,存储里面还会设立这个本地的缓存。
就像我最开始讲的,通过缓存的这个算法来提高这个性能,使得你的这个存储容量等于全世界的总存储容量,然后你的这个性能接近于你本地的这个盘的这个性能,是这么一个分工。
持久化存储
当然这里面我们其实也是对这个传统的这个城市的一些概念做一些这种变革,传统认为什么叫缓存人?内存是缓存,一关机就没了。什么叫持久化存储?我的硬盘是刺激我存储。
我关机之后数据还在,这叫刺激和存储。但是现在对我们看来,普通的硬盘不能叫自由化存储,因为它可能会坏掉。当我们涉及的数据量越来越大的时候,像我们这种刚才讲的云存储,可能pb级别区分也存储将来至少是1B级别。
那么它的数据可靠性要求会越大的,因为哪怕你的这个就是11个九可靠性,换那一个刚好就碰到你了,对你来说就是对你受损人说那就是百分之百,所以你的数据量越大,可能要求就越高。
那么当你把数据存在这个硬盘的时候,普通硬盘的时候,我们认为不叫刺激话存储,用硬盘是可能会坏掉的,那个故障率再低,我们认为这是个天文数字,你看每年都有大概接近100%分之零点几的这个故障率,我觉得那个故障率也是非常非常高的。你要跟多少意义比起来,那那个故障率那简直是太高了。那怎么办?对。
那么你反而是存在这种区块链存储上这种去中心化程度上,它要真正叫次计划存储,因为你任何的节点,任何的盘随便坏,随便出故障没事,他一定能够总是能够非常可靠的把数据长期的保存下去,这个可靠性真是做到非常的可靠。
真正可靠
适应这个区块链存储的这么要求。所以那么本地的这个盘,呐他哪怕是关机后掉电之后,它能长期保存的,那也只能叫缓存。只有存到这个区块链存储上的才是真正的持久化存储!
那么这里面的话,大家注意到没有?
区块链存储,天然就具备了这个容灾的这个特性,很多新大的公司大的用户,我们的央企这样来花了很高的价格来做融债,我们这里问题轻易就解决了。关于容灾我不细讲,但是我可以说一下,真正能把容灾做的比较好的用户,就是我们无缺用户,几乎没有比较完美的人有,你看像高盛当年在911之后,马上就恢复业务,911把他的楼全部装回了。
但是马上恢复业务的,就是因为它的数据在异地有容灾备份,所以能恢复。全部都有能恢复。但是今天我们根据我们的这种认识,很多就像是很多大客户,大到每年的it经费几十个亿的它的容载都没有全部做全做了,不可能不做,但是没有做全。我知道,举个例子说,全世界最大的做容灾的公司叫wait,us。
这家公司它全世界最大的公司有多少用户?我说个数字来,你可能都觉得吓一跳。做这么年到现在,有一千多个用户。也就是说它的系统实在太贵了,贵到以至于只有这个不得不的容灾。
那个你不管怎么多么窄,我都必须要买的,用户才能买得起,所以容灾做好其实是非常不容易,而且也特别贵,你们有这么一个概念就可以了。
区块链存储天然举办容灾特性
而这个区块链存储这种区域化存储,它是天然就是具备了容灾,就说我们今天一个普通人,如果你用油套现尚存数据,那么你比中石油中石化的那个容灾能力还要强。
以后我觉得很神奇,所以区块链真的是一个不断创造奇迹的一个行业。然后当然还有一点就是说其实是跟存储关系不大,就是IPFS它只提供静态的存储,这样话它对于那种动态网页,它其实没办法的,因为它没有计算能力,那么由他欠,他提供这个计算能力。
所以又道歉才是真正能够取得http的这个这个发扩音就是IPS他们所谓的取代http,其实只是一个市场宣传口号,其实他是做不到的,从这一点说用到钱把它给不足了,所以那么等将来一号线上线之后,那么我们可以预期就会出来一个这种这样一个安全可靠天堂大区中中中心化的这么一个总站能力的。
然后成本这个低廉,有区块链的这个经营模型,这样的话这就是是区块链存储和传统的这个什么云存储,什么企业存储,分不清楚它的这个不同,具有巨大的这样一个优越性。
然后这里我也说明一下,为什么叫幽塘?
我刚讲了一千个T是一个pb,那么就披在bet那那么一个一千个P就是一个亿,那么一千个亿就是一个Z讲了全世界现在的那个到今天是历史上所有用户的这个人类历史的数据总量大概就是几个?
ZB那么再过这个到了2025年左右,他回到几十个ZB那么一千个Z就是一个Y就是由塔,所以咯他欠就是要提供这种优塔级别的这个存储能力,那么到时候能传得下全世界的所有的这个数据,这就是它的这个名字的这么一个寓意。

丨热门阅读

IPFS生态研究报告

破纪录的顶级风险投资Filecoin ICO熊市机遇:投资EOS ,不如投资IPFS存储IPFS中国社区赖楚航:IPFS如何构建下一代互联网

_________________________

赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址