网友科技Space说:
根据阿里云飞天技术总架构师唐洪《飞天技术与应用》(https://yq.aliyun.com/articles/30337)中的介绍:
飞天设计原则
在开始介绍飞天技术前,唐洪和现场观众分享了当初判断要做云计算需要解决的三个本质问题,而这三个本质问题决定了飞天系统设计的基本原则。第一个本质问题,大规模。云计算本质上是随着互联网诞生并且为了解决互联网的问题产生出来的。根据2012年10月份数据统计,互联网每天产升2.5EB的数据,并且这个数字每40个月就会翻一番,处理这样大的数据一定要解决大规模计算的问题。拿淘宝为例,淘宝上每天完成上百亿元规模交易,同时要在6小时内(早晨6点以前)完成所有交易数据的统计。当然规模是相对的,但规模增加了时间限制,绝对值本身不是很大数据量的计算在本质上也是大规模计算的问题。第二个本质问题,低成本。也就是说我们不单要解决规模计算的问题,而且要想办法让大家算得起。低成本不单单是简单的降低价格,而是像电话一样改变人们的习惯。同时,也能够像“电网”做到对资源的调度。第三个本质问题,服务运营。真正能够提供大规模廉价的计算,唯一的方式是卖计算而不是卖计算机,像公共服务一样做到按量付费,这对很多创业公司来说是非常有益的。服务运营也意味着弹性扩展,当用户需要使用更多资源的时候可以很快开动资源,而不是等着再跟供应商下单,等计算机运到机房里。最后,服务运营也要解决安全问题,大家在使用自然资源、在使用云计算的时候不用担心安全问题。正是基于上述对云计算要解决的三个本质问题的理解,在飞天系统设计开始就定下了两个基本原则。第一个原则,以大规模通用计算平台为基础,用同一套系统支持离线和在线服务,能够做到资源共享。第二个原则,以Web API的方式提供服务,也就是说希望提供线上服务,而不是到门市部填申请单交银行卡才能提供服务,让用户感觉不到地域的边界。
图解飞天架构
飞天最底层是全球部署的12个地区和几十个数据中心,这些数据中心里是安装了Linux操作系统的通用高端服务器。橙色组件组成了大规模通用计算平台,最底下四个橙色块(夸父远程过程调用、安全管理、女娲分布式协同和伏羲资源管理)代表构建分布式系统最基本的组件。唐洪着重指出,在整个飞天设计里面第一就把安全作为一个功能来设计。盘古分布式存储,简单来说,就是把所有集群中的硬盘组织成一个单个的文件系统。同时,两侧分别是天基的数据中心管理、分布式部署,以及神农分布式监控。唐洪说,大家觉得部署和监控是很简单的事,但做成7×24小时不间断就没有那么容易了,这时需要非常大的监控系统,秒级监控所有指标判断是否有问题并且实时修复。中间蓝色一层是核心的资源型服务组件,大概分为三类:一是弹性计算,简单理解就是将物理机切分成虚拟服务器的概念。二是海量存储的数据库,其中OSS是存储无结构的数据比如视频、照片、音乐之类的,Table Store可以认为是半结构化存储,RDS则是关系型数据库服务。第三类是数据计算,它则分为多维度准实时数据的查询服务、实时流计算处理服务和大规模批量计算服务。在上面还有一些端到端、基于云的应用所需要的核心服务,比如内容分发CDN、网络服务、安全服务、数据服务等。网络服务,包括VPC、域名服务和VPN。中间件服务,包括消息队列、工作流等。数据服务,则包括比如人工智能、语音识别、翻译、图象识别之类。最上层则是生态支撑,容器服务可以支持那些基于容器的微服务架构,或者是编排服务帮助开发者在云上开展资源的编排。还有云市场,可以认为是云上的AppStore,开发者可以把他们的应用注册在云市场里面,使用者直接注册使用。还有开发者服务,开发者很容易监控诊断他们的应用并且发现问题和调试。
飞天技术特色
谈到飞天的技术特色,共六个方面。其中第一点,飞天同一个平台同时支持离线在线服务,这是飞天的通用性特色。如阿里巴巴集团子公司神马搜索就是建在飞天上,他们会进行千亿级别网页的离线处理,索引所有网页,大概每一两个月把整个索引翻一遍,此外拥有这么多网页的同时同样拥有整个网页之间关联的连接图,也是千亿级别的节点,并且有百亿级别的索引可以在线查询;在线方面,基于飞天平台的邮箱服务每天处理亿量级的邮件,日发送邮件达到千万量级,所有发送和接收在10毫秒级别完成。其他几点包括:规模,飞天单集群达到了万台规模、百PB级别存储、10万级别的CPU合数;整个架构设计里面没有单点,确保了整个系统可用性达到99.95%;飞天应用设有默认等级,通过多副本冗余算法,数据可靠性达到10个9的可靠性;完全分布式的部署、监控和诊断。关于第六点安全方面,唐洪指出,飞天安全管理嵌入在飞天内核最底层,并且使用基于权能的安全管理框架,真正有效实施“最小化权限”原理。2013年8月15号,阿里巴巴集团已经拥有了中国范围最大的集群,达到五千台规模。现在,飞天已经成为阿里巴巴所有核心业务数据处理的平台,包括广告、搜索、个性化推荐、信用分析、风险管理等,并且飞天现在已有多个万台规模的集群,每天处理上百PB数据。2014年7月1号MaxCompute(原ODPS服务)正式对外开放,这也标志着阿里巴巴成为世界上第一家对外公开提供5K处理能力的公司。很多公司可能有这样一个计算能力但从来没有把它当作公共服务开放给大家。在MaxCompute平台上线之前,组织了一场“天池大数据算法大赛”,当时有七千多个团队,主要是高校团队报名参加,在没有任何推广的情况下还有350多个来自海外的团队。2015年10月,飞天打破了世界排序竞赛的记录,当时打破了4项,最有名的是用377秒完成100TB排序工作。之前这个成绩是1400多秒,也就提高了三倍还不止。