概述
前言:基于人大的《数据科学概论》第十一章。主要内容为云计算的概念与特点、云计算与大数据处理的关系、云计算类型与典型系统、虚拟化技术与数据中心、主流产品与特点、OpenStack开源虚拟化平台、主流厂商的云计算产品。
一、云计算的概念与特点
(1)云计算的概念
根据维基百科,云计算
也称为按需计算,它是提供对可配置的、共享的计算资源池的按需存取的一种计算模型,这里的资源包括计算、存储、网络等硬件资源。
云计算并不是一种全新的计算模型,它是并行计算、分布式计算、以及网络计算发展的新阶段。
(2)云计算的特点
- 虚拟化
- 弹性
- 成本低廉
- 高度容错性和高度可靠性
(3)云计算与并行计算、分布式计算、集群计算、网格计算的区别和联系
- 并行计算是相对于串行计算来讲的,可以分为时间上的并行和空间上的并行
- 分布式计算通过把整个计算任务,分解成一系列的小任务,分布到各个节点(计算机)上分别执行,最后把结果合并,获得最终结果。分布式计算的侧重点,在于任务的划分。
- 集群计算,通过高速网络把一组本来松散联系的节点(计算机),通过软件紧密联系起来,协作完成计算工作。
- 我们把网格计算作为集群计算的一种类型。也可以看作是一类分布式计算。网络计算把大量异构计算节点的资源(CPU计算资源、磁盘存储资源)组织起来,构成一台虚拟的、大的计算机,为解决大规模的计算(包括数据处理)问题,提供计算平台的支持。
云计算是上述技术发展的新阶段,其底层的核心技术是虚拟化,即把计算、存储、网络等硬件都进行虚拟化。在硬件资源基础之上,利用虚拟化技术,提供不同层次的对外服务,包括基础设施作为服务、平台作为服务、以及软件作为服务。
二、云计算与大数据处理的关系
大数据具有数据规模大、数据类型多样、数据生成速度快等几个主要的特点。
- 把大数据分布到大量的节点上,通过各个节点的并行处理,才能实现大数据的快速有效处理。这是一种横向扩展的方式。
- 云计算以其动态扩展能力、高度的容错性能和可靠性,成为大数据处理的理想平台。
三、云计算类型与典型系统
按照服务类型,云计算可以分为三类
- 基础设施作为服务(Infrastructure as a Service,简称 laaS)
- 平台作为服务(Platform as a Service,简称PaaS)
- 软件作为服务(Software as a Service,简称SaaS)
云计算与Hadoop、Spark是什么关系?
- 一些大数据处理系统,可以安装到云计算平台的虚拟节点(或者虚拟集群上),以PaaS的形式提供对外服务。
- 在此,我们认为把物理节点通过虚拟化技术,对外提供laaS服务,可以称为云计算。
- 但是Hadoop或者Spark软件本身,不能称为云计算。他们是支持大数据处理的分布式软件系统,这些软件如果安装在物理机构成的集群上,那么就不能称为云计算了。
四、虚拟化技术与数据中心
云计算的核心技术是虚拟化技术
(1)服务器虚拟化
服务器虚拟化
,指的是把一台物理服务器虚拟成若干个独立的逻辑服务器,各个逻辑服务器拥有自己的CPU、内存、以及I/O设备。服务器虚拟化可以采用两种形式,分别是寄居虚拟化以及裸机虚拟化。
(2)存储虚拟化
- 存储虚拟化,其目的是把分散的,异构的存储设备,想办法映射成一个统一的、连续编址的逻辑存储空间。
- 存储虚拟化有三种不同的实现方式,分别是基于主机的存储虚拟化、基于存储设备的存储虚拟化、以及基于网络的存储虚拟化。
(3)网络虚拟化
网络虚拟化在不改变数据中心网络的物理拓扑和布线的情况下,可以虚拟出各层网络,并且实现互联,形成统一的交换架构。
网络虚拟化,包括核心层、接入层、以及虚拟机网络虚拟化三个层次。
(4)数据中心
- 数据中心首先由Google、Facebook、Amazon等大型互联网公司,为适应其业务发展的需要而建设。大型的数据中心,可以集中超过10万台服务器。
- 数据中心的主要特点和优势是,通过服务器虚拟化、存储虚拟化、网络虚拟化、应用虚拟化等技术,数据中心把各种硬件资源进行整合,对外提供服务,提高设备的利用率。
- 数据中心一般采取了冗余、容错、容灾的设计,提供不间断的服务,满足业务连续性的要求
五、主流产品及其特点
- VMWare
- Hyper-V
- KVM
- XEN
六、OpenStack开源虚拟化平台
Openstack是一款开源的虚拟化平台软件
- OpenStack Dashboard(Horizon),这是Openstack的Web用户管理界面
- Openstack Compute(Nova),Nova是虚拟机创建和管理模块
- Openstack Image Management(Glance),Glance是Openstack的虚拟机影像(Image)管理模块
- Openstack Object Store(Swift),Swift是对象存储管理器
- Openstack Block Storage(Cinder),Cinder是Openstack的磁盘块设备(Block Device)虚拟化软件模块
- Openstack Network(Quantum),Quantum提供了“网络连接作为服务”(Network Connectivity as a Service)的功能
- Openstack Identity Service(Keystone),Keystone模块负责管理用户,对用户进行身份认证(Authentication)和授权(Authorization)
七、主流厂商的云计算产品和服务
(1)Amazon
- Dynamo
- EC2
- S3
- SimpleDB
- RDS
- SQS
- Amazon EMR
(2)微软
- Windows Azure
- SQL Azure
- Azure App Fabric
(3)Google
- GFS
- MapReduce
- Big Table
- percolator
- Pregel
- …
(4)阿里云
-
弹性计算服务
-
数据存储服务
-
存储与CDN服务
-
大规模计算服务
-
MapReduce
-
Big Table
-
percolator
-
Pregel
-
…
(4)阿里云
- 弹性计算服务
- 数据存储服务
- 存储与CDN服务
- 大规模计算服务
最后
以上就是留胡子时光为你收集整理的11.云计算平台(数据科学概论)的全部内容,希望文章能够帮你解决11.云计算平台(数据科学概论)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复