云计算环境下大规模数据处理技术研究论文
随着计算机技术和互联网技术的发展和应用,网络信息和数据量正在高速增长。传统的并行计算、分布计算等方式由于各种限制,往往都难以满足实际的计算要求。基于此,采用基于云计算环境下的大规模数据处理技术,能够有效的打破这些限制,从而实现更加高效、快速的数据计算。
1云计算环境下大数据处理模式
1.1大规模廉价计算平台
利用虛拟化技术,能够实现大规模廉价计算平台,将存储、应用程序、网络、计算等资源作为虛拟化实体。对闲散的计算资源进行抽象,使之形成相互之间完全独立的虛拟服务器实例,从而独立的完成数据处理和计算。通过这种方式,就能够实现底层硬件的虛拟化。构建可扩展计算节点资源池,并在其中实现集成管理虛拟计算流程和计算节点。这样,大规模数据子处理任务就能够完成实时迁移、资源转换、系统监控和任务部署。
建设大规模计算平台的过程,也是云计算环境下大规模数据处理的一个重要步骤。具体来说,首先要对数据处理需要的资源进行参数化的配置,根据相应的要求进行定制。通过这一过程,用户能够获取自己需要的资源。在不同的操作模式下为用户提供参数服务。在设置参数完成定制之后,以此为基础,在大规模数据处理的时候,部署存储和计算资源,设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后,以此对计算流程进行分配,从而在计算节点中启动相关的资源,并且管理和部署计算节点的定制处理服务。
部署工具通过网络连接到目标计算节点和计算流程,然后执行大规模数据处理方案。然后根据相应的方案,通过代码对存储和计算资源进行分配和执行。将部署在计算节点进行进行启动,利用网络在各个计算节点发送数据处理命令,从而完成调度和部署计算流程的工作。
1.2Map Reduce技术的支持
采用Map Reduce分布式和并行式编程模型,从而在模型内部对任务容错处理、计算节点负载均衡、空间局部性优化、并行任务调度等方加以实现。在Map Reduce的`开发过程中,只需对Map、Reduce两个接口进行定义,通过计算机集群,对用户编写程序进行运行,拆分大规模数据集合,使之形成若干数据片段,从而得到一系列键值对[4]。然后向一个Map任务中分配一个数据片段,在Map Reduce框架下,向大规模计算集群中的节点进行子任务的分配。最后,结合得到的键值对进行计算,生成键值对集合,向Reduce当中进行输出。
Reduce当中每一个Reduce任务,都会向二元组集合当中进行分配,输入集合片段,运行Reduce函数,输出二元组键值对。如果数据处理任务失败,也能够自动重新进行计算。在大规模数据处理当中,是高度并行操作Map的,这一步骤对于大规模数据的高效处理来说,具有不可忽视的意义。基于云计算环境下,对规模数据信息大都能够达到TB级别或GB级别。在长时间处理大规模数据的时候,如果发生数据处理任务失败的情况,能够防止发生计算任务重新执行的情况。由于数据块是被复制的,因此在容错性方面,还会关系到负载均衡的情况。
2云计算环境下大数据处理的框架模型
在大规模数据资源和计算资源当中,对云计算技术、计算机网络技术进行引入,建立大规模数据处理框架模型。主要包含了两级结构,其一是虛拟资源体系、大规模廉价计算机集群,其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。利用限制的计算机资源,对虛拟资源层和物理设备进行构建,从而形成最底层的物理资源,形成同构的数据处理资源池或接近于同构的数据处理资源池。在第二级结构当中,最为重要的就是软件体系,能够为大规模数据处理提供服务。采用Hadoop核心技术,对数据处理接口进行编写。通过这种方式,在不同的学科和领域当中,能够提供相应的大规模数据处理服务,从而使用户能够享有良好的计算平台软件支持。
在这一框架的设计与实现当中,对Hadoop分布式开源计算机框架进行了应用,对其中的HDFS分布式文件系统,以及Map Reduce进行应用,从而对大规模数据处理业务进行处理和协调。在计算节点当中,对放置在Map Reduce任务进行映射,对大规模数据进行划分,使之形成若干子块,并对数据块的数量、规格等参数加以掌握。通过HDFS功能,可以在每一个计算节点当中,对数据块副块进行智能的放置,同时针对各个节点,对具体的角色进行设计。在大规模数据处理的过程当中,需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中,为了对Map Reduce进行运行,提供了一个API进行支持。
3结论
在当前信息化的时代背景当中,计算机和网络的广泛应用,使得各个领域中的数据量和信息量与日倶增。而对于这些海量的大规模数据来说,利用传统的数据处理方式,往往难以取得十分理想的处理效果。基于此,可在云计算环境下,开发和利用相应的大规模数据处理技术,以此来支持社会各个领域当中的大规模数据处理需要,从而数字化的时代当中,始终保持较高的工作效率和良好的工作效果。
【云计算环境下大规模数据处理技术研究论文】相关文章:
云计算环境下的分布存储技术研究论文11-06
云计算环境下网络技术研究论文11-07
分析论文:云计算环境下大数据06-26
云计算环境下的数据挖掘研究论文10-28
云计算环境下的网络技术及其发展论文06-02
云计算环境下软件开发架构应用与设计论文11-17
大数据环境下云会计的论文06-10
云计算环境数据安全研究论文11-03
网络云计算技术研究现状综述论文10-30