在分布式系统上处理大数据的两个关键技术
发布时间: 2012-03-23 11:38:00 浏览次数: 供稿:未知
演讲人:参考下方
讲座时间:0000-00-00 00:00:00
讲座地点:--
讲座内容

演讲人: 张晓东教授 美国俄亥俄州立大学

讲座时间: 2012-03-26 10:30-12:00

讲座地点: 信息楼四层学术报告厅

讲座内容: 摘要:

目前,我们所面对的一个严峻挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称“大数据”(Big Data)。这样的数据借助互联网的快速传递而无所不在:从各种科学研究基地,到众多政府机构,还有各大商业企业公司。举世界上最大社交网Facebook(脸谱)公司为例,现在每天有超过70 Terabytes 经过压缩后的新数据需要存储、管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模、性能和费用等方面都无法应对日益增涨的大数据。

以MapReduce 为基础的开源软件 Hadoop已成为在大规模可扩展的分布式系统上处理大数据的重要引擎。开源软件Hive是一个以Hadoop为基础的并在世界上广泛使用的大型数据仓库。在这个报告里,我将介绍Hive中的两个关键技术:(1)数据的分布存储结构(RCFile),(2)一个将SQL自动转化为MapReduce的翻译器 (YSmart)。

报告人简介:

张晓东教授是美国俄亥俄州立大学的 Robert M. Critchfield讲席教授,并担任计算机科学与工程系主任。他的主要研究方向是在计算机和分布式系统上的数据管理,其主持研究的一些核心算法和系统设计已被广泛应用到商业处理器,以及主要操作系统、数据库系统和大型分布式系统中,有效地优化或更新了计算机存储和数据处理系统中的一些关键技术。

张晓东教授在北京工业大学获电气工程学士学位,在美国科罗拉多大学获计算机科学博士学位,并获得该校2011年度工程与应用科学的杰出校友奖。他曾获得2010年中国计算机学会海外杰出贡献奖,是国际电气电子工程师学会 (IEEE) Fellow。

演讲人简介