论坛介绍:
应用需求的变化和计算模式的改变对大数据管理技术创新和系统架构升级起到至关重要的作用。本论坛聚焦大数据管理的前沿技术,从多模态数据的统一管理、批流融合计算模式以及云计算架构对大数据管理系统架构的影响、新型硬件加速大数据管理技术、以及人工智能如何优化大数据管理系统的设计和管理等方面,梳理国内外相关研究进展。并探讨如何利用产学研合作,促进高校在大数据管理领域的人才培养。
应用需求的变化和计算模式的改变对大数据管理技术创新和系统架构升级起到至关重要的作用。本论坛聚焦大数据管理的前沿技术,从多模态数据的统一管理、批流融合计算模式以及云计算架构对大数据管理系统架构的影响、新型硬件加速大数据管理技术、以及人工智能如何优化大数据管理系统的设计和管理等方面,梳理国内外相关研究进展。并探讨如何利用产学研合作,促进高校在大数据管理领域的人才培养。
嘉宾类型 | 嘉宾姓名 | 工作单位 | 报告题目 |
---|---|---|---|
执行主席 | 杜小勇 | 中国人民大学 | |
执行主席 | 卢卫 | 中国人民大学 | |
讲者1 | 李飞飞 | 阿里云 | 云原生数据库系统2.0: 一站式数据管理与服务 |
讲者2 | 李国良 | 清华大学 | 自治数据库系统 |
讲者3 | 陈榕 | 上海交通大学 | 新硬件驱动的分布式事务处理系统:性能、功能、智能 |
讲者4 | 柴云鹏 | 中国人民大学 | 多模型数据管理的技术路线与优化实践 |
讲者5 | 赵宇海 | 东北大学 | GAIA:面向批流融合的大数据计算系统 |
Copyright © CCF BigData 2022
执行主席
杜小勇
中国人民大学
个人介绍:杜小勇,中国人民大学教授,数据工程与知识工程教育部重点实验室主任。CCF会士、理事、大数据专委会主任,国家信标委大数据标准工作组副组长。长期从事数据库和大数据领域的研究,获国家科技进步二等奖和多项省部级科技奖。
执行主席
卢卫
中国人民大学
个人介绍:卢卫博士,现为中国人民大学数据工程与知识工程教育部重点实验室教授、博士生导师、中国计算机学会数据库专业委员会委员。主持国家重点研发计划课题、国家自然科学基金项目等。曾获北京市高等教育教学成果一等奖、国家级线上线下一流本科课程主讲教师、中国计算机学会优秀博士论文奖,曾入选微软亚洲研究院青年教师铸星计划。主要研究方向为数据库基础理论与分布式数据库系统实现。近年来,在SIGMOD、VLDB、ICDE、ATC、VLDB Journal、IEEE Trans. TKDE、IEEE Trans. TPDS等重要学术会议和期刊上发表CCF A类论文40余篇。
讲者 1
李飞飞
阿里云
报告题目:云原生数据库系统2.0: 一站式数据管理与服务
报告摘要:在云计算时代,云原生分布式数据库开始崛起,因为弹性扩展、高可用、分布式等特性获得了大量应用。为了满足弹性扩展、弹性计算、以及按需按量使用等企业级应用需求,云原生数据库探索新的体系架构例如通过分布式共享存储shared-storage来实现shared-everything的架构和存储计算分离,一写多读和多写多读的扩展能力。在高并发、对水平拓展有强需求的应用场景下,云原生数据库同时也需要探索基于shared-nothing的分布式架构来提供分布式数据库能力来处理分布式查询和分布式事务处理。同时, 金融级高可用、异地多活等技术挑战也是云原生数据库所必须提供的关键能力。基于对以上技术挑战的不断探索和实践, 云原生数据库PolarDB提供了企业级云原生数据库的能力(例如serverless、共享内存、多租户多写等), 同时我们也自研了针对海量结构化与非结构化数据提供实时融合分析的下一代企业级云原生数据仓库AnalyticDB, 经受了阿里巴巴双十一世界级的交易峰值挑战并在阿里云上取得了巨大的商业化成功。PolarDB和AnalyticDB同时也深度结合机器学习以及安全加密等最新技术,提供面对未来下一代企业级应用从OLTP到OLAP再到HTAP的智能化、安全的云原生分布式数据库系统。
个人介绍:阿里巴巴副总裁, ACM Fellow, IEEE Fellow。阿里云智能事业群数据库产品事业部与达摩院数据库与存储实验室负责人。曾获ACM与IEEE以及其他多个奖项,获EDBT 2022 Test of Time Award, IEEE ICDCS 2020最佳论文奖, ACM SoCC 2019最佳论文奖runner up, IEEE ICDE 2014 10年最有影响力论文奖, ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统演示奖、IEEE ICDE 2004最佳论文奖、世界互联网大会2019全球领先科技成果奖,浙江省科技进步一等奖、中国电子学会科技进步一等奖等。带领团队研发了阿里云企业级云原生数据库系统包括云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB等系统。担任多个国际及国内一流学术期刊和学术会议的编委、主席。中国计算机学会CCF大数据专家委员会副主任,数据库专业委员会常委。担任多个国际一流学术期刊和学术会议的编委、主席。带领阿里云数据库首次代表中国基础软件厂商进入Gartner全球数据库领导者象限。
讲者 2
李国良
清华大学
报告题目:自治数据库系统
报告摘要:大数据时代下,数据库系统主要面临着三个方面的挑战。首先,基于专家经验的传统优化技术(如代价估计,连接顺序选择,参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求。我们可以设计基于学习的数据库优化技术,使数据库更智能。其次,AI时代很多数据库应用需要使用人工智能算法,如数据库中的图像搜索。我们可以将人工智能算法嵌入到数据库,利用数据库技术加速人工智能算法,并在数据库中提供基于人工智能的服务。再者,传统数据库侧重于使用通用硬件(如CPU),不能充分发挥新硬件(如ARM、AI芯片)的优势。
为了解决这些挑战,我们提出了原生支持人工智能(AI)的自治数据库系统。一方面,我们将各种人工智能技术集成到数据库中,以提供自监控、自诊断、自愈、自优化、自安全和自组装功能。另一方面,我们通过使用声明性语言让数据库提供人工智能功能,以降低人工智能使用门槛。我们定义了人工智能原生数据库的五个阶段,给出了设计人工智能原生数据库的挑战。最后还以数据库自动调优、基于深度强化学习的查询优化、基于机器学习的基数估计和自治索引/视图推荐为例,展示人工智能原生数据库的优势。
个人介绍:李国良,清华大学计算机系长聘教授,杰青,清华大学计算机系副主任,数据库专委会副主任。主要研究方向为数据库和大数据分析。在数据库领域的顶级会议和期刊上发表论文150余篇,他引12000余次,入选爱思唯尔2014-2020年中国高被引学者榜单。主持国家杰出青年基金、优秀青年基金、青年973、自然基金重点等项目。获得了VLDB青年贡献奖(亚洲首位获奖者)、IEEE 数据工程领域杰出新人奖(亚洲首位获奖者)。担任VLDB Journal、IEEE TKDE等编委,SIGMOD 2021大会主席,VLDB 2021 Demo 主席,ICDE 2022 Industry Chair。获得过数据库领域重要国际会议VLDB20, KDD18、ICDE18、CIKM17、DASFAA’14的最佳论文(提名奖)。获国家科技进步二等奖(2018)、江苏省科技进步一等奖(2019)。
讲者 3
陈榕
上海交通大学
报告题目:新硬件驱动的分布式事务处理系统:性能、功能、智能
报告摘要:随着数据中心硬件体系的不断革新,以RDMA网络为代表新硬件快速普及并持续提升性能与功能,为支撑和优化分布式事务处理等重要大数据应用场景提供了一条新路径。但如何充分发挥新硬件提供的高性能与新功能,是分布式系统的设计和实现面临的全新挑战。本次报告将分享我们团队近年来在新硬件驱动的分布式事务处理系统方向上的一些研究思考和探索实践。通过对新硬件特性的系统性分析,以及分布式应用关键需求的梳理,以分布式事务系统为例,从性能提升、功能增强、智能优化三个方面践行基于新硬件全面提升分布式大数据系统。
个人介绍:陈榕,上海交通大学教授、教育部青年长江学者、上海人工智能实验室领军科学家、CCF杰出会员。主要研究领域为操作系统、并行与分布式系统等。在系统领域重要会议/期刊发表论文30余篇,包括9篇OSDI/SOSP、10篇EuroSys/ATC,并获得了EuroSys等三项国际会议最佳论文奖。受邀十多次担任OSDI、SOSP、EuroSys、ATC、ASPLOS、FAST等本领域最重要学术会议程序委员会委员。先后主持国家重点研发计划课题、自然科学基金面上/青年项目、上海市科委重点课题,以及十多项企业合作项目。曾荣获2018年教育部技术发明一等奖、2019年上海市技术发明一等奖,以及2020年华为奥林帕斯先锋奖(第一完成人)等。
讲者 4
柴云鹏
中国人民大学
报告题目:多模型数据管理的技术路线与优化实践
报告摘要:数字经济和数字化转型成为国家战略,大大加速了各类大数据应用的发展,应用的多样性也直接导致数据模型需求的多样性。而企业同时运维多个系统的高成本,以及多模型之间跨系统的数据同步和查询的低效率,催生了近年来的多模型数据管理技术。本次报告将梳理多模型数据管理的多种技术路线,并介绍在国家重点研发计划项目进行的多模型数据管理系统优化,以及与阿里等企业协作的多模型数据管理实践,为多模型数据管理领域的研究者提供一些参考。
个人介绍:柴云鹏,中国人民大学教授、杰出学者青年学者,中国人民大学理工处副处长、信息学院计算机系主任,中国计算机学会教育工委委员、数据库专委会执行委员、信息存储技术专委会执行委员。
讲者 5
赵宇海
东北大学
报告题目:GAIA:面向批流融合的大数据计算系统
报告摘要:分布式计算是当前大数据处理与分析领域的主流技术之一。以Hadoop、Spark及Flink等为代表的大数据分布式计算系统或偏重批处理或偏重流计算,编程模型和接口迥异。实际应用中存在着广泛的批、流任务同时处理的需求。现有平台对批流融合计算的支持较弱,或依托自身计算引擎模拟另一类框架的行为,或定义一套通用接口屏蔽底层计算引擎的差异,优化针对性和全面性不足。本报告将汇报依托国家重点研发计划项目“高时效、可扩展的大数据计算模型、优化技术与系统”研发的批流融合大数据计算系统GAIA。该系统实现了“接口+计算引擎”双统一的批流处理框架和一套面向完整执行周期的全周期多尺度优化技术。阿里巴巴“双十一”和杭州、上海等地城市大脑的实际示范应用显示,GAIA具有显著优于对标系统Flink 1.12.2的极速响应和海量吞吐能力。
个人介绍:赵宇海,东北大学计算机科学与工程学院教授、博士生导师,教育部新世纪优秀人才,辽宁省“百千万人才工程”百人层次,辽宁省高等学校创新人才,曾荣获全国百篇优秀博士学位论文提名奖和辽宁省优秀博士学位论文奖。主要研究兴趣为面向大数据的智能计算与学习。担任《Frontiers of Computer Science》执行编委,《Computational and Mathematical Methods in Medicine》编委。近年来,在含KDD、ICDE、FSE、TKDE等CCF A类的数据库、数据挖掘、软件工程等领域顶级学术会议和期刊上发表90余篇学术论文,主持863计划项目、科技部重点研发计划课题、国家自然科学基金重点项目课题、国家自然科学基金面上项目等10余项,授权发明专利10项。现为中国计算机学会CCF高级会员、ACM会员、IEEE会员。