2015年6月加入华东师范大学数据科学与工程学院,在此之前先后就职于IBM中国研究院和百度(中国)有限公司。在VLDB、ICDE、 SIGIR、ACL等领域重要国际会议上发表多篇论文。目前的研究方向为内存事务处理,以及基于机器学习技术的自适应数据管理系统。曾获国家科技进步二等奖、教育部科技进步一等奖
在数据库系统的运维过程中,运维平台积累了大量有价值的数据。这些数据可能是故障诊断案例,索引创建案例等等。本次分享以索引推荐为主题,介绍如何从大量索引创建案例中学习DBA的经验,实现智能化索引推荐。主要内容包括:索引推荐的问题定义和工业界成熟方案;索引推荐近几年的研究进展;我们对索引推荐问题的建模;索引推荐的业务场景下效果。
10年以上Oracle数据库技术支持、运维管理经验,支持过的数据库超1000套,长期为大型企业核心业务系统数据库提供方案设计、性能优化、故障处理、应急容灾、安装配置等技术服力。在15年的数据库项目管理实践过程中积累了丰富的实战经验,包括:全球最大的OLTP系统与OLAP系统数据库设计维护经验,16个RAC集群大规模数据库系统设计维护经验,500公里以上ACTIVE DATAGUARD数据库容灾系统规划实施经验,各种疑难杂症问题处理经验,各种平台版本数据库维护、优化经验等,在性能优化、规划设计、故障处理、安装配置等技术领域有自己独到的见解和处理经验。
新浪微博研发中心高级总监,负责微博基础架构和流媒体等研发方向。在高可用架构、视频、直播等技术方向有丰富的研发实战及管理经验。同时作为微博技术新兵训练营负责人,主导技术新人技术融入提升培训体系。技术社区的拥护者,多次担任业界前沿技术大会的讲师及出品人。
数据库领域经验丰富,涉猎众多不同类型的数据库和架构,历任多家公司数据库技术负责人,带领团队完成从无到有的分布式架构转型、运维自动化平台建设等工作。平时热衷技术学习和交流,多次做为dbaplus、GOPS、Postgresql、mongodb等社区大会的演讲嘉宾进行主题分享。近些年逐步关注在数据库容器化、信创等领域,并带领团队进行了结合开源和信创的技术创新和积极转型。
介绍平安银行的信创路线规划、数据库信创转型的具体案例,包括产品架构选型、数据模型转换、数据迁移的工具与方法,应用流量双写与切换的框架,以及遇到的问题和解决方案。
1、 选型信创数据库的评估维度;
2、 如何进行安全、高效、透明的模型转换和数据迁移;
3、如何建设融合信创、非信创的统一自动化运维平台。
工商银行软件开发中心数据库技术研究及实施团队负责人,数据库信创转型领域的技术带头人,15年数据库领域工作经验,带领团队负责工商银行数据库技术前瞻性研究及研判、数据库技术体系规划及建设、数据库信创转型解决方案建设、数据库技术在金融领域的创新应用以及全行的数据库技术支撑。
工行统筹金融业务创新发展需求和自主可控要求,通过IT架构体系与全栈信创融合演进,打造平稳、高效、安全、普遍适用的一体化全栈信创转型解决方案,突破突传统数据库转型方面的主要技术瓶颈和实施障碍,有效屏蔽数据库特性差异和业务逻辑,有效降低技术复杂度和转型工作量,解放应用研发生产力,让科技力量更加聚焦于金融业务创新和数字化转型领域。本次分享聚焦传统数据库信创转型领域,分享工商银行平滑迁移技术方案及具体实践经验。
建设银行运营数据中心技术创新发展处创新研究组组长,智能运维国家标准核心编委、ITSS智能运维标准评估师。近20年的金融行业运维工作经验,曾负责建设银行全行IT服务管理体系建设、数据中心生产质量管理、智能运维项目群管理和创新研究等工作。
介绍智能运维的机遇与挑战,建行智能运维建设的目标、基本框架、主要创新点、具体实践以及智能运维标准的研制情况等。
2017年起从事AIOPS方向研究和落地工作,涉及方向包括异常检测、根因分析、调度优化、时间序列预测等;2021年起加入美团数据库中心,专注AI4DB领域,致力于数据库自治能力构建。
数据库自治指的是数据库具有自我管理和自我优化能力的能力,该能力可以帮助企业节约大量时间和人力成本,同时提高效率和保证数据安全性。AI4DB作为构建数据库自治能力的关键技术,在实践中发挥了非常重要的作用。在此次分享中,我们将为大家详细介绍AI4DB在美团数据库自治能力构建过程中,各方面的应用实践。
1、AI在DevOps领域能解决哪些问题?
2、 如何实现大规模时间序列的实时异常检测及诊断、自愈?
3、大语言模型LLM能带来什么新的改变?
前 58 同城技术专家,前理想汽车数据库架构师,现任 OceanBase 解决方案架构师,负责 OceanBase 的社区生态建设与各类场景下的数据库解决方案。
混合云作为云计算的一种形态,通过私有云和公有云协同工作,提高用户跨云的资源利用率,增加业务灵活性。OceanBase4.x单机一体化架构架构解决敏捷态业务对资源池化与弹性扩缩容需求同时,也满足了企业级混合云的业务架构和HTAP场景,以及RPO=0,RTO<8s的高可用保证,为越来越多的混合云企业提供了核心产品竞争力。
硕士毕业于东北大学,持续深耕智能运维领域多年,带领团队致力于京东智能运维算法迭代,把智能算法能力落地京东线上横向业务场景,算法在监控、数据库、网络、资源调度等多个纵向场景取得突破,提升了产品和运维的技术竞争力。善于将实践中沉淀的技术与日常算法工作中积累的技术与创新总结成专利和IEEE论文,申请智能运维发明专利30余项,IEEE国际会议论文收录4篇。
1、以京东科技内部真实运维面临的问题为例,介绍京东科技智能运维整体能力、传统运维与智能运维在故障预警到根因定位的直观比对时间轴及智能运维建设的价值。
2、时序异常检测算法学件在京东科技线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景落地经验。
(1)时序指标异常检测算法学件:单、多指标时间序列分解、aiops时序特征库搭建、时序网络模型搭建过程中算法超参数设置及如何做好运维算法持续迭代能力等建设经验
(2)时序日志异常检测算法学件:揭秘如何将NLP技术应用于运维日志分析,从日志角度发现异常问题
(3)如何从多模态数据中挖掘根因指标、提取历史故障异常模式(指标与日志异常模式的关联)
3、京东科技内部根因定位的整体架构及全链路根因定位实践。
(1)京东科技内部故障定位方案,如何将专家经验灵活组合多种定位策略,将传统根因定位与机器学习算法结合
(2)故障预警到根因定位的算法学件介绍,主要包含四大模块:智能基线、曲线相似度计算、聚类特征树算法、强化学习多维根因定位算法
(3)以一个案例为切入点揭秘如何做从业务到基础资源的全链路根因定位
爱奇艺智能平台部高级技术经理,负责视频播放服务和账号管理服务的系统架构和功能建设。在分布式部署、高可用架构等技术方向有丰富的研发实践及管理经验。
爱奇艺App作为国内头部的长视频应用,注册账号数及活跃用户数都非常可观。对应的数据存储体系建设具有相当的技术挑战,在提供每秒百万级高速读取能力的同时,需要保证持久层与缓存层的数据最终一致性。对应这个技术场景,我们有一定的实践经验与大家分享。
1、 分布式的、高可用存储系统建设;
2、 数据一致性保障的实现;
3、可用性与一致性的设计平衡。
首师大毕业,现就职于新东方教育,曾就职于搜狐、快手。搜狐大厦资深老烟民,曾在搜狗、搜狐视频移动端NO工作过,负责运维及后台数据研发。快手第一位SRE,曾负责快手「所有」运维基础化建设,规划并参与了2020年春晚红包项目。现任新东方教育运维研发高级经理,负责企业基础架构标准化体系研究、自动化平台研发等。
新东方集团有几十个地方校和机构,各地散落的存储和计算资源没有统一化管理和流程,我们在此基础上,研发了新东方运维门户系统(Pandora),该系统承载了线上所有业务的云资源申请、基于FinOps的成本控制、数据平台、安全中心等,同时根据新东方业务的特殊性,将基础数据进行了资源整合,形成了运维一体化的安全数据平台。
1、统地了解平台研发设计初期,如何做好服务设计、开源软件与自研结合;
2、针对已有数据流程,最小化研发成本,集成至平台,加快整合速度;
3、理解什么是安全开发及疑难杂症、问题点;
4、对于FinOps运维和研发关注点的经验和建议。
工作10余年,先后就职于华为,腾讯,百度,现在vivo担任云存储研发负责人,研究方向:对象存储、文件存储、NOSQL存储等分布式存储领域。
存储系统作为支撑公司业务的基石,其重要性不言而喻,对存储系统来说我们一般会用服务可用性和数据可靠性两个指标来度量存储系统的服务能力。
曾任职于携程、饿了么的核心中间件团队,深入参与自研日志、监控等系统的研发,目前在货拉拉技术中心负责整体监控体系与监控平台建设。
先后负责中间件运维、在线业务保障和SRE稳定性工程;《2021 07 13 我们是这样崩的》文章作者;从0到1带领运维向SRE转型,建设B站稳定性体系;主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项;当前专注SRE稳定性体系规划建设和落地实践。
传统的业务质量体系建设需要投入大量人力做业务梳理、场景定义、指标计算、异常盯盘等,效率低,成本高。SRE中的SLO工程给出了更科学、高效的质量体系建设方式。本次分享将会介绍SLO工程方法论、如何实践SLO工程、以及如何围绕SLO工程演进到GOC体系,来建设1-5-10能力和风险控制。
1、 了解可用性指标的观测对象、观测方案和落地实践;
2、 了解Google SRE中最核心的SLO工程方法论及SLO实施经验;
3、 如何以SLO为核心来建设业务质量体系;
4、在没有GOC组织的情况下GOC能力如何落地。
2018年加入京东到家,负责过结算页、提单、订单履约等多个交易核心系统,推动了交易流程稳定性建设工作;主导交易链路订单资产正确性验证平台落地,多次经历京东618,双十一大促交易系统稳定性保障工作。
主要阐述面对交易复杂业务发展和需求快速迭代,京东到家交易系统架构演进,在这过程当中如何保障系统稳定性和降低资损风险,以及面临挑战如何解决相关技术问题。
1、复杂系统的长期维稳工作;
2、订单资产正确性验证方案;
3、订单履约全流程异常追踪方案。
在字节跳动从事图数据库研发,主要Focus存储层,设计并研发第三代分布式图存储层。
1. ByteGraph发展历史
2. ByteGraph当前架构的一些问题。当前基于分布式KV架构的存储引擎有一些问题
(1) 存储成本高 (3/5副本)
(2) 性能不高:(WAL tail / truncate 只能逐个操作,qps放大),没有分片粒度的wal导致分布式事务性能不高
(3) 功能:没有分片级别的WAL,导致从机房一致性为最终一致,无法提供强一致读
(4) 写放大高: 基于LSMT的KV用level compaction,每次覆盖,最终到盘上是几十倍
(5) 当前存储没有和图语义相结合:无法加速一些典型查询
3. ByteGraph第三代分布式图存储层设计
基于提供分布式Blob存储构建图的Btree引擎
(1) 提供分片级别的WAL,提升事务性能,减少WAL QPS,提供从机房强一致读语义。
(2) 利用Blob存储的EC技术,降低成本
(3) 落盘层类似BwTree的存储层LLAMA,同时在其基础上提供精准的统计信息(例如空洞率),用于驱动GC,显著降低写放大
4. 结合图图语义,加速查询
10年数据库运维开发经验,开源爱好者,在开源数据库 中间件推进和落地,降本增效(数据库梳理管控 数据库优化 数据库上k8s)等方面有长期积累。前360数据库运维高级专家,前360运维TC委员, Aerospike中国社区主席,NewsqlGroup发起人,TUG华北区leader。
数据库的稳定性是业务稳定性的基座,数据库的稳定是所有DBA的首要职责所在,本次分享展示知乎如何通过梳理、调优、平台化等手段,保障了数据库的稳定和高效运行。主要内容包括:
1、数据库稳定性概要:定义+方式方法+指标;
2、数据库选型:合适的场景合适的DB;
3、数据库优化:DB规范+调优;
4、平台化:慢日志+监控报警+数据库巡检。