机构旨在为大家提供更加全面、深入的导师解析和科研辅导!每期我们会邀请团队的博士对各个领域的教授导师进行详细解析,从教授简介与研究背景 / 主要研究方向与成果分析 / 研究方法与特色 / 研究前沿与发展趋势 / 对有意申请教授课题组的建议这五个方面,帮助大家更好地了解导师,学会科研!
教授简介与研究背景
张教授现为南开大学软件学院副教授、博士生导师,兼任高级计算与关键软件(信创)海河实验室研究员,是国内人工智能运维(AIOps)领域的青年领军学者之一。其学术背景兼具丰富的理论积淀与工业实践经验:本科毕业于西安电子科技大学网络工程专业,在清华大学计算机智能科学与技术专业获得学位,期间赴佐治亚理工学院进修学习,并在阿里巴巴、等顶尖企业完成技术实习与进修研究。
张教授的研究生涯始终围绕“智能运维”这一核心方向展开,聚焦大规模互联网服务的可靠性保障问题。其博士论文获得清华大学优秀受损论文奖,研究成果多次发表于ATC、WWW、VLDB、SIGMETRICS等系统领域顶会以及JSAC、TC、TSC等权威期刊。
他长期与华为、阿里、字节跳动等企业合作,主持国家自然科学基金、国家重点研发计划子课题十余项横向项目,主导及开发的异常检测与故障预测技术被纳入多个亿级用户规模的在线服务系统。
此外,张教授在内部积极推动学术界与工业界的良性创新:参与首届AIOps挑战赛策划,担任ISSRE、WWW、ICNP等顶级会议程序委员,并获华为“最佳技术合作教授”、天津市科技进步一等荣誉。其课题组与一线IT企业建立了深度合作,着力解决真实情况下的运维问题,形成了“理论研究-技术落地-产业反馈”的闭环研究模式。
主要研究方向与成果分析
张教授团队的研究体系围绕智能运输维关键链条展开,底层以下核心方向:
(1)多模态数据驱动的异常检测
针对运维场景中日志、KPI(关键绩效指标)、调用链等多源数据,团队提出了一系列创新方法:
· 跨系统日志通用解析与异常识别在《交换机故障诊断与预测的系统日志处理》等工作中,提出了基于语义增强的日志解析框架LogParse,通过迁移学习解决了多厂商设备日志格式差异问题,在华为数据中心网络设备中实现了98.6%的异常识别准确率。
· 弱监督下的KPI异常检测发表于JSAC的《Efficient KPI Anomaly InspectionThrough Transfer Learning》提出了基于特征空间映射的迁移学习模型,5%的标签数据即可实现跨服务的异常检测泛化,显着降低大型互联网服务监控系统的标签成本。
(2)全局系统故障根源定位
结合图推理与推理推断技术,团队在微服务故障溯源领域取得突破:
· 基于因果图的根本原因分析VLDB 2020论文《Diagnosing Root Causes of Intermittent Slow Queries in Cloud Databases》设计动态服务依赖图构建算法,结合贝叶斯推理定位数据库性能瓶颈,在阿里云平台上将平均故障时间缩短47%。
· 多维指标联合分析TSC期刊成果《鲁棒性异常线索定位》提出了鲁棒性钛算法,通过多维KPI关联分析精准识别视频服务中的异常指标组合,审视虎牙直播的带宽优化场景,降低15%的运维人力投入。
(3)故障预测与系统健康管理
针对数据中心网络设备的预测性维护需求,团队在SIGMETRICS 2018提出的PreFix模型首次实现交换机故障的早期预警,通过各自模式挖掘与生存分析,在华为实际部署中达到92%的准确率。后续工作进一步引入在线学习机制,解决概念相关问题(ISSRE 2018最佳论文)。
主要成果的应用价值:与华为合作的集群通信故障诊断项目将故障排查时间从小时级降至分钟级;在网商银行落地的图推理定位系统每年需要避免数千万元的交易损失。这些实践验证了其方法在工业场景中的复杂性。
研究方法与特色
张教授团队的科研范式体现三大特色:
(1)真实场景驱动的技术演进
所有研究均基于企业提供的脱敏运维数据(如阿里双11流量高峰日志、字节跳动服务器云服务数据),在模型设计中充分考虑工业约束:
· 低标签成本:采用半监督学习、主动学习降低对标签数据的依赖(参见 IJCAI 2019 的 LogAnomaly 框架)。
· 高实时性要求:通过轻量化网络架构(如WWW 2022提出的简化算法)实现毫秒级响应。
(2)跨学科方法融合
· 运筹优化:将故障定位建模为组合优化问题,设计贪心策略加速启动(ICME 2019)。
· 知识图谱:构建运维知识图谱增强模型可解释性(TNSM 2021)。
· 强化学习:在变更场景中应用强化学习实现自动化决策(华为合作项目)。
(3)工具链生态构建
团队开发了覆盖数据处理、模型训练、可视化分析的全栈工具包,包括:
· LogClass:支持多语言日志解析的开源工具(TNSM 2021)。
· GenAD:面向多元交互的通用异常检测框架(AICS 2022 Workshop)。这些工具已通过华为ModelArts、阿里PAI平台向企业开发者开放。
研究前沿与发展趋势
当前智能运维领域呈现三大趋势,张教授团队正在以下方向布局:
(1)边缘计算场景的轻量化运维
针对5G、物联网设备资源设定的特点,研究模型压缩与联邦学习技术,相关成果《EdgeAIOps:走向轻量级异常检测》已进入INFOCOM 2023评审阶段。
(2)AIOps与安全运维(SecOps)融合
探索异常检测与入侵识别的联合建模,在CERNET合作项目中研发网络早期攻击预警系统,相关工作发表于TDSC 2022。
(3)因果推理的可解释性增强
构建反事实因果模型解释了流行病路径(如ICDE稿2023投论文),满足金融、医疗等领域对模型透明性的强需求。
未来挑战:云原生架构的普及使得服务拓扑急剧变化,如何实现无入侵式监控成为关键问题。团队正在探索基于eBPF技术的细粒度数据采集方案,相关预印本已提交CoNEXT 2023。
对有意申请教授课题组的建议
针对拟申请暑期科研或硕博项目的学生,建议从以下方面提升对比:
(1)技术储备
· 编程基础:熟练掌握Python,熟悉PyTorch/TensorFlow框架,具备Linux环境开发经验。
· 领域知识:学习《站点可靠性工程》谷歌手册,了解Prometheus、Grafana等运维工具链。
· 数学基础:强化概率统计、图论、优化算法知识,建议完成Coursera的《概率图模型》课程。
(2)科研素养
· 论文阅读:精读张教授近年发表于ATC、WWW、ISSRE的论文,重点关注方法论与实验设计。
· 工程实践:参与Kaggle异常检测竞赛(如微软的AI4I-2020数据集),或复现经典算法如DeepLog、LogBERT。
(3)申请策略
· 联系时机:建议在每年10月(硕博招生)或3月(暑期科研)前提交申请材料,附上技术博客或GitHub项目链接。
· 研究方向匹配:可从团队近期开放的三个方向中选择其一篇撰写的研究设想:
- 云重建系统的无监督根因定位
- 多模态运维数据的对比学习表示
- 大语言模型在日志解析中的应用
(4)软实力提升
· 协作能力:参与项目(如Elasticsearch的ML插件开发),积累团队协作经验。
· 沟通能力:通过技术写作(如Medium博客)锻炼语音表达复杂概念的能力。
课题组文化:团队实行双导师制(学术导师+企业导师),鼓励学生赴企业实习。近年本科主要进入华为2012实验室、阿里云智能事业群等机构,或赴CMU、ETH Zurich深造。