导师简介
如果你想申请香港科技大学 计算机工程学系博士,那今天这期文章解析可能对你有用!今天Mason学长为大详细解析香港科技大学的Prof. TAN的研究领域和代表文章,同时,我们也推出了新的内容“科研想法&开题立意”,为同学们的科研规划提供一些参考,并且会对如何申请该导师提出实用的建议!方便大家进行套磁!后续我们也将陆续解析其他大学和专业的导师,欢迎大家关注!
作为香港科技大学(HKUST)电子与计算机工程系的教授,导师是计算机科学领域的重要学者,尤其在计算机视觉、计算机图形学和机器人学领域享有国际声誉。导师于2007年在HKUST获得计算机科学博士学位,现担任Intelligent Space Computing Lab主任和Von Neumann Institute副主任。教授的学术生涯涵盖了从前沿研究到实际应用的广泛领域,发表了157篇学术论文,涉及顶级期刊如ACM Transactions on Graphics和IEEE Transactions on Pattern Analysis and Machine Intelligence,以及高影响力会议如ICCV和CVPR。
研究领域
导师的研究兴趣集中在以下三个核心领域:
- 计算机视觉:研究图像和视频的理解与处理,涵盖三维重建、SLAM、深度估计和事件相机(Event Camera)的应用。她的工作致力于提高视觉系统的鲁棒性和精度,尤其在复杂环境下的场景理解。
- 计算机图形学:专注于高质量三维建模、渲染和体视重建(Volumetric Reconstruction),应用于虚拟现实(VR)、增强现实(AR)和数字孪生(Digital Twins)。
- 机器人学:研究机器人感知与交互,涉及SLAM、机器人抓取(Robotic Grasping)和自主导航,目标是开发能够在动态环境中自主操作的智能机器人。
研究分析
1.DMHomo: Learning Homography with Diffusion Models
期刊:ACM Transactions on Graphics, v. 43, (3), April 2024
内容:该文提出了一种基于扩散模型(Diffusion Models)的单应性估计方法(Homography Estimation),用于图像对齐和场景几何变换。传统方法依赖手工特征或深度网络,而该研究利用扩散模型的生成能力,显著提高了在复杂光照和遮挡条件下的估计精度。
重要发现:通过引入噪声逐步去噪的训练策略,模型在低纹理区域表现出色,优于传统方法如SIFT和深度学习方法如SuperPoint。
2.Learning Photometric Feature Transform for Free-Form Object Scan
期刊:IEEE Transactions on Visualization and Computer Graphics, December 2024
内容:该文提出了一种光度特征变换(Photometric Feature Transform)方法,用于自由形态物体的三维扫描重建。研究结合光度一致性和几何约束,解决了非刚性物体在扫描过程中的形变问题。
重要发现:模型通过自适应特征提取,实现了高精度的表面重建,特别是在动态场景中表现出色。
3.DVI-SLAM: A Dual Visual Inertial SLAM Network
会议:2024 IEEE International Conference on Robotics and Automation (ICRA)
内容:该文提出了一种双视觉-惯性SLAM网络(Dual Visual Inertial SLAM),结合RGB相机和惯性测量单元(IMU),提升了机器人在动态环境中的定位和建图精度。
重要发现:通过深度学习的端到端优化,模型在快速运动和光照变化场景中实现了鲁棒的轨迹估计,优于传统ORB-SLAM。
4.Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
会议:Lecture Notes in Computer Science, v. 15080, September 2024
内容:该文提出了一种基于高效行注意力机制(Row-wise Attention)的多视图扩散模型,用于从多视角图像生成高分辨率三维模型。研究优化了计算效率,降低了内存需求。
重要发现:模型在生成复杂几何结构时保持了细节精度,显著优于传统NeRF(Neural Radiance Fields)方法。
5.High-Resolution Volumetric Reconstruction for Clothed Humans
期刊:ACM Transactions on Graphics, v. 42, (5), August 2023
内容:该文聚焦于穿衣人体的体视重建,提出了一种结合深度学习和体视表示(Volumetric Representation)的方法,解决了衣物褶边和动态姿势的建模难题。
重要发现:通过引入多尺度特征融合,模型实现了高分辨率的细节捕捉,重建质量接近商业扫描设备。
6.Recurrent 3D Hand Pose Estimation Using Cascaded Pose-Guided 3D Alignments
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 45, (1), January 2023
内容:该文提出了一种递归三维手势估计方法,通过级联姿势引导(Pose-Guided 3D Alignments)提升了手部动作的跟踪精度,适用于复杂交互场景。
重要发现:模型在遮挡和快速运动场景中表现出色,优于传统基于关键点的方法。
项目分析
1.Research in Spatial Intelligence
研究领域:Computer Vision, Robotics
内容:该项目由Adobe Systems Incorporated资助,聚焦于空间智能(Spatial Intelligence)的研究,旨在开发能够在复杂环境中理解和交互的视觉-机器人系统。项目结合SLAM、三维重建和深度学习技术,提升机器人对空间的感知能力。
重要发现:项目开发了高效的SLAM算法和三维场景解析工具,显著提高了机器人在未知环境中的自主性。
2.High Quality Indoor Scene 3D Reconstruction
研究领域:Computer Graphics, Computer Vision
内容:由北京华熙盛辉贸易有限公司和中电科集团资助,该项目旨在开发高质量室内场景三维重建技术,结合多传感器数据(RGB、深度、IMU)实现高精度建模。
重要发现:项目提出了一种多模态融合框架,解决了室内光照变化和遮挡问题,重建精度达到亚毫米级。
3.OCRTOC: A Cloud-Based Competition and Benchmark for Robotic Grasping and Manipulation
研究领域:Robotics, Computer Vision
内容:该项目设计了一个基于云的机器人抓取和操作竞赛平台(OCRTOC),提供标准数据集和评估框架,促进机器人抓取算法的开发。
重要发现:项目建立了统一的抓取基准,推动了深度学习在机器人抓取中的应用,显著提升了抓取成功率。
研究想法
1.基于事件相机的动态场景SLAM
- 背景:导师在Learning Optical Flow from Event Camera with Rendered Dataset中展示了事件相机在动态场景中的潜力。事件相机以高时间分辨率捕捉光强变化,适合快速运动场景。
- 立意:设计一种结合事件相机和深度学习的SLAM系统,针对动态环境(如人群密集区域)优化定位和建图精度。研究可探索事件流与RGB数据的多模态融合,解决传统SLAM在动态遮挡中的失效问题。
- 可行性:利用导师实验室的计算资源和事件相机数据集,结合开源SLAM框架(如ORB-SLAM)进行实验。
2.生成式模型驱动的个性化三维人体重建
- 背景:导师在High-Resolution Volumetric Reconstruction for Clothed Humans和Learning Personalized High Quality Volumetric Head Avatars中展示了三维人体重建的前沿技术。
- 立意:结合生成式对抗网络(GAN)和扩散模型,开发一个从单张RGB图像生成个性化三维人体模型的框架,优化衣物纹理和动态姿势的生成质量。
- 可行性:基于导师的体视重建框架,引入公开数据集(如Human3.6M)进行训练,实验室的GPU集群可支持高计算需求。
3.多机器人协作的视觉-抓取系统
- 背景:导师的OCRTOC项目为机器人抓取提供了标准平台,而DVI-SLAM展示了视觉-机器人系统的潜力。
- 立意:设计一个多机器人协作抓取系统,利用视觉SLAM和深度强化学习(Deep Reinforcement Learning)实现动态场景中的协同抓取任务。研究可聚焦于多机器人间的视觉通信和任务分配优化。
- 可行性:利用导师实验室的机器人平台(如机械臂)和仿真环境(如Gazebo)进行实验,结合开源强化学习框架(如RLlib)。
申请建议
1.深入研究导师的学术产出
- 建议:仔细阅读导师的近期论文(如DMHomo、Era3D),重点理解其方法论(如扩散模型、SLAM优化)和应用场景。查阅她的Google Scholar页面,关注被高引用的论文,了解其研究脉络。
- 实践:在研究计划中引用导师的1-2篇论文,提出如何在其基础上扩展研究。例如,基于DVI-SLAM,探讨多模态SLAM在低纹理环境中的改进。
- 创新点:展现你对导师研究细节的理解,如提到“结合事件相机优化SLAM的鲁棒性”,体现专业性。
2.明确研究兴趣匹配
- 建议:导师的研究聚焦于Computer Vision、Computer Graphics和Robotics,申请者需明确自己的兴趣点(如三维重建或机器人感知)并与导师方向对齐。避免泛泛的研究兴趣描述。
- 实践:在个人陈述(Statement of Purpose)中,阐述你对某一具体领域的热情(如“对高精度三维重建的兴趣源于我在VR项目的开发经验”),并提及导师的相关工作(如High-Resolution Volumetric Reconstruction)。
- 创新点:提出一个小型研究设想,呼应导师的项目,如“基于Era3D的多视角重建,优化低分辨率输入的生成质量”。
3.提升技术背景和编程能力
- 建议:导师的研究高度依赖深度学习和机器人算法,申请者需熟练掌握Python、PyTorch/TensorFlow和SLAM相关框架(如ORB-SLAM)。
- 实践:参与开源项目(如OpenCV、ROS)或Kaggle竞赛,积累计算机视觉和机器人领域的实战经验。在简历中列出具体项目(如“开发了一个基于NeRF的三维重建工具”)。
- 创新点:在申请材料中附上GitHub链接,展示与导师研究相关的代码(如SLAM算法实现),并在面试中准备讲解技术细节。
4.撰写高质量研究计划
- 建议:研究计划需围绕导师的核心领域(如三维重建或SLAM),提出一个明确、可行的课题,体现创新性和技术深度。
- 实践:参考导师的论文和项目,设计一个课题(如“基于事件相机的动态SLAM优化”),包括研究背景、方法、预期成果和与导师工作的关联。确保计划技术细节清晰(如“采用扩散模型优化特征提取”)。
- 创新点:强调课题的实际应用(如“应用于无人机导航”),并提及如何利用导师实验室的资源(如高性能GPU或机器人平台)。
博士背景
Kimi,985机械工程硕士,现为港三机械工程博士生。研究方向为智能制造和机器人学,专注于工业4.0背景下的自动化生产系统优化。曾在《Journal of Mechanical Design》和《Robotics and Computer-Integrated Manufacturing》发表过论文。获得IEEE机器人与自动化国际会议最佳学生论文奖。