主要职责:
1.模型部署与编排:主导各类深度学习模型的部署工作,支持多模态模型的自由编排与应用,运用前沿技术确保模型在云平台等生产环境中的高效运行
2.服务接入与性能调优:利用Kubernetes等技术开展服务端集群管理,实施负载均衡、批处理、缓存加速等策略,持续优化服务响应时间,提升用户体验。
3.推理加速:结合云端GPU性能,探索半精度(FP16)和整数精度(INT8)的部署策略,实现模型推理的加速。
4.性能瓶颈分析:深入剖析模型如Stable Diffusion、Transformer等的耗时分布,识别并解决pipeline中的性能瓶颈。
5.推理引擎优化:专注于推理引擎如vLLM、TensorRTLLM的适配与优化,包括多步推理、并行计算、attention机制加速及算子融合等,以提升整体推理效率。
6.云端集群调度与优化:负责算法集群的调度与优化工作,确保资源的高效利用和任务的高效执行。
资格要求:
1.卓越的学术背景:持有计算机科学或相关领域的研究生学位,具备深厚的理论知识和研究经历。
2.精湛的编程技能:熟练掌握C++与Python,有使用CUDA开发高效层的实践经验者优先。
3.深度学习框架精通:对TensorFlow、PyTorch、ONNX、TensorRT等主流框架的训练与部署有深刻理解,使用过Triton的优先考虑。
4.广泛的技术视野:熟悉常见神经网络架构与训练任务,具备跨领域知识整合能力。
5.分布式系统实战经验:对大规模分布式系统设计有浓厚兴趣,拥有Kubernetes/Docker等容器化技术的实际项目经验,能够应对复杂系统挑战。
6.云端运维经验:了解并掌握云端运维相关工作,确保云端系统的稳定运行。