职位详情
加入阿里云SLS核心团队,你将处在AI浪潮的最前沿,负责构建面向大模型时代的下一代可观测数据基础设施。我们将打造国内规模最大、性能最强的统一采集引擎LoongCollector(OneAgent),为万级GPU节点、PB级海量数据提供实时、智能、无侵入的感知能力,支撑LLM训练、推理及Agent应用的全链路运维与优化。
核心职责
下一代OneAgent架构演进:主导高性能采集器LoongCollector的架构设计,实现Log、Metric、Trace、Profiling、eBPF事件与多模态数据的高效统一采集,打造AI时代的行业标准。
K8s原生数据感知:基于client-go与Informer机制构建高效元数据索引,确保在大规模Pod变动下状态同步的实时性与一致性;通过自定义Operator实现采集管线在动态异构算力环境下的自愈与自动化调度。
AI算力全栈洞察:深入研究GPU、RDMA、高性能并行存储等核心资源,构建覆盖万级异构算力节点的主机监控与硬件健康度感知体系,开发深度采集插件,构建覆盖模型训练全周期的多维性能指标体系。
eBPF无侵入观测:编写eBPF探测程序,攻克AI分布式训练中的“黑盒”死锁、长连接网络抖动等底层痛点,实现业务零干扰的深度诊断。
极致性能调优:深入底层优化异步I/O、内存池管理及编码压缩算法,在承载千万级实例、数百PB流量的同时,将单机资源损耗控制在极低水平。
生态共建:面向LLM/Agent场景构建多模态数据处理平台,深度参与OpenTelemetry、LoongCollector等开源社区,引领全球可观测技术走向。
职位要求
极致性能编程:精通C++、Go或Rust,对高性能数据结构、无锁化并发、内存管理及向量化处理有深刻理解。
系统底层认知:熟悉Linux内核、I/O模型及网络协议栈;有eBPF(Tetragon/Falco)实战经验者优先。
K8s极客:深度理解K8s内部机制(CRI/CNI/CSI),具备复杂Controller/Operator开发经验,能解决超大规模集群下的APIServer压力平衡问题。
可观测性领域深度:熟悉日志采集(Inotify/Polling)、指标压缩(HighCardinality优化)或分布式链路追踪技术。
AI算力与生态背景(加分项)
AI应用感知:熟悉LLM应用框架(LangGraph,Dify,AutoGen等)或Agent追踪需求;有GPU指标监测、AI训练日志分析、多模态数据处理经验者优先。
开源影响力:在OpenTelemetry、Prometheus、LoongCollector、LoongSuite、Cilium等社区有核心代码贡献(PR)。
核心职责
下一代OneAgent架构演进:主导高性能采集器LoongCollector的架构设计,实现Log、Metric、Trace、Profiling、eBPF事件与多模态数据的高效统一采集,打造AI时代的行业标准。
K8s原生数据感知:基于client-go与Informer机制构建高效元数据索引,确保在大规模Pod变动下状态同步的实时性与一致性;通过自定义Operator实现采集管线在动态异构算力环境下的自愈与自动化调度。
AI算力全栈洞察:深入研究GPU、RDMA、高性能并行存储等核心资源,构建覆盖万级异构算力节点的主机监控与硬件健康度感知体系,开发深度采集插件,构建覆盖模型训练全周期的多维性能指标体系。
eBPF无侵入观测:编写eBPF探测程序,攻克AI分布式训练中的“黑盒”死锁、长连接网络抖动等底层痛点,实现业务零干扰的深度诊断。
极致性能调优:深入底层优化异步I/O、内存池管理及编码压缩算法,在承载千万级实例、数百PB流量的同时,将单机资源损耗控制在极低水平。
生态共建:面向LLM/Agent场景构建多模态数据处理平台,深度参与OpenTelemetry、LoongCollector等开源社区,引领全球可观测技术走向。
职位要求
极致性能编程:精通C++、Go或Rust,对高性能数据结构、无锁化并发、内存管理及向量化处理有深刻理解。
系统底层认知:熟悉Linux内核、I/O模型及网络协议栈;有eBPF(Tetragon/Falco)实战经验者优先。
K8s极客:深度理解K8s内部机制(CRI/CNI/CSI),具备复杂Controller/Operator开发经验,能解决超大规模集群下的APIServer压力平衡问题。
可观测性领域深度:熟悉日志采集(Inotify/Polling)、指标压缩(HighCardinality优化)或分布式链路追踪技术。
AI算力与生态背景(加分项)
AI应用感知:熟悉LLM应用框架(LangGraph,Dify,AutoGen等)或Agent追踪需求;有GPU指标监测、AI训练日志分析、多模态数据处理经验者优先。
开源影响力:在OpenTelemetry、Prometheus、LoongCollector、LoongSuite、Cilium等社区有核心代码贡献(PR)。
2026-05-31 14:37
IP属地:江苏
职位福利
本科3-5年架构设计经验Linux开发/部署经验分布式经验STLBoostC++Golang可观测VectorFluentBitOpenTelemetry

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AI软硬件融合高级研发工程师
5-8万元/月
C/C++3-5年硕士编译器开发经验C++分布式经验OpenGLRedis算子优化cuda 编程Linux开发/部署经验Python
上海 徐汇区








