快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27

发布时间:2022-09-19 14:05:38

来源网友:库卡

文章摘要:快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27快手线下托管平台上的大型容器实践 2021-04-27 个人介绍 张伟快手系统运营部• 2018年6月加入...

快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27

快手线下托管平台上的大型容器实践 2021-04-27 个人介绍 张伟快手系统运营部• 2018年6月加入快手抖音粉丝号账号交易平台官网,目前主要负责用于容器云有状态服务容器化、集群调度、离线托管项目的研发。曾在百度基础设施和金山云从事云计算架构研发。快手主机托管系统简介 2 总体架构和关键技术 3 近期重点和未来规划中的挑战 快速发展的业务:资源供应的挑战 大量应用数量 大量IDC 大量主机类型 各种高峰资源短缺 频繁的业务升级和变更 资源离线分离 业务增长与资源成本控制之间的矛盾越来越突出。如何解决资源困境?混合计算:解决离线资源共享需求,提高整体资源利用率 离线+非实时作业 在线服务资源利用率 利用率指标高 资源利用率低 显然,资源规模大于可用资源。需求点需要足够的资源包。在线业务的使用率固定为三天。该图具有容错特性。延迟、饱和度和错误率允许重试。稳定性需要高重试成本。流量高峰和低谷 • SLO 保证冗余 • 用户估计错误 • 突增需求 明确建设目标 CRI+CSI+ 动态资源 IaaS 资源 IaaS 资源 IaaS 资源 IaaS 资源 在线集群 可用性下降0%• 打破离线资源壁垒• 增加峰值平均值利用率提升5%• 有效将闲置算力转化为离线任务• 日均利用率提升10%+• 规模达到10W量级• 离线挖矿量超过百万核 托管平台定位长期服务批量计算大数据...基于云原生支持各业务线下机房资源在线机房资源,灵活支持离线作业•预算拆分•需求排序•隔离能力建设•关键资源调度优化•关键技术预研加固•大数据任务接入部分总体架构及关键技术总体框架离线a应用和作业 通用转码、短质检、报表等大型Spark业务任务和数据 高容错应用 定时任务辅助系统离线编排在离线容器中 作业安排 自动化运维 应用安排 作业安排 动态超订 服务概况 大数据 MR/Spark 资源成本分摊 分布式离线资源监控容器容器网络增强隔离KATA存储现有物理机、容器集群、物理机、公有云主机、备机和测试机、集群管理框架、离线跨集群编排、自动接入集群A …集群N • 有效期内的资源收集规则 • 资源模型预留资源 • …多级资源上报 常用离线资源 同地资源收集 低退避 单节点离线资源 离线实例管理 Rese 离线资源单机共存时源层资源提取效率:安全阈值 1• 始终有效• 秒级发现空闲资源 50% 在线• 低回退类型• CPU 日均贡献可超过10pp资源-高性能,提高稳定性和占用•通用应用范围预测-大量资源•始终运行的业务在线应用上限+预测请上线单机资源面向在线和离线任务。定义多级和不同的资源类型。使用统一的资源层主机。 “在线”-“离线”转换。占用从峰值到峰值 • 类似主机的空闲时间和离线业务的空闲时间的时分复用 • CPU 峰值可达到80% 现场时间缩减扩展 • 大包离线作业段容纳离线段景观资源 在线实例应用范围:实时检测空闲和离线作业退避操作•备机池、池、核心在线业务集群使用在线实例启动统一资源层:隔离能力构建CPU内存离线帐户•几十毫秒的收集周期• 账户级FD整体约束• 动态调整• 数十毫秒采集周期• 容器内外账户网卡流量映射• 无压缩资源• 账户权限和配额管理• 历史数据预测和稳定值• 独享核心和共享核心管理适用于敏感业务和离线运行的任务• 用户实时退避-模式检测 • 离线任务TC限速与CPU队列相同 • 改进离线任务, • 流量上限监控 • 处于压力状态的离线任务优先在冲突备份时杀死离线任务 • 调度层优化分配Pid 和 FD 系统负载、磁盘空间和 Inode • 收集周期数十秒 • 无需收集,设置上限 • 收集周期数十毫秒 • 实时监控容量和 Inode 使用情况 • 设置离线进程限制单机•(1m/5m/10m)•清除离线任务和数据超过阈值容器实例进程限制•结合可用cpu核心数量设置比例约束•分布式块存储的大量IO访问(转换为网络IO) • 快速退避优化 • XFS 目录配额(进行中) • 内核限制(进行中) 统一资源层:隔离能力构建+混合单机组件离线容器安装ance 离线容器实例 提高超额预定率 专线带宽监控 统一资源层:动态资源调整 在线容器 单节点资源视图组件 • 静态分配上限混合资源 实时计算 离线作业 在线服务 离线容器 • 调整 • 多优先级大盒子限制高质量的离线和在线容器• 实时软硬限制调整• 网速限制离线优先级高优先级离线在线优先在线容器• 账户级硬限制• • 访问• 低优先级离线• 在线容器• 离线大盒子嵌套• 实时可用性和预测资源联动• Nbd块设备限速访问采集和采集• 存储压力透传资源动态调整分布式存储集群统一资源层:退避机制状态机维护:离线稳定运行1.

轻压:提供透明传输整机状态和预测数据的接口快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27,离线进程执行高优化和低优化混合、GC、暂停子任务等策略。压力状态 压力状态 2. 重压:优先杀掉离线实例,强制释放资源 3. 惩罚系数:指数回退和等待避免振荡循环检测 严格控制压力状态: 1. 阻止新离线容器的启动毫秒。托管资源报告秒级更新,调度侧规避 3.平台异步清理快速阻塞的离线实例记录。安排与调度:跨集群调度快手系统运营部,多集群+实时负载调度模块,资源感知调度决策发布300个离线任务:流程示例启动服务l设置服务类型和元数据l选择同地资源包到设置运行时弹性伸缩 l 平台回退后自动清理实例 l 设置最大最小实例数 l 跨集群检测可用空闲资源 l 设置伸缩步长 l 设置驱动指标 离线任务发布:如何设置资源并明确指定资源类型 监控实际资源使用情况 近期优先级和未来规划 近期优先级和未来规划 隔离能力 增强多生态兼容性 构建场景扩展 l 轻量级虚拟化,保证内核级隔离 l 更多计算平台API兼容构建 l GPU /ASI​​C 场景支持 l 单机采集和侧应用指标预测 l 增强离线任务调度(提高任务覆盖率和吞吐量) l 精细化管控:干扰识别与规避 l 超大集群能力提升总结 l 系统开发简介-为什么要做,简史l 总体框架和实施细节——技术方案介绍,如何实现快手系统运营部,达到什么效果 l 短期关注和后续规划——中长期规划

知识无界限,你我都是专家

本文由网友 库卡星媒 上传发布

如本文不能解决你的问题

咨询客服 1对1解答 >

本文网址:http://0572kk.com/dyyy/1151.html 复制

文章说明:本文由 “库卡星媒” 整理上传,首发于库卡网,如内容有误或侵犯您的权益,请联系客服删除处理。

账号出售价格估算 3小时出结果

类型

  • 抖音
  • 快手
  • 小红书
  • 公众号
  • 视频号
  • 微博

粉丝数量

  • 1到10万
  • 10到20万
  • 20到30万
  • 30到40万
  • 40到50万
  • 50到60万
  • 60万以上
点击获取
关于账号,您可能还想知道
更多+

快手系统运营部:快手大规模在离线混部平台的容器实践之路2021-04-27