场景描述
图片系AI生成
在线服务资源使用量随着终端用户的使用习惯呈现出稳定的潮汐现象,夜间CPU利用率极低,导致集群均值CPU利用率较低;业务保有大量的独占资源池,资源池割裂产生大量的资源碎片,拉低CPU利用率;业务为了稳定性考虑,会过量囤积资源,进一步拉低CPU利用率。
解决方案
参与创新场景50的评选
在阿里云的协助下,小红书混部技术经历了四个阶段演进:闲置资源再利用、整机腾挪分时复用、常态混部、统一调度。
一,通过技术手段将集群中的闲置资源收集起来,分配给转码类业务场景使用;
二,通过弹性能力(HPA),在凌晨业务低峰期按比例对在线业务缩容,腾挪空出整机,并将转码、训练等离线pod在该时段运行起来,起到利用率“填谷”的效果;
三,平台持续推进业务大规模合池,将业务由独占池迁至平台托管的公共混部池,通过合池、资源超卖等技术手段,CPU分配率得到有效提升,同时通过建设更为细粒度的资源管理与调度能力来实现均值利用率提升的目标;
四,混合云架构的统一调度来管理异构计算资源,并支持各类业务形态的工作负载调度能力。
成效
通过大规模容器混部的持续推进,小红书在资源成本效能上有显著改善。
在CPU利用率方面,在线混部集群天均CPU利用率提升至45%以上,部分集群天均CPU利用率可稳定提升至55%。在线集群CPU利用率提升8%-15%不等,部分存储集群利用率提升可达20%以上。在资源成本方面,为小红书各类离线场景提供数百万核时的低成本算力。混部集群CPU分配率提升至125%以上,相较于独占资源池,资源碎片率明显下降。
「关于创新场景50」
场景不是案例,它更加精准、也更加抽象。数字化就是创新场景的不断叠加和迭代。
在此背景下,钛媒体重磅推出「创新场景50」评选,每年遴选并解读50个全行业与业务深度融合的创新性场景及其解决方案,并在钛媒体年度上隆重颁奖、深度交流。
责任编辑:
相关知识
AI赋能宠物经济:主要应用场景及发展方向
众安在线保险业务布局进展如何?
朝云集团专题研究:家居、个人护理、宠物业务
金天:金融机构如何玩转场景营销?
京东 X 珍致推出白金礼盒 重新“定义”宠物情感消费场景
夏日文旅消费“热力”十足涌热潮 创新场景激发活力
释放新消费时代流量需求!上海解锁夏日文商体旅展融合“新场景”
爱人也爱宠,众安保险数字生活业务全场景亮相外滩大会
小猫智能书写工具:多功能、高效率、适用多场景的智能笔解决方案
打造“宠物友好”空间 石家庄市商业企业创新社交场景
网址: 在线、离线业务融合场景,天均CPU利用率提升至55% | 创新场景 https://m.mcbbbk.com/newsview142377.html
上一篇: 离线学习(训练)和在线学习(训练 |
下一篇: 宠物经济再研究:线下宠物店还有机 |