开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片新华三亮相CCBN2024:端到端能力,赋能新型广电网络建设光模块“三剑客”2023年:AI需求下的“冰火两重天”英伟达黄仁勋称AI不会完全取代人类工作:人类有很好的判断力,有些情况机器无法理解台积电将制造两倍于当今最大芯片尺寸的大型芯片,功率数千瓦苹果iPhone16系列模型曝光,展示超大Pro Max机型和全新摄像头模组中国移动一体化算力网络领航数智产业行动计划发布,加速迈向算网3.0新阶段中国移动发布国内领先的大云磐石DPU芯片 速率达400Gbps京东举办安防会议商显品类商家大会 聚焦产品创新驱动产业发展大佬们车展抢人背后:火热、内卷、博弈空气萝卜推出全新扫地机 宠物家庭清洁新选择巨湾技研与亿航智能正式签署合作协议,联合研发全球首个eVTOL航空器超快充电池空气萝卜革新宠物清洁市场,扫地机行业迎红海破局者华为Pura 70新机上市,UC浏览器为用户带来免费100G网盘空间福利报告:AI等技术推动中国数据备份与恢复系统市场健康增长LobeChat支持通过网页版直接调用Ollama 本地模型 体验媲美ChatGPT千元价位性能标杆!iQOO Z9系列正式发布,小当回收以旧换新狂补贴石头科技披露2024年第一季度财报 收入18.41亿元同比增长58.69%七年蛰伏,百度Apollo迎来汽车“智变”时刻华为、小米再较量:互给压力,都不轻松
  • 首页 > 产经新闻频道 > 业界新闻

    川庆物探数据机房运维:实现资源统一、自动化调度管理

    2017年10月09日 15:28:55   来源:慧聪网

      经过快速稳定的发展,川庆物探IT规模逐渐扩大,IT基础架构建设趋于完备。云计算时代,川庆物探着眼于业务扩展的需要,引入云资源,加快了川庆物探信息化建设的步伐。但是,川庆物探原有的IT运维并不完善,IT运维服务模式的改革创新势在必行。

      目前川庆物探共有3个数据中心机房:2个在成都,1个在新疆库尔勒。其中库尔勒为移动式机房,成都1楼机房主要为利旧将下线的老设备,2楼机房为承载川庆物探重要业务应用的集群化服务器和存储资源。

      目前针对机房及设备间的管理都比较完善,服务器和存储设备资源均已池化,但随着支撑业务应用的逐渐增多,资源的合理利用是一个较大问题。

      1 行业特性

      对石油勘探行业而言,IT资源除了存储海量数据的设备外,最关键的就是计算资源。石油勘探行业采集的地质数据数量庞大,而且需要经由地震资料处理类软件和地震资料解释类软件复杂的运算才能完成数据分析工作,这两类软件分别用于地震数据的处理和地震数据的解释,其所需要的运算量相当庞大。

      采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算,再通过矩阵的变化,迭代后会产生更庞大的数据量。最后,输出原始数据处理结果时,又需要进行大量计算,最后变成与原始数据体量规模相似的数据。

      2 项目背景

      2016年底,勤智运维与川庆物探研究中心合作,搭建一体化智能运维平台承担整个研究中心的运维支撑工作。川庆物探研究中心通过部署勤智OneCenter一体化运维管理平台,对川庆成都数据中心机房的核心网络设备、计算和存储集群资源进行了全面监控;通过网络拓扑图、设备性能视图、设备告警视图、自动化运维及定制化功能,直观了解网络设备、技术、存储集群资源的使用情况,并能及时发现设备故障;通过自动化资源调度合理分配、计算、存储资源,由被动运维变为主动运维。

      3 现状描述及需求分析

      3.1 现状描述

      类似川庆物探研究中心计算所这样的科研机构,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心,都面临着同样的信息化运维难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。川庆物探现有3个数据中心,2个在成都,1个在新疆。各数据中心只能负责各自的数据,数据中心之间的远程监控还未实现。

      为了保障勘探项目的顺利进行,为各项目组提供服务,川庆物探研究中心计算所投资建设的高性能计算平台有2000多个计算节点,近40000个CPU,每个CPU的核数超过了10000。硬件上的投入看似足够,但当项目繁忙需要很多应用软件同时在高性能计算平台上运行时,系统的稳定性就会出现问题。川庆物探急需一套专业的一体化运维平台,实现网络、计算、存储资源监控、远程、自动化的调度管理,让投资的硬件、软件资源的利用率更高,为业务顺利开展提供服务保障。

      3.2 需求分析

      随着川庆物探投资建设的高性能计算平台上线运行,各核心网络设备运行基本畅通,计算及存储资源在实际项目中的合理高效利用成为关注的焦点。为此,川庆物探从实际业务出发提出了如下要求:

      1)实现对核心网络设备的全面监控,并可在拓扑视图中直观显示网络架构、设备的运行状态和网络链路的性能和通断情况。

      2)实现对计算及存储集群资源监控,并通过统计视图展现集群资源CPU、内存使用情况。

      3)实现磁盘阵列各文件系统的信息采集,并以图表方式展现。

      4)实现以矩阵方式展现各计算集群节点运行应用分布情况,不同应用以不同颜色区分。

      5)实现计算集群资源通过自动化执行脚本方式自动调度分配。

      4 解决方案

      经过前期需求调研,考虑到需监控管理的计算节点超过1000个,勤智运维决定采用分布式部署方式,数据处理器单独部署一台服务器,两个数据采集器、集中门户等组件单独部署一台服务器,数据库采用Oracle11g单独部署一台服务器。

      1)通过网络拓扑视图展示,自动发现生成网络拓扑,并且关联设备的性能和告警信息,便于进行故障隔离和快速定位。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      1 拓扑图展示

      2)通过勤智OneCenter一体化智能运维平台实现对网络、计算、存储集群资源全面监控,实时展现各资源的CPU、内存、磁盘、接口等性能指标信息。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      2 网络设备

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      3 计算集群节点

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      4 存储集群节点

      将业务资源分组,以统计视图方式集中展现各计算、存储集群资源CPU、内存使用情况。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      5 计算集群资源使用统计视图

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      6 计算集群各节点CPU利用率

      川庆物探数据机房运维:实现资源统一、自动化调度管理

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      7 计算集群各节点内存利用率

      3)磁盘阵列使用情况统计:通过定时代理方式,在指定存储节点上执行脚本命令采集获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      8 存储文件系统一级目录

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      9 存储文件系统一级目录

      4)项目应用矩阵视图展现:按照川庆物探的业务,每个计算集群节点上均会部署运行一个项目应用,例如:Omega、Paradigm等。计算集群节点为Linux系统,勤智OneCenter一体化智能运维平台按照Linux对各节点进行监控,并将川庆物探的项目应用名称同Linux操作系统的“系统说明”字段进行绑定,绑定策略可在后台配置文件中进行维护。

      以矩阵方式集中展现a段、b段、c段等计算集群节点上运行应用情况。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      10 矩阵视图展示

      5)自动化资源调度:通过对计算集群资源的全面监控,及时掌控各集群节点的使用情况,结合资源调度功能实现自动化在线分配节点资源(释放空闲节点的资源到业务紧张的节点中)。

    川庆物探数据机房运维:实现资源统一、自动化调度管理

      11 资源调度

      5 用户收益

      勤智OneCenter一体化智能运维平台,能够帮助川庆物探用户找到问题出现的根源,比如哪些资源已经超负荷,哪些资源处于闲置状态,并通过在线资源调度合理分配超负荷资源和闲置资源,使其得到高效利用。川庆物探能够实时掌控计算平台上的应用运行情况,预知分配给应用的计算节点何时达到峰值。如果当前CPU利用率较低,就可以加载将要运行的软件,提高平台处理效率。

      川庆物探反馈引入勤智OneCenter一体化智能运维平台后,业务能够更好地顺利开展,所有可监控的业务都做到了提前报警,计算集群节点使用状况实时可控,实现了资源的统一、自动化管理,投资的软硬件资源利用率更高。

      6 案例亮点

      本项目一期建设亮点如下:

      1)实现对川庆物探核心网络设备、计算和存储集群资源全面监控,结合ITAM平台实现自动调用脚本实现计算集群资源的在线调度。

      2)通过定制化需求对计算集群节点CPU、内存性能指标进行集中展现;以矩阵方式展现各计算集群节点运行业务应用情况。

      3)通过定时代理方式在指定存储节点上执行脚本命令,获取磁盘阵列文件系统目录使用情况,并以图表方式进行集中展现。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。