关键词:超算;超算平台;液冷;人工智能;高性能计算;遥感测绘;天气预报;高性能服务器;超级计算机;数据中心;CPU;GPU
一、超算是什么?
“超算”全称“超级计算”(super computing)或者“超级计算机”(super computer),超级计算机就是能够进行超级计算的计算机。
超级计算是用计算机去研究、设计产品及支持复杂的决策,除了最领先的计算硬件系统外,还包括软件系统和测试工具、解决复杂计算的算法等。当前我国的超级计算机在国际上处于领先的地位,去年的超级计算机500强评选里,我国的“神威.太湖之光”获得冠军。虽然说研究出这样的巨无霸,不过相比于美国、德国等国,我国的超级计算机的具体应用还处于较为落后的位置。
超级计算机也是计算机,拥有普通计算机的所有部件,但超级计算机的规模和性能要比普通计算机强很多个数量级。超级计算机由大量的计算节点组成,每个计算节点由CPU(中央处理器,必需)和GPU(图形处理单元,非必需)组成,计算节点之间由高速互联网络连接。此外,整个系统还包括大规模存储系统、系统软件、应用软件和冷却系统等。与普通计算机相比,超级计算机具有极大的数据存储容量和极快速的数据处理速度,因此超级计算机成为解决重大工程时难以取代的工具。
超级计算机的速度以每秒浮点运算 (FLOPS) 来衡量,大多数现代超级计算机运算速度大都可以达到每秒一千万亿次(PFLOPS)以上。
二、超算的应用场景
1、天气预报
通过超算,天气可以实现准确预报。比如天气预报,现在已经进入了精准天气预报领域。基本上可以达到80%以上的准确率。
2、地质勘探
以前勘探石油就像看地质情况,打一口井的成本差不多2亿元人民币,打完井才知道下面还有没有油,试错成本大。但是现在通过超级计算机进行地质勘探,相当于给地球做了一个“CT”,可以精确定位石油位置。
3、人工智能
在超级计算机的帮助下,机器可以开始学习人类,代替人类做重复性的脑力劳动。
4、预算核辐射
福岛核泄漏的数量大致相当于160颗原子弹的爆炸次数。使用超级计算机进行长期预测,可以看到核辐射波及到的区域。
三、超算平台如何选择?
现在的超算平台非常多,随便一搜能出来一大堆,每个平台都有自己的优点和缺点。个人认为超算平台的选择可以从以下几个方面考虑:
1、峰值算力
平台能够提供的最大算力是多少?如最大可提供的CPU核心数,可提供的最大内存容量等。这些因素决定了可以处理的最大问题规模。
2、硬件性能
主要包括CPU型号、GPU型号、内存型号、网络上下行速率等。超算平台硬件更新速度比较慢,有些平台还在用十几年前的CPU,运算速度极慢。
3、软件性能
这方面不好评价,但对用户体验影响最大。主要包括:操作系统、访问界面、软件版本或软件安装等。目前,大多数超算平台都使用Linux系统,少量有提供Windows系统。这要看超算平台是否提供前后处理功能,有些超算平台不提供前后处理能力,只允许用户上传计算脚本直接计算。如果平台同时提供前后处理功能,那么windows平台似乎更有优势。除了接入界面,一些平台还提供了网页界面,用户可以在网页上完成对超算机器之间的访问操作(如模型上传、计算控制、数据下载以及历史文件操作等)。
4、价格
这个就不过多展开了,价格永远是最重要的因素。当然价格要和软件性能放在一起去参考,不能单纯的看对方给出的单价。
四、蓝海大脑高性能服务器的超算平台解决方案
蓝海大脑高性能服务器支持多种算力平台,通过超融合与虚拟化管理平台可实现x86、ARM以及其他芯片架构的多元异构计算资源池化,并可根据业务特点实现计算资源的随需调度和统一管理,实现异构融合。同时提供计算密集型、计算存储均衡型、存储密集型、边缘型、AI型等多种机型,以满足不同场景的需求,更加灵活高效。
该产品整合“容器+虚拟机”双引擎,将容器与虚拟机拉齐到同一资源层次,使容器与虚拟机并行运行、不相互承载,且共用管理平面、网络模型和存储空间,实现虚拟机+容器的一体化管理运维。其中,容器采用非嵌套部署模式,性能更接近标准容器,能广泛兼容K8s原生接口与标准容器镜像,并提供虚拟机级别的安全隔离能力,给用户带来更兼容、高性能、更安全的容器使用体验。
1、主要技术指标
可 靠 性:平均故障间隔时间MTBF≥15000 h
工作温度:5~40 ℃
工作湿度:35 %~80 %
存储温度:-40~55 ℃
存储湿度:20 %~90 %
声 噪:≤35dB
2、产品特点
集中管理:支持多种异构硬件平台、操作系统和应用程序,提供单一系统镜像,实现计算节点和图形工作站节点的集中管理和统一调度
负载均衡:提供强大的负载均衡能力,保证计算服务器的任务分配尽可能均匀,避免机器忙闲不均的现象。并根据服务器的负载指标(如CPU利用率、可用内存、IO等),可以采取保护措施
资源的有效利用:避免计算任务之间发生冲突,导致任务失败或计算时间延长
优先级管理:确保在资源不足时,紧急的项目或任务可以获得更高的优先级,从而更快地启动,避免影响设计和工程的进度
3、客户收益
实现统一的用户登录、验证、作业管理、数据管理;实现资源跨部门共享以及利用率最大化
加快企业的产品研发进度、大幅缩短研发周期、提升产品的设计开发效率
提供统一平台,最大化提升在深度学习、虚拟图像、HPC等领域的快速响应以及精准预测,带来更流畅的交互体验
提高客户满意度,在图像、视频、声音等提供实时用户体验、加快搜索速度
降低总体拥有成本,简化工作流程,加速多种工作负载,提高生产力,促进企业创新