艳的笑窝
吃鱼的猫g
IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。 1 故障基本情况 2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。 在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。 本篇论文发表在期刊《》上,杂志由信息产业部主管、中国电子科技集团第三十研究所主办。16开本,每月10日出版,国内外公开发行的月刊。杂志1967年创刊,是国内创办时间长、影响大的计算机专业媒体,2004版中文核心期刊。 (1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。 (2)在重新加电启动完毕后,仍有大量的HPS网络不能通信,导致GPFS不能稳定工作,用户无法正常提交作业。 2 故障原因分析 2.1 控制信号传输过程 从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。
五十岚零
1.数控机床维修技术人员应该具备的条件 首先,强烈的责任心和良好的职业道德追求;其次,要保证有广博的学识,懂得计算机技术、互联网技术、模拟数字电路技术、自动控制电动机拖动技术、现代数控机床检测技术以及机械加工工艺方面的技术,同时还应该具备扎实的外语应用水平;再次,在正式进入工作岗位之前还应该进行专业技术培训,要全面掌握有关数控驱动技术、PLC 技术原理和 CNC 编程技术和编程语言;最后,要熟练掌握各种检测仪器和仪表以及各种工具。 2.做好维修准备工作 现场维修是对数控机床出现的故障(主要是数控部分)进行诊断,找出故障部位,以相应的正常备件更换,使机床恢复正常运行。这过程的关键是诊断,即对系统或外围线路进行检测,确定有无故障,并对故障定位指出故障的确切位置。从整机定位到插线板,在某些场合下甚至定位到元器件。这是整个维修工作的主要部分。 3.现场故障诊断 首先,初步诊断。当故障现场资料比较全面时可以通过资料分析判断故障的位置,或者采取接口信号法结合故障现象对故障做出初步诊断,然后再按照故障的具体特点,逐个对各个部位进行检查,对故障做出初步的诊断。在实际进行故障诊断过程中,有时只采用一种方法就能够诊断故障,有时需要综合应用多种检测方法对故障进行诊断。对各种故障点进行诊断和鉴别主要取决于故障设备的运行特点和结构故障深度;其次,报警处理。主要分为两种,一种是系统故障报警处理。当数控机床系统内部出现故障之后,会在显示屏或者操作面板上出现相应的报警信号,然后维修人员结合故障操作手册可以对故障进行处理和排除,这种报警形式由于信号设置单一,严密、精确,维修人员可以结合不同信号进行针对性操作处理。第二种是数控机床报警和操作信息处理。数控机床在制作过程中应用 PLC 控制程度,将一些能够反映机床接口电气控制方面的故障或操作信息以特定的标志显示出来,并通过特定的按键,得到更加详细的故障判定指示,这种报警处理方式一方面可以使用报警手册进行处理,另一方面还可以结合PLC 程序,对相应信号进行检查,最终对故障进行诊断;最后,误报警的故障处理。当系统的 PLC 无法运行,系统已停机或系统没有报警但工作不正常时,需要根据故障发生前后的系统状态信息,运用已掌握的理论基础,进行分析,做出正确的判断。
优质职业资格证问答知识库