平谷做网站,太原北京网站建设公司哪家好,开发建设网站需要什么人才,前端开发岗位职责最近#xff0c;处理一次oracle 11.2.0.4 rac cluster由于cssd无法启动#xff0c;导致集群一个节点的CRS集群无法正常启动的故障。原本#xff0c;计划变更是从ASM剔除磁盘#xff0c;解除存储到数据库服务器的映射#xff1b;磁盘已经成功从ASM剔除#xff0c;也已经成… 最近处理一次oracle 11.2.0.4 rac cluster由于cssd无法启动导致集群一个节点的CRS集群无法正常启动的故障。原本计划变更是从ASM剔除磁盘解除存储到数据库服务器的映射磁盘已经成功从ASM剔除也已经成功从存储解除到操作系统的映射为了验证磁盘剔除是否对集群有影响重启了集群两个节点重启之后节点1能够成功启动CRS集群但是节点2确启动不了cssd。于是将盘从新映射到集群两台主机但是并没有将其加入任何ASM磁盘组然后再重启集群两台服务器节点1能够启动集群节点2第一次没有启动集群原因还是CSSD无法启动但是手工清理集群进程后再次尝试启动集群成功。 由于变更目的是要将磁盘从主机端释放于是再次unmap磁盘重启两台服务器重启之后尝试启动oracle集群节点1最终成功启动集群节点2依然无法启动cssd而集群无法启动无论是整个CRS集群先启动节点2、还是后启动节点2节点2都无法启动到正常状态。后来仔细观察集群alert日志输出内容还是提示gpnp profile无法获取到。报错内容如下
--首先提示gpnp进程启动
2023-09-02 15:05:12.014: [ GPNP][2895390528]clsgpnp_Init: [at clsgpnp0.c:619] GPnP pid91293, GPNP comp tracelevel1, depcomp tracelevel0, tl
src:ORA_DAEMON_LOGGING_LEVELS, apitl:0, complog:1, tstenv:0, devenv:0, envopt:0, flags3
2023-09-02 15:05:12.017: [ GPNP][2895390528]clsgpnpkwf_initwfloc: [at clsgpnpkwf.c:399] Using FS Wallet Location : /u01/app/11.2.0/gpnp/rac11gn2/profiles/peer--最终集群日志提示gpnp由于获取不到gpnp profile没有运行
2023-09-02 15:05:12.025: [ default][2895390528]Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running). 但是分别查看报错提示路径下的gpnp profile两个节点都是存在的。尝试使用gpnptool get也都能输出gpnp profile内容对比两个节点gpnp profile文件内容也完全是一致的包括使用scp方式将一个节点的gpnp profile传输到另外一个节点然后diff对比也没有任何区别。
[gridrac11gn1 peer]$ gpnptool get
Warning: some command line parameters were defaulted. Resulting command line: /u01/app/11.2.0/bin/gpnptool.bin get -o-?xml version1.0 encodingUTF-8?gpnp:GPnP-Profile Version1.0 xmlnshttp://www.grid-pnp.org/2005/11/gpnp-profile xmlns:gpnphttp://www.grid-pnp.org/2005/11/gpnp-profile xmlns:orclhttp://www.oracle.com/gpnp/2005/11/gpnp-profile xmlns:xsihttp://www.w3.org/2001/XMLSchema-instance xsi:schemaLocationhttp://www.grid-pnp.org/2005/11/gpnp-profile gpnp-profile.xsd ProfileSequence8 ClusterUId262b2efebaf14f70bfcbc36adccfdb34 ClusterNameorcl-cls PALocationgpnp:Network-Profilegpnp:HostNetwork idgen HostName*gpnp:Network idnet2 IP192.168.56.0 Adaptereth1 Usecluster_interconnect/gpnp:Network idnet3 Adaptereth0 IP172.20.20.0 Usepublic//gpnp:HostNetwork/gpnp:Network-Profileorcl:CSS-Profile idcss DiscoveryStringasm LeaseDuration400/orcl:ASM-Profile idasm DiscoveryString SPFileOCRDG/orcl-cls/asmparameterfile/registry.253.1137254593/ds:Signature xmlns:dshttp://www.w3.org/2000/09/xmldsig#ds:SignedInfods:CanonicalizationMethod Algorithmhttp://www.w3.org/2001/10/xml-exc-c14n#/ds:SignatureMethod Algorithmhttp://www.w3.org/2000/09/xmldsig#rsa-sha1/ds:Reference URIds:Transformsds:Transform Algorithmhttp://www.w3.org/2000/09/xmldsig#enveloped-signature/ds:Transform Algorithmhttp://www.w3.org/2001/10/xml-exc-c14n# InclusiveNamespaces xmlnshttp://www.w3.org/2001/10/xml-exc-c14n# PrefixListgpnp orcl xsi//ds:Transform/ds:Transformsds:DigestMethod Algorithmhttp://www.w3.org/2000/09/xmldsig#sha1/ds:DigestValuel9tBwYqpzw5wzpzvAugvKkBi3xg/ds:DigestValue/ds:Reference/ds:SignedInfods:SignatureValuejQC6gEiuuVUIts8bvQmmfNGSA/A4zBWmIKiKqynYAdEfhAV1bN7wAsQqvGB9HOgrqeXspLFph6C6Xu8Kugt8oZLh5pOLrXCXT/4kK1cI/UX3224M9PkY13wtaG31joaIjxOAnhlyqnN11Oik865WNyonG0LuGPAhuW5eqQQ4uek/ds:SignatureValue/ds:Signature/gpnp:GPnP-Profile
Success.
[gridrac11gn1 peer]$
[gridrac11gn2 rac11gn2]$ gpnptool get
Warning: some command line parameters were defaulted. Resulting command line: /u01/app/11.2.0/bin/gpnptool.bin get -o-?xml version1.0 encodingUTF-8?gpnp:GPnP-Profile Version1.0 xmlnshttp://www.grid-pnp.org/2005/11/gpnp-profile xmlns:gpnphttp://www.grid-pnp.org/2005/11/gpnp-profile xmlns:orclhttp://www.oracle.com/gpnp/2005/11/gpnp-profile xmlns:xsihttp://www.w3.org/2001/XMLSchema-instance xsi:schemaLocationhttp://www.grid-pnp.org/2005/11/gpnp-profile gpnp-profile.xsd ProfileSequence8 ClusterUId262b2efebaf14f70bfcbc36adccfdb34 ClusterNameorcl-cls PALocationgpnp:Network-Profilegpnp:HostNetwork idgen HostName*gpnp:Network idnet2 IP192.168.56.0 Adaptereth1 Usecluster_interconnect/gpnp:Network idnet3 Adaptereth0 IP172.20.20.0 Usepublic//gpnp:HostNetwork/gpnp:Network-Profileorcl:CSS-Profile idcss DiscoveryStringasm LeaseDuration400/orcl:ASM-Profile idasm DiscoveryString SPFileOCRDG/orcl-cls/asmparameterfile/registry.253.1137254593/ds:Signature xmlns:dshttp://www.w3.org/2000/09/xmldsig#ds:SignedInfods:CanonicalizationMethod Algorithmhttp://www.w3.org/2001/10/xml-exc-c14n#/ds:SignatureMethod Algorithmhttp://www.w3.org/2000/09/xmldsig#rsa-sha1/ds:Reference URIds:Transformsds:Transform Algorithmhttp://www.w3.org/2000/09/xmldsig#enveloped-signature/ds:Transform Algorithmhttp://www.w3.org/2001/10/xml-exc-c14n# InclusiveNamespaces xmlnshttp://www.w3.org/2001/10/xml-exc-c14n# PrefixListgpnp orcl xsi//ds:Transform/ds:Transformsds:DigestMethod Algorithmhttp://www.w3.org/2000/09/xmldsig#sha1/ds:DigestValuel9tBwYqpzw5wzpzvAugvKkBi3xg/ds:DigestValue/ds:Reference/ds:SignedInfods:SignatureValuejQC6gEiuuVUIts8bvQmmfNGSA/A4zBWmIKiKqynYAdEfhAV1bN7wAsQqvGB9HOgrqeXspLFph6C6Xu8Kugt8oZLh5pOLrXCXT/4kK1cI/UX3224M9PkY13wtaG31joaIjxOAnhlyqnN11Oik865WNyonG0LuGPAhuW5eqQQ4uek/ds:SignatureValue/ds:Signature/gpnp:GPnP-Profile
Success.
[gridrac11gn2 rac11gn2]$ 后来认真观察两个节点的本地的gpnp profile目录均存在pending.xml.
[gridrac11gn1 peer]$ ll
total 16
-rw-r--r--. 1 grid oinstall 1876 Sep 3 09:32 pending.xml
-rw-r--r--. 1 grid oinstall 1946 Jul 26 08:11 profile.old
-rw-r--r--. 1 grid oinstall 1874 May 19 15:59 profile_orig.xml
-rw-r--r--. 1 grid oinstall 1876 Jul 26 08:24 profile.xml
[gridrac11gn1 peer]$[rootrac11gn2 peer]# ll
total 20
-rw-r--r--. 1 grid oinstall 1876 Sep 3 09:30 pending.xml
-rw-r--r--. 1 grid oinstall 1946 Aug 2 14:47 profile.old
-rw-r--r--. 1 grid oinstall 1874 May 19 16:08 profile_orig.xml
-rw-r--r--. 1 grid oinstall 1876 Aug 2 15:00 profile.xml
[rootrac11gn2 peer]# 猜测rac集群两个节点虽然是都能读写但是也存在主从节点之分。
[gridrac11gn2 rac11gn2]$ oclumon manage -get master replica
Master rac11gn2
Replica rac11gn1Done
[gridrac11gn2 rac11gn2]$ 经过沟通将节点2的pending.xml文件mv走然后再次尝试重启crs集群集群竟然很顺利的成功启动到正常状态。 后续测试先停止两个节点的crs集群两个节点的crs停止后节点1的gpnp profile本地文件目录中原来就存在pending.xml文件然后手工复制profile.xml一份作为节点2的pending.xml文件。然后启动节点1的crs集群能够成功启动到正常状态再启动节点2的crs集群也能成功启动到正常状态但是查询集群主节点发现是节点2并且节点1的pending.xml文件被删除节点2的gpnp profile文件目录中多了一份pending.old文件原先的pending.xml文件时间戳发生变化。
[rootrac11gn2 peer]# ll
total 20
-rw-r--r--. 1 grid oinstall 1876 Sep 3 09:30 pending.old
-rw-r--r--. 1 grid oinstall 1876 Sep 3 09:30 pending.xml
-rw-r--r--. 1 grid oinstall 1946 Aug 2 14:47 profile.old
-rw-r--r--. 1 grid oinstall 1874 May 19 16:08 profile_orig.xml
-rw-r--r--. 1 grid oinstall 1876 Aug 2 15:00 profile.xml
[rootrac11gn2 peer]# 测试中如果关闭节点2的crs集群pending.xml又会自动被清理掉但是节点1并没有生成pending.xml文件但是节点1变成了master。
[rootrac11gn2 peer]# ll
total 16
-rw-r--r--. 1 grid oinstall 1876 Sep 3 09:30 pending.old
-rw-r--r--. 1 grid oinstall 1946 Aug 2 14:47 profile.old
-rw-r--r--. 1 grid oinstall 1874 May 19 16:08 profile_orig.xml
-rw-r--r--. 1 grid oinstall 1876 Aug 2 15:00 profile.xml
[rootrac11gn2 peer]# [gridrac11gn1 peer]$ oclumon manage -get master replica
Master rac11gn1
Replica Done
[gridrac11gn1 peer]$
分析可能是故障前节点2是master节点2的gpnp profile相关的pending.xml文件在主机reboot时没有被正常自动清理后续启动集群先启动集群节点1节点1启动后成为master并生成了pending.xml文件再启动节点2的crs集群时不自动生成新的pending.xml文件导致节点2的CRS集群无法启动。但是在模拟测试时该故障没有重现。然而客户环境中清理了节点2的pending.xml文件后却很顺利的启动了crs集群。