跳转至

一次胆战心惊的真实集群运维经历

周五在安装一个用于 CNV 检测的软件 CNVnator 的时候,不小心修改了 /lib64/libc.so.6 文件,结果导致了整个系统所有命令基本都不可用:

[root@log01 lib64]# ls
ls: error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory
[root@log01 lib64]# ls -l
ls: error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory
[root@log01 lib64]#

情况更加糟糕的是,我所在的系统是整个公司集群的唯一登录节点,并且在使用 root 重命名了 libc.so.6(mv /lib64/libc.so.6 /lib64/libc.so.6.bak)后又作死的退出了 root 用户的登录,以致于所有的用户再也无法使用 su 、ssh 进行 root 切换把 /lib64/libc.so.6.bak 重新改回来! 与此同时,整个集群的所有用户在退出登录后再也无法通过 ssh 重新登录,susshlnlsscpmv 等基础命令也全部失效!!!

对于还没有退出集群登录的普通用户虽然可以通过下面的命令使 ln、ls 等生效,但始终无法从根本上解决问题。

export  LD_PRELOAD=/lib64/libc-2.12.so

关于 glibc:

glibc 是 GNU 发布的 libc 库,即 c 运行库。glibc 是 linux 系统中最底层的 api,几乎其它任何运行库都会依赖于 glibc。glibc 除了封装 linux 操作系统所提供的系统服务外,它本身也提供了许多其它一些必要功能服务的实现。由于 glibc 囊括了几乎所有的 UNIX 通行的标准,可以想见其内容包罗万象。而就像其他的 UNIX 系统一样,其内含的档案群分散于系统的树状目录结构中,像一个支架一般撑起整个作业系统。在 GNU/Linux 系统中,其 C 函式库发展史点出了 GNU/Linux   演进的几个重要里程碑,用 glibc 作为系统的 C 函式库,是 GNU/Linux 演进的一个重要里程碑。

Linux 上的很多命令都是依赖 libc.so.6 的动态链接库,如果您不小心把它给删除了,基本上所有命令都不能使用了。由此可见 libc.so.6 的重要性。

网络上关于 libc.so.6 误删的解决文章有很多,总结起来不外乎 2 种:

  • 还没有退出 root 登录
[root@localhost ~]# LD_PRELOAD=/lib64/libc-2.12.so ln -s /lib64/libc-2.12.so /lib64/libc.so.6
  • 已经退出 root 登录:重装系统或者使用 Linux rescue 模式修复。

作为 HPC 整个集群的 log 节点,不到万不得已是不会轻易重装系统的,于是我们选择了使用 Linux rescue 模式修复,以下是一些记录。

1. U 盘启动盘制作

由于原来的 log 节点是 rhel-server-6.5-x86_64 的操作系统,所以我们需要制作与之相对应的启动 U 盘。

首先,要下载 rhel-server-6.5-x86_64 镜像。

  • rhel-server-6.5-x86_64-boot.iso(U 盘安装需要此镜像)

MD5: 004a37b1b0269992a3b341b8f7c3a579

SHA-256: 31116987fb9f5161cd7a7c907d9acc57f832135faf55bb328d032fa6574e3f93

文件大小:255 MB

  • rhel-server-6.5-x86_64-dvd.iso(系统安装介质)

MD5: a84d4d9eddb36fb417832166cd10a4c2

SHA-256: a51b90f3dd4585781293ea08adde60eeb9cfa94670943bd99e9c07f13a259539

文件大小:3,675 MB

其次,将启动文件写入 u 盘。以 UltraISO 软碟通为例,打开 UltraISO 软件,菜单 “文件” 打开 rhel-server-6.5-x86_64-boot.iso ,菜单 “启动” ==> “写入硬盘映像”,弹出对话框,点击 “格式化”,格式化完成点击 “写入”。

最后,将安装光盘镜像 rhel-server-6.5-x86_64-dvd.iso   拷贝到 u 盘根目录。

2. Linux rescue 模式

2.1. 说明

Linux 下用光盘进行 rescue 模式的方法,需要注意的是实体机跟虚拟机还是有很大差别的,在实体机中通过光盘启动,可能会自动进入到安装界面,所有我们需要在进入安装界面前(会提示 press any key 之类)快速按键盘上的按键(只有三秒钟需要关注。)

如果不理会就会进入以下界面:

2.2. rescue 模式步骤

① 选择 rescue 模式

② 选择语言

③ 选择键盘

④ 我们选择不启用网络,因为启用也没用。

⑤ 选择继续(continue)

⑥ 选择 OK

⑦ 选择回车键,打开 shell

⑧ 进入模式后,我们就可以进行命令行操作了,此时会把硬盘的文件系统挂载在 /mnt/sysimage 目录下,如果未挂载使用如下命令挂载:

chroot /mnt/sysimage

此时我们进入到 /mnt/sysimage,这里其实就是原系统的根目录,我们进行一些补救操作即可。

⑨ 重启后重新进入系统一切正常。 ⑩ 作为集群,需要重新执行一些必须的挂载、开启必要服务,在这里不详述。

3. 总结

  1. 对于系统的库文件,一定不要轻易去修改,特别是在使用 root 权限下。
  2. HPC 软件安装最好使用非 root 进行安装,如 conda;对于必须要使用 root 安装的软件,应进一步评估该软件使用的必要性,同时应该明确每一步的文件改动所带来的后果。
  3. 任何重要或不确定的文件改动请不要轻易执行删除,一定要先备份,以备出现故障后能尽快恢复。

最后,感谢美女领导,感谢运维的帅哥,感谢前华大运维的同事!!!