学会这5招,让Linux排障更简单

Linux排障技巧在数据中心十分受人重视 。 数据中心专家对此提供了一些Linux服务器排障相关的性能问题、优化和便利工具参考 。
学会这5招,让Linux排障更简单文章插图
1.Linux性能工具好用吗?也许你从没使用过pchar、pidstat或perf_events , 但你不是一个人 。 这些仅仅是大量Linux性能工具中的其中几个 , 可以利用这些工具来观察带宽、性能状态并进行动态追踪 。 这些工具听起来可能不起眼 , 但实施得当的话 , 可以显著提升Linux性能 。
2.如何处理针对Linux服务器的恶意软件攻击?Linux服务器同样存在恶意软件问题;只是它们的表现与其他平台不同 。 rootkit是这些问题最常见的原因 。 它们修改服务器原本的二进制文件 , 并将其替换为留有后门的版本 , 以此破坏系统安全性与私密性 。
rootkit可以攻陷服务器并让它们极度脆弱 。 使用文件检查器或高级入侵检测系统可以快速定位并判断rootkit可能造成的损害 。 同样还可以使用一些Linux命令 , 如有rpm -Va , 可帮助系统管理员校验认证安装包的认证情况 。
3.是什么导致服务器连接失败 , 我该如何解决这个问题?很难确认是否为传输层安全性(TLS)证书问题 , 这使得Linux无法连接服务器的排障存在困难 。
【学会这5招,让Linux排障更简单】首先 , 确定是否证书存在问题 。 需要熟悉.crt服务器证书文件 , 因为证书经常由未知的颁发机构颁发 , 这也是影响安全凭证和信息加密公共密钥的主体 。
认证失败十分常见 , 但理解出错原因、可能造成的影响以及如何修复十分重要 。
检查日志文件与网络流量 , 并使用正确的Linux命令来排查连接故障 。 如tcpdump命令可以检查网络流量 , 定位哪个端口正在使用连接 。 这个命令可以定位协议 , 便于发现是否存在安全或不安全的端口 , 而这些端口可能是连接问题的根源 。
4.我的SSH服务器经常断开连接 , 要怎么办?安全外壳(SSH)连接可以让管理员远程连接Linux与Unix系统 , 但同样也会出现与服务器断开连接的情况 , 这在物理上同样无法避免 。 这可不是一件好事 , 问题会随着同时登录服务器的数量增长而扩大 。
SSH会关闭空闲连接来回收资源 。 这无意中会导致系统管理员断开连接 。
当面对服务器经常断开连接的情况 , 可以在排错时调整两个资源配置: ClientAliveInterval参数和TCPKeepAlive参数 。 ClientAliveInterval参数用于设定SSH守护进程周期性检查连接是否还在使用 。
例如将其设置为400 , SSH服务器会每400秒检查一次连接是否还在使用 。 TCPKeepAlive用于确定SSH会话是否依然活跃 。 如果你希望离开服务器远程连接后 , 会话仍处于空闲状态并持续一段时间 , 延长这两个参数即可 。 Linux服务器无法正常启动 , 而之前的采用的老方法现在不适用了 。
5.服务器无法正常启动 , 采用的老方法不适用了如果习惯了上一代Linux发行版 , 如Red Hat Enterprise Linux 5 , 你会发现在最新版本中 , GRUB2和systemd改变了系统管理员排查无法正常启动系统的方式 , 而且需要恢复关键任务 。
RedHatEnterpriseLinux7 , SUSE Linux Enterprise Server 12中 , 多个启动选项都已经变了 。 例如 , runlevel选项被从两个发行版中移除 。 取而代之的是systemd服务集 , 被称作Systemd.units , 其替代了rescue和emergency模式 。
一旦你熟悉如何修改GRUB2默认设置 , 排查新版本Linux服务器故障会更容易 。 如果GRUB2引导程序中有东西阻止服务器正常启动 , 系统管理员需要修改GRUB2设置来修复配置 。 但GRUB2配置文件本身无法被修改 , 它们必须依赖于输入文件 。
原文来自: