vSphere 性能优化方法 & 故障排错方法及工具总结(二)

原标题:vSphere性能优化方法&故障排错方法及工具总结(二)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
故障排查方法、工具总结
一、vSphere故障排查思想
1、故障排查思维逻辑
故障排查涉及到整体的排错方法论 , 总体而言 , 故障排查需要遵循一个工作逻辑:
确认问题状况o确认问题所在
o收集故障相关问题
确认导致故障的原因o确认什么原因导致的问题
o诊断问题的根本原因是什么
解决问题o制定可能的解决方案
o评估数据安全风险
o执行最佳解决方案
2、故障排查逻辑图示(流程及细节)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
图示说明:
配置问题、软件Bug、硬件故障是三种最为常见的故障软件bug示例o在ESXi5.5u1或u2中存在这样一个常见的软件Bug:网卡原因紫屏事件
硬件故障示例o若主机HBA卡电池出问题 , 可能会在写上面会有很差的表现
3、vSphere常规故障分层

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
4、故障解决E2E
故障状态故障原因1个或多个LUN不可见LUN不可见 , 存储可能没有恰当的MAP到主机无法通过vSphereWebClient连接vCenterVirtualCenterService没有启动VirtualMachine无法启动文件可能被锁定 , 文件可能丢失
5、案例流程-故障状态(示例)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
6、案例流程-日志搜集(收集日志信息 , 用于进行故障分析)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
7、案例流程-可能性分析
利用结构化思维来进行故障分析 , 可以有效提高排错效率;
根据问题的提示 , 按照下图所示排错流程来进行排错

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
图示说明:
自上而下进行排错自下而上进行排错从中间环节排错8、案例流程-查找问题的根源
通过反复测试 , 来确认问题的根源所在 , 例如:VM无响应的排错逻辑:

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
图示说明:
如果仅仅是单台虚拟机无响应 , 建议自上而下
若涉及很多虚拟机响应慢 , 建议从中间环节
存在告警 , 建议从下而上
9、案例流程-解决问题
完成问题根源定位之后 , 评估问题可能带来的影响o较大影响-立即解决
o一般影响-条件许可的情况下解决
o较小影响-有空解决
制定解决问题的方案o头疼医头-立刻就事论事解决问题
o头疼医脚-避免同一个问题再次发生
o长远考虑-整体考虑 , 从未来的思路触发去执行问题处理
10、vSphere常规故障排查流程-追根溯源(图示)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
图示说明:
此处以vMotion为例 , 其它故障与此类似
11、vSphere排错组件归纳

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
二、针对VirtualMachine的故障排查
1、VM故障排查思想

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
2、VM的文件架构

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
3、ContentID
所谓CID , 位于VM的磁盘描述文件里面 , 负责磁盘相关整合状态跟踪

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
图示说明:
?母盘的parentCID为"fffffff"
?若虚拟机有快照 , 则第一级快照的parentCID为母盘的CID , 第二级快照的parentCID为第一级快照的CID(若虚拟机存在多层快照 , 则依次类推)
?如果快照层级出问题 , 可能会导致快照出问题 , 很有可能导致虚拟机无法启动
4、故障01-解决CountentID不匹配的问题
?Step1:备份好磁盘描述文件
?Step2:下载这个文件 , 用文本编辑器打开 , 然后修改CID

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?Step3:修改之后 , 利用如下命令来验证CID的修改是否成功(若提示失败 , 则意味着CID的更改没有成功)
ovmkfstools-qWin01-A-000002.vmdk-v10
注意:虚拟机快照导致的虚拟机无法启动的故障 , 很多时候都是快照层级发生错乱所致 。 这类问题可以采用上述方法来解决 。