vSphere 性能优化方法 & 故障排错方法及工具总结(二)( 四 )


?重建VMFSDatastore后恢复之前的备份
?实在不行 , 就找Vendor的RD了
4、存储故障02-多路径故障
?利用如下命令来查找关于LUN的路径信息:
oesxclistoragecorepathlist
?利用如下命令列出LUN的多路径配置信息
oesxclistoragenmpdevicelist
?检查是否需要执行Rescan重现LUN
oesxclistoragecoreadapterrescan-A<vmhba##>
?故障原因分析逻辑
o如果在/var/log/vmkernel.log文件里看到关于permanentdataloss(PDL)或allpathsdown(APD)之类的信息时 , 可以执行如下的故障排查流程

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?PDL的触发情况(vSphere5.5之后几乎不会发生)

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?计划外PDL修复

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?APD的触发情况
o当存储在一定时间内无法被ESXiHost访问时APD可能发生:
?这种情况一般都是短暂的 , 设备会很快重新可用(存储IO负载过大时vSphere可能会触发自动保护机制 , 暂时让存储离线)
o可能导致APD的情况有如下:
?存储设备从ESXiHost的移除动作并非计划内的
?VMkernel无法检测到存储设备导致
?IPStorage的前提下 , 网路连接中断导致所有iSCSI路径中断
?iSCSIHBA卡本身固件版本故障
o在vSphereWebClient里显示如下信息
?设备变成了Dead或Error状态
?所有存储路径变成Dead状态
?设备上的所有Datastore不可用
?VMs无法使用
?APD的修复方式
o当host到存储的连接出现APD时 , 想要在存储阵列或区域网路里面修复 , 则需要所有的ESXiHost重启
o在APD情况下无法执行vMotion
o针对APD故障 , ESXiHost提供了一些缺省组件:
?全局设定里 , 找到:Misc.APDHandlingEnable
?缺省为1 , 表示激活存储APD处理机制
?Timeout设定 , 找到:Misc.APDTimeout
?缺省为140 , 这个数据表示APD故障的允许时间间隔 , 以秒为单位
?检查NICTeaming异常
o对于iSCSIStorage来说 , NICTeaming的配置是很重要的:

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?检查PathSelectionPolicy异常
oPSP对于多路径来说 , 直接影响着活动链路状态和存储传输性能

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
四、针对vCenter和和ESXi的故障排查
1、vCenterSSO架构回顾

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
2、SSO工作逻辑

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
3、SSO的的MultiSite

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
4、SSO故障
故障:SSO无法自动发现信任域
?通常是在先安装SSO后加域的情况下会出出现这种情况
?安装之后尝试用命令来恢复--在SSO安装目录下 , 找到utils目录 , 执行命令:
ossocliconfigure-riat-verbose-adiscover-is-uadmin-p<password>
5、vCenter环境组件回顾
?VMwareVirtualCenterServerservice和WebserviceManagement服务会随着vCenterServer自动启动
?vCenter服务器与DB之间必须通过ODBC进行连接

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
故障一:VMwareVirtualCenterServer服务无法启动
?在服务器管理器里查看该服务是否真的没有启动
?查看WindowsEvent里面的相关错误提示信息
1)、可能的故障排查逻辑
?检查可能存在的相关问题 , 由于OS是正常的 。 因此 , 这个状态下仅仅可能由于OS内部的问题 , 在做排查时 , 应当重点关注到vCenterServer自身的一些问题

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
2)、解决ODBC数据源配置故障问题
?利用注册表检查vCenterServer使用的是哪个数据源
?对比ODBC数据源设定 , 看看是否匹配

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
3)、解决端口可能被占用的问题
?在vCenter所在系统 , 执行如下命令:
onetstat-bano|more

vSphere 性能优化方法 & 故障排错方法及工具总结(二)
文章图片
?如果端口被占用 , 则去掉冲突的服务 , 或者为vCenter配置其它端口【不推荐】
4)、解决VCMSDS服务异常问题
?VMwareVCMSDS服务没有正常运行
o打开windows的服务管理器 , 去看看这个VCMSDS服务是否正常运行