1
© 2010 VMware Inc. All rights reserved
2
© 2010 VMware Inc. All rights reserved
万翀
27 Otc, 2011
VMware产品故障排除和调优经验分享
3
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
4
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
5
ESX主机不响应
现象
6
ESX主机不响应
工作原理:
1. vCenter第一次加入ESX时会自动部署vpxa程序到ESX
2. vpxa作为守护程序运行在ESX console
3. vpxa维护ESX(hostd)和vCenter(vpxd)之间的心跳
4. vpxa默认每10秒发送心跳到vCenter
vCenter
ESX
7
ESX主机不响应
可能原因:
vCenter Agent service(vmware-vpxa) 停止运行/挂起/崩溃/不能启动
ESX Manamgent Agent(mgmt-vmware)停止运行/挂起/崩溃/不能启动
防火墙禁用端口
DNS解析ESX/vCenter错误
ESX主机网络连通性
ESX service console 资源不足
ESX 重启,紫屏,掉电,挂起(Alt+F12)
存储APD
8
ESX主机不响应
排查方法:
1. 【程序】首先定位是hostd还是vpxa的问题 (VIC直连)
2. 【网络】检查网络包括IP层和网络端口 (Ping/telnet/Firewall)
3. 【硬件】检查主机健康状况 (console/tty)
9
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
10
分区表丢失
现象
VMFS数据存储丢失或不可访问
通过VMware vSphere Client或VMware Infrastructure Client,在主机配置的存储适配器视图上仍然可以显示并发现这个丢失的VMFS数据存储卷
ESX vmkernel日志 显示:
cpu0:1031)LVM: 2294: Could not open device , vol [45e3ef74-706b3012-b730-000423cd, 45e3ef74-706b3012-b730-000423cd17ea, 1]: No such partition on target
11
分区表丢失
可能原因:
这些错误会发生在当ESX/ESXi在使用分区表的同时,该分区表被删除。这可能是其它操作系
统对其可见的卷进行初始化导致的结果。例如:
• 安装一个新的操作系统时,会删除或覆盖这些卷上的分区表,比如Windows2008
• 在一个操作系统被安装后,也有可能去覆盖其可见卷的分区表,比如ESXi
• ESX安装程序会选择去覆盖一个已经存在的VMFS数据存储的分区表
• 自动安装程序比如kickstart, jumpstart或磁盘镜像软件比如ghost,可能会覆盖VMFS数据存储的内容
• 磁盘工具如fdisk, parted或dd,可能被手工或程序调用移除或更改LUN的分区表
• 存储阵列发生故障也可能影响卷的内容
• 如果卷被同时分配给ESX/ESXi和非ESX/ESXi的系统,上述或类似的情况可能会发生。为了避免上述情况
的发生,将卷限制给那些信任的,并且要求访问VMFS数据存储的服务器使用
12
分区表丢失
修复方法:
运行查看命令:
fdisk -l <dev>
输出结果类似如下:
Disk /dev/sde: 268.4 GB, 268440698880 bytes
255 heads, 63 sectors/track, 32636 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Device Boot Start End Blocks Id System
运行编辑命令,并按回车
fdisk -u <dev>
1. 按n并按回车来创建一个新的分区
2. 按p并按回车来选择该分区为一个主分区
3. 按1并按回车做为第一个分区
4. 按128并回车调整分区到扇区128
5. 再按回车来保留缺省数据
6. 将分区类型更改为fb(VMFS):
7. 按t并按回车.分区1被自动选择
8. 按fb并按回车
9. 按w并按回车来保存
10. 运行vmkfstools -V并按回车来发现VMFS
MBR 第一分区 第二分区
磁盘
13
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
14
PCoIP 连接中断
现象:
View Client/Zero Client/Thin Client 和虚拟桌面的连接突然丢失
断连没有规律,随机性强
15
PCoIP 连接中断
可能原因1:
ThinClient/ZeroClient 固件版本低, PCoIP通信协议版本不一致
方法:
设备提供商官网下载最新固件进行升级
16
PCoIP 连接中断
可能原因2:
虚拟桌面 Windows 出现故障
• 病毒
• IP地址变更或丢失(DHCP)
• Windows本地连接(网卡)丢失
• vCPU利用率持续很高
• 内存不足
• 系统时钟和域控不一致
• 系统服务停止,如:事件服务
• 虚拟机显存较小
• Windows注册表中wssm.exe 会话管理程序被意外清除
方法:
检查Windows事件查看器
检查Windows任务管理器
检查Windows系统配置
日志错误:
Pending portal logon timed out for user domain\account, wssm may have failed to start correctly, or the user was not able to connect and log in.
17
PCoIP 连接中断
可能原因3:
基础网络环境导致
• DHCP服务器IP地址池较小而且租赁期过短
• 物理交换机配置不当,比如设置QoS导致UDP包传递延时
• 网络不稳定或网络设备负载高,丢包率高、重传率高或延时高
方法:
• 有网络拓扑发生调整吗?有网络设备配置(硬件/软件)调整吗?
• 检查View Client 和 View Agent PCoIP日志,建议保持时间同步
• 在不同的办公网段设置检测点测试丢包率,定位故障范围
18
PCoIP 连接中断
日志分析(延时)
MGMT_PCOIP_DATA :Tx thread info: round trip time (ms) = 2, variance = 2, rto = 104
MGMT_PCOIP_DATA :Tx thread info: round trip time (ms) = 0, variance = 0, rto = 100
0
5
10
15
20
25
30
35
40
08
/08
/20
11,0
8:0
9:4
7.72
6
08
/08
/20
11,0
8:1
8:4
5.8
75
08
/08
/20
11,0
8:2
7:4
2.2
16
08
/08
/20
11,0
8:3
6:3
6.7
82
08
/08
/20
11,0
8:4
5:31
.88
9
08
/08
/20
11,0
8:5
4:3
1.55
1
08
/08
/20
11,0
9:0
3:36
.439
08
/08
/20
11,0
9:1
2:4
1.6
06
08
/08
/20
11,0
9:2
1:4
7.2
67
08
/08
/20
11,0
9:3
0:5
2.9
40
08
/08
/20
11,0
9:3
9:5
6.2
07
08
/08
/20
11,0
9:4
8:5
2.4
15
08
/08
/20
11,0
9:5
7:4
5.0
01
08
/08
/20
11,1
0:0
6:3
5.9
13
08
/08
/20
11,1
0:1
5:2
7.6
42
08
/08
/20
11,1
0:2
4:2
2.1
10
08
/08
/20
11,1
0:3
3:15
.719
08
/08
/20
11,1
0:4
2:5
8.8
55
08
/08
/20
11,1
0:5
1:52
.68
7
08
/08
/20
11,1
1:0
0:5
0.4
68
08
/08
/20
11,1
1:0
9:5
3.34
9
08
/08
/20
11,1
1:18
:47.
84
8
08
/08
/20
11,1
1:2
7:4
2.0
22
08
/08
/20
11,1
1:36
:37.
535
08
/08
/20
11,1
1:4
5:33
.30
4
08
/08
/20
11,1
1:54
:28
.74
8
08
/08
/20
11,1
2:0
3:2
4.3
43
08
/08
/20
11,1
2:1
2:1
9.7
80
08
/08
/20
11,1
2:2
1:15
.48
2
08
/08
/20
11,1
2:3
0:1
1.2
47
08
/08
/20
11,1
2:3
9:0
6.7
12
08
/08
/20
11,1
2:4
8:0
2.1
86
08
/08
/20
11,1
2:5
6:5
7.6
45
08
/08
/20
11,1
3:0
5:52
.72
8
08
/08
/20
11,1
3:14
:48
.92
0
08
/08
/20
11,1
3:2
3:4
1.0
55
08
/08
/20
11,1
3:32
:34
.72
4
08
/08
/20
11,1
3:4
1:34
.39
1
08
/08
/20
11,1
3:50
:27.
62
3
08
/08
/20
11,1
3:59
:21.
510
08
/08
/20
11,1
4:0
8:1
5.34
7
08
/08
/20
11,1
4:1
7:0
4.1
27
08
/08
/20
11,1
4:2
5:56
.80
0
08
/08
/20
11,1
4:3
9:1
7.4
24
08
/08
/20
11,1
4:4
7:55
.556
08
/08
/20
11,1
5:4
9:3
5.54
5
08
/08
/20
11,1
5:58
:27.
396
19
PCoIP 连接中断
日志分析(重传)
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :rcv nak 3 seq_id 187 disp 0 fsp 10 f_ref 30
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :SW_HOST_IPC: NAK for fsp 10 seq 30. (ref id=59) Ack ref available, recode from input
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :rcv nak 3 seq_id 188 disp 0 fsp 11 f_ref 215
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :SW_HOST_IPC: NAK for fsp 11 seq 215. (ref id=53) Ack ref available, recode from input
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :rcv nak 3 seq_id 189 disp 0 fsp 12 f_ref 69
07/25/2011, 11:59:25.812> LVL:2 RC: 0 MGMT_IMG :SW_HOST_IPC: NAK for fsp 12 seq 69. (ref id=24) Ack ref available, recode from input
07/25/2011, 11:59:25.828> LVL:2 RC: 0 MGMT_IMG :rcv nak 3 seq_id 190 disp 0 fsp 13 f_ref 69
07/25/2011, 11:59:25.828> LVL:2 RC: 0 MGMT_IMG :SW_HOST_IPC: NAK for fsp 13 seq 69. (ref id=33) Ack ref available, recode from input
07/25/2011, 11:59:25.828> LVL:2 RC: 0 MGMT_IMG :rcv nak 4 seq_id 191 disp 0 fsp 14 f_ref 194
07/25/2011, 11:59:25.828> LVL:2 RC: 0 MGMT_IMG :SW_HOST_IPC: NAK for fsp 14 seq 194. (ref id=9) Bad decode, recode from scratch
20
PCoIP 连接中断
日志分析(丢包率)
案例:
09/16/2011, 16:56:23.789> LVL:1 RC: 0 VGMAC :Stat frms: R=000000/000000/237621 T=001420/202164/097937 (A/I/O)
Loss=57.23%/0.00% (R/T)
08/22/2011, 17:12:16.558> LVL:1 RC: 0 VGMAC :Session stats: Average TX=0.0236513 average RX=0.764855 (Mbps) Loss=18.42%/0.00%(R/T)
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
08
/01/
20
11,1
3:2
6:0
3.14
00
8/0
1/2
011
,14
:29
:18
.16
80
8/0
1/2
011
,15:
32:1
8.8
91
08
/01/
20
11,1
6:3
4:4
6.3
83
08
/01/
20
11,1
7:37
:33.
84
40
8/0
1/2
011
,18
:40
:59
.539
08
/02
/20
11,0
8:2
1:4
0.9
520
8/0
2/2
011
,09
:23:
34.4
45
08
/02
/20
11,1
0:2
5:57
.34
60
8/0
2/2
011
,11:
27:
17.8
90
08
/02
/20
11,1
2:2
9:2
4.0
91
08
/03/
20
11,0
8:1
7:11
.32
40
8/0
3/2
011
,09
:18
:49
.475
08
/03/
20
11,1
0:2
1:2
2.4
88
08
/03/
20
11,1
1:2
3:2
6.0
190
8/0
3/2
011
,12
:26
:36
.356
08
/03/
20
11,1
3:2
9:2
2.1
760
8/0
3/2
011
,14
:30
:59
.08
80
8/0
3/2
011
,15:
33:0
5.8
97
08
/03/
20
11,1
6:3
5:33
.919
08
/04
/20
11,0
8:1
7:2
8.7
700
8/0
4/2
011
,09
:20
:13.
86
90
8/0
4/2
011
,10
:21:
19.4
82
08
/04
/20
11,1
1:2
4:0
7.4
720
8/0
4/2
011
,12
:28
:06
.80
80
8/0
4/2
011
,14
:21:
23.
549
08
/04
/20
11,1
5:2
3:19
.016
08
/04
/20
11,1
6:2
5:54
.22
50
8/0
4/2
011
,17:
27:
53.2
370
8/0
4/2
011
,13:
32:4
4.9
750
8/0
5/2
011
,17:
25:
28
.676
08
/05/
20
11,1
6:4
9:2
5.8
87
08
/05/
20
11,1
0:0
6:0
6.6
22
08
/05/
20
11,1
1:0
8:2
0.8
47
08
/05/
20
11,1
2:1
0:2
1.6
69
08
/05/
20
11,1
3:14
:20
.636
08
/05/
20
11,1
4:1
7:0
7.9
95
08
/05/
20
11,1
5:2
0:3
6.3
340
8/0
5/2
011
,16
:22
:40
.158
08
/06
/20
11,0
7:4
9:2
1.9
180
8/0
6/2
011
,08
:52
:22
.72
20
8/0
8/2
011
,09
:11:
17.7
150
8/0
8/2
011
,10
:13:
24
.20
00
8/0
8/2
011
,11:
16:4
0.3
08
08
/08
/20
11,1
2:2
2:0
8.4
790
8/0
8/2
011
,13:
25:
57.8
46
08
/08
/20
11,1
4:2
6:2
9.4
63
RX
TX
21
PCoIP 连接中断
日志分析 (UDP Ping 超时)
…..
09/27/2011, 13:13:29.485> LVL:1 RC: 0 VGMAC :Stat frms: R=000000/000000/503705 T=004848/192952/198427 (A/I/O) Loss=0.00%/0.00%
(R/T)
09/27/2011, 13:13:36.282> LVL:2 RC: 0 MGMT_IMG :log: cur_s 0 max_s 30 tbl 0 bwc 0.01 bwt 17.58 fps 0.03 fl_ps 0.90
09/27/2011, 13:13:36.282> LVL:2 RC: 0 MGMT_IMG :log: chg pix: 24064, chg pix not motion: 24064
09/27/2011, 13:13:36.282> LVL:2 RC: 0 MGMT_IMG :log: delta bits encoded: 100960, delta build bits encoded: 24456.
09/27/2011, 13:13:36.282> LVL:2 RC: 0 MGMT_IMG :log: enc bits/pixel - 4.20, enc bits/sec - 3363.96, enc MPix/sec - 0.00, decode rate est
(MBit/sec) - 0.00
09/27/2011, 13:13:38.516> LVL:2 RC: 0 MGMT_PCOIP_DATA :Tx thread info: round trip time (ms) = 0, variance = 0, rto = 100
09/27/2011, 13:14:02.720> LVL:1 RC:-504 MGMT_PCOIP_DATA :Unable to communicate with peer on PCoIP media channels (data manager
ping timer expired)
09/27/2011, 13:14:02.720> LVL:2 RC: 0 MGMT_PCOIP_DATA :mgmt_pcoip_data_set_media_activation: URBoIP is used. OHCI & EHCI media
channel is turned OFF
09/27/2011, 13:14:02.720> LVL:1 RC:-500 VGMAC :tera_sock_recv() failed - Interrupted system call (10004)!
09/27/2011, 13:14:02.720> LVL:2 RC: 0 VGMAC :PCoIP UDP RX thread exiting
09/27/2011, 13:14:02.720> LVL:1 RC:-500 MGMT_PCOIP_DATA :INIT: Peer has reset our PCoIP connection. Aborting session ...
…..
22
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
23
CPU评估指标
关键测量指标
主机CPU利用率 PCPU USED(%)
虚机CPU利用率 vCPU %USED
虚机CPU等待时间 vCPU %READY
24
CPU评估指标
技巧
25
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
26
内存评估指标
关键测量指标
主机内存空闲状态 high/soft/hard/low
主机气球活动 4%~2%
主机内存页交换 2%~1%
27
议题内容
常见故障现象及分析
• ESX主机不响应
• 数据存储分区表丢失
• View PCoIP 连接中断
性能关键指标
CPU评估指标
内存评估指标
存储评估指标
28
存储评估指标
关键测量指标
磁盘吞吐量 READ/s+WRITE/s=IOPS
IO延时 DAVG+KAVG=GAVG
Aborted IO指令 ABRTS/s
29
存储评估指标
DAVG 图表# esxtop -ab –d 5 –n 120 >esxtop-sample.csv
30
存储评估指标
关键测量指标
磁盘吞吐量 READ/s+WRITE/s=IOPS
IO延时 DAVG+KAVG=GAVG
Aborted IO指令 ABRTS/s
31
Q&A
© 2011 VMware Inc. All rights reserved
谢谢!
© 2011 VMware Inc. All rights reserved