Андрей Чередарчук "hp-ux - платформа для сервера баз...
TRANSCRIPT
© 2009 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice
HP-UX – платформа для сервера баз данных
Андрей Чередарчук
Учебный центр МУК
HP-UX – платформа для базы данных• Аппаратная платформа Integrity• Программная платформа HP-UX• Методы сбора информации, анализ полученных
данных и оптимизации системы• HP-UX и Oracle: создание коопоративной базы
данных• HP Enterprise DB: новое лицо СУБД PostgreSQL
Аппаратная платформаIntegrity
CPU
Memory
Disks
Горячая замена:CPU
MemoryDisk
I/O Interface
Масштабируемость
I/O Interfaces Поддержка
Требования Требования к аппаратной платформе
Управление
Сервер начального уровня
Платформа rx2820 i4:
1-2 CPU Itanium 9500 (Poulson, 8 core)
up to 384 GB DDR3
10 Gb/s Converged Network Adapters
Fibre Channel, InfiniBand HBA
Blade-системы
Платформы BL860c i4, BL870c i4, BL890c i4:
2, 4, 8 CPU Itanium 9500 (Poulson, 8 core)
384, 768, 1536 GB DDR3
10 Gb/s Converged Network Adapters
Fibre Channel HBA
InfiniBand HBA
HP Integrity Superdome 2
Платформа Superdome 2:-от 8 до 32 процессорных слотов для Itanium Poulson (4/8 core)-до 4 TB DDR3-48-96 внешних слотов PCIe 8x-32-64 встроенных интерфейса 10GbE- поддержка протоколов динамического управления ресурсами, аппаратной и программной виртуализации
Программная платформаHP-UX i3
Операционная система HP-UX 11i v3
Base OE
Data Center OE
High Availability OEVirtual Server OE
• Операционная система HP-UX : простота, надежность, стабильность, иногда чрезмерная совместимость – CDE, Motif, tcsh• Доступна для установки в четырех комплектациях –Operating Environment• Система установки и управления пакетами позволяет модифициовать ОЕ
Операционная система HP-UX 11i v3
CoreOS DVD Ignite-UX Server Ignite-UX Server
Установка с локального DVD
Установка с сервера методом “Pull”
Установка с сервера методом “Push”
Поддерживается несколько вариантов установки
Гибкий процесс загрузки ОС
GPT Partition Table
diska_p3(Service Partition)
diska_p2(OS Partition)
diska_p1(System Partition)
GPT Partition Table
Master Boot Record
Таблица GPT указывает на разделы EFI
Загрузчик ядра и утилиты управления загрзчиком
Утилиты для диагностики памяти, процессора. дискаРезервная копия таблицы GPT
Таблица DOS разделов (не используется)
LVM/VxVM структура дисков операционной ситсемы
Возможность восстановить загрузчик или проверить оборудование
Гибкий процесс загрузки ОС
EFI Boot Manager ver 1.10 [14.60] Firmware ver 1.61 [4241]Please select a boot option
HP-UX Primary Boot HP-UX HA Alternate Boot HP-UX Alternate Boot EFI Shell [Built-in] Boot Option Maintenance Menu Use ^ and v to change option(s). Use Enter to select an option Default boot selection will be booted in 10 seconds
POST/PAL/SAL EFI Boot Manager
Выбор основного либо одного из двух резервных загрузочных дисков
Dynamic Root Disk
DRD позволяет создавать резервную копию или же новый вариант системы• Оригинальная дисковая группа остается активной• Клонированная дисковая группа доступа для выбора при загрузке• Доступны инструменты для управления пакетами, патчами и изменениемконфигурации ядра резервной системы
lvol1lvol2lvol3
original vg00 (active)
boot diskboot mirror
lvol1lvol2lvol3
lvol1lvol2lvol3
cloned vg00 (inactive)
clone disk
clone mirror
lvol1lvol2lvol3
System Management Homepage• The SMH “Home” tab summarizes the status of the system’s subsystems• Click any subsystem for more detailed information• Contents of the “Home” tab vary from model to model• Click the “Legend” link to view an icon legend
System Management Homepage
• Стандартный интерфейс для сбора информации и конфигурации• Возможность интеграции с SIM (System Insight Manager)• Возможность единого входа SSO (Single Sign-On)
System Management Homepage• Управление дисковыми разделами и файловыми системами• Управление пользователями и группами• Установка и конфигурация агентов, аудит системы•Управление пакетами и патчами•Создание и конфигурация кластера
Аппаратная и программная виртуализация
ServiceGuard – High Availability cluster
root
mirror System A
SCSI 0
lan0 lan0
SCSI 1 SCSI 2 SCSI 1
System B
c1t5d0
SystemB
c1t6d0
SystemB
root
mirror
c2t3d0
SystemB
c2t4d0
SystemB
c1t5d0
SystemA
c1t6d0
SystemA
c0t3d0
SystemA
c0t4d0
SystemA
PowerCircuit A
PowerCircuit B
PowerCircuit C
Volume Group 02
Volume Group 01
Primary
Primary
Mirror
Mirror
Управление ресурсами
• Workload Manager (WLM) консолидация и перераспределение ресурсов междуаппаратными и программными разделами (nPar & vPar)
• Process Resource Manager (PRM) распределение мощности процессора, оперативной памяти, емкости интерфейсов ввода-вывода на уровне раздела
• Global Workload Manager (gWLM)консолидация и перераспределение ресурсов междуфизическими серверами
• PayPerUseоплата дополнительных ресурсов только для указанноговремени
Workload Manager (WLM)
Resouces
Workload
Monitor
Objectives
Resouces
Workload
Monitor
Objectives
Resouces
Workload
Monitor
Objectives Arbitrate
Allocate Manage
Workload Manager (WLM)Secure Resource Partition
Workload Manager (WLM)ServiceGuard
HP-UX Roadmap: x86 & Integrity
Оптимизация системы
Ячейка (cell) – основа Superdome
Задержки при обращении к данным
Register set 0
Register set 1
Execution H
W
L1 cacheL1
TLB
L2 cacheL2
TLB
L3 cache
Register set 0
Register set 1
Execution H
W
L1 cacheL1
TLB
L2 cacheL2
TLB
L3 cache
Montecito
Montecito
Montecito
Montecito
SX2000Cell controller
Memory
CrossBar
CrossBar
CrossBar
System BusAdapter
1 Cycle
5 Cycles
12 Cycles
~180ns288 cycles
One crossbar add ~200nsTwo crossbars add ~ 275ns
FSB Bandwidth 8.5GB/s each
Bandwidth 17.2GB/s
Bandwidth 11.5GB/seach
Управление политикой создания процессов и потоков
• RR Round Robin• RR_TREE• LL Least
Loaded• FILL• FILL_TREE• PACKED• NONE
Memory
SUPC
IO contoller
SUPC
Memory
SUPC
IO contoller
SUPC
Memory
SUPC
SUPC
IO contoller
Memory
SUPC
SUPC
IO contoller
1 2
3 4
56
Cell Local Memory
(CLM)• Blocks in the physical
memory map come from the different cells
• Memory accesses from within the local cell will all be faster
• Accesses from remote cells will all be slower
• Important to localize workloads on CPU with their data
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
Доступ к оперативной памяти:Cell Local Memory
Доступ к оперативной памяти:Interleaved memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
CPU Core
Memory
Interleaved memory
(ILM)• Память распределяется
между ячейками на этапе загрузки системы
• Каждая ячейка получает равный объем памяти в каждой ячейке
• Пример: для раздела, состоящего из 4 ячеек, 25% памяти будут обеспечивать быстрый доступ и 75% - медленный
Управление сетевыми интерфейсами
• Ограничение процессорного времени для обработки прерываний
root@vm4[root] kctune intr_strobe_ics_pctTunable Value Expression Changesintr_strobe_ics_pct 80 Default Immed
4x 1Gb LANs
1x 4Gb trunk
• Использование агрегированных каналов (LACP, PAgP)
• Балансировка по MAC, IP, port
• Работа в режиме Active\Standby
Дисковая система
• Увеличение буфера команд для scsi устройств – локальные или сетевые разделы (LUN)
# scsictl -m queue_depth=32 /dev/rdsk/c10t4d0
• Включение режима быстрого доступа к разделу – драйвер не ожидает завершения операции
# scsictl -m immediate_report=1 /dev/rdsk/c10t4d0
• Управление режимом балансировки нагрузки
# scsimgr set_attr -N /escsi/esdisk -a load_bal_policy=round_robin| least_cmd_load | cl_round_robin| closest_path| preferred_path
Менеджер разделов: LVM & VxVM
disk group
subdisk
subdisk
disk
volume
disk
subdisk
disk
subdisk
subdisk
subdisk
plex plex
• Поддерживает RAID 0,1,1+0, 0+1, 5 (только VxVM)• Использование дисков горячей замены (spare)• Позволяет использовать разделы в кластере в режиме эксклюзивного или общего доступа• Поддерживается конвертация LVM VxVM
Менеджер разделов: LVM & VxVM
datavol
datavol
datavolb
datavol
datavolb
Split
Mount
Remerge
• Возможность разделения зеркала для создания резервной копии
•VxVM допускает изменение структуры дисковой группы, перенос отдельных дисков в другую группу, создание новой группы на базе существующей
• Создается журнал для быстрой проверки на этапе загрузки ОС
Менеджер разделов: VxVM
• Для увеличения скорости доступа и увеличения надежности определяется политика выбора физических разделов при формировании RAID структуры с возможностью балансировки по разным системам хранения
Установка режима отображения устройств по системам хранения данных
# vxddladm set namingscheme=ebn# vxdisk list DEVICE TYPE DISK GROUP STATUS EVA30000_0 auto:cdsdisk datadg01 datadg online EVA30000_1 auto:cdsdisk datadg02 datadg online
Создание раздела с распределением по разных системах хранения данных
# vxassist –g datadg –o ordered make datavol 16m \ layout=stripe stripe=enclr nstripe=2 \ enclr:EVA30000 enclr:EVA30001
Файловая система VxFS32768 blocksallocation unit
32768 blocksallocation unit
32768 blocksallocation unit
32768 blocksallocation unit
32768 blocksallocation unit
32768 blocksallocation unit
partialallocation unit
Superblock fileset hdr inode AU CUT inodes EAU OLT Dev OLT AUS
Intent log free maps fileset hdr OLT Dev Superblock
inodes
inode AU
inodes
Файловая система VxFS
Cacheopen(file,O_SYNC...
write(file,data...
User data
Intent Log
VxFS filesystem
data
metadata
...
1
3
nodatainlog
data
2
Cacheopen(file,O_SYNC...
write(file,data...
User data
Intent Log
VxFS filesystem
data
data,metadata
...
1
2
datainlog
datasyncerwritesthislater
write waits for two disk IOsdata is only written to disk once
write only waits for one disk IOdata is written to disk twice
Файловая система VxFS и Oracle
Cacheopen(file,O_SYNC...
write(file,data...
User data
Intent Log
VxFS filesystem
data
metadata
...
1
syncerwritesthislater
write only waits for one disk IOdata is only written to disk once
unused
• Возможность отключать кеш файловой системы для приложений. Использующих свой собственный кеш
• Возможна потеря данных в случае аппаратного сбоя платформы
Сбор и анализ информации
h4262s d.01 – © 2009 Hewlett-Packard Development Company, L.P.40
Glance
Track resources
Identify bottlenecks
Troubleshoot processes
Help! What’s wrong?
h4262s d.01 – © 2009 Hewlett-Packard Development Company, L.P.41
Glanceterminal based performance monitoring tool
Total CPUusage
Busiestdisksusage
Memoryand
swap space
summary
Glance was originally designed to work with HP style terminals with programmable softkey labels
The major reason for not running
h4262s d.01 – © 2009 Hewlett-Packard Development Company, L.P.42
Individual process reportsfrom the process details screen
h4262s d.01 – © 2009 Hewlett-Packard Development Company, L.P.43
Adviser syntaxtelling glance what to report
• There are example adviser files in /opt/perf/examples/adviser
• List all processes waiting more that 10% on the run queue
process loop { // loop through each process if PROC_PRI_WAIT_PCT > 10 then { print gbl_stattime," ", proc_proc_name|12, PROC_PROC_ID|6," ",
PROC_TOTAL_WAIT_TIME, PROC_PRI_WAIT_PCT }}
• Adviser only moderoot@vm4[ken] glance -syntax proc_wait4 -adviser_only \
-iterations 2
HP Performance Agent and Manager
Help! Why is it alwaysslow on Thursdays?
DSIDSIscope
full OSinstrumentation
ARM
DSI
PA collects data from many sources
PM analyzes PA data
About the HP Performance Agent
Other datasources
OperatingSystem
Data collection process
Log files
Extract / export
Alarms!
HP PM web-based reports
mysystem
HP-UX + Oracle = mission critical, rock stable etc…
Oracle Real Application Cluster
Pipelined orinteroperatorparallelism
Intraoperator parallelism
Source dataSourcedata
Sourcedata
Sourcedata
Sourcedata
Merge
Scan
Action
Sort
Scan/sort
Scan/sort
Scan/sort
Scan/sort
Oracle Real Application Cluster
Node 1
Shareddisks
Node 2
Node 3
Node 4
Query coordinator
Parallel query execution
ServiceGuard Extension for RAC (SGeRAC)
Group Membership Service
Package Manager
Cluster Manager
Network Manager
HP-UX Kernel
Oracle
OperatingSystem
SGeRACComponents
Serviceguard
CFS
Clusterware
Raw
share
dd
isks
NFS
mou
nte
d
volu
mes
Sh
are
d
LVM
StorageManagement
Suite
RAC Instances RAC Instances
ServiceGuard Extension for RAC (SGeRAC)
Votingdisks
Clusterwareconfiguration
Databasedata
SharedLVM
CFSNFS
Sharedraw disks
Per-nodelocalstorage
Clusterwarebinaries
Oracle homesAnd inventory
Oracle RACbinaries
HP Enterprise DB: новое лицо PostgreSQL
HP Enterprise DB: можно и без Oracle
HP Enterprise DB: Do This!
HP Enterprise DB: Возможности
HP Enterprise DB: Совместимость
• Simple and complex data structures
• Oracle SQL syntax and semantics
• Functions and Packages
• PL/SQL (extensive support)
• Popular Oracle database utilities and interfaces
• Bi-directional database replication services
HP Enterprise DB: Master/Stanby
HP Enterprise DB: Fedarated
Вопросы?