-
Стартира се (физически) FS01 (Fujitsu файлов сървър)
-
Стартират се (физически) SN01, SN02 (сервизните възли)
-
Стартиране на останалите машини:
-
Преподготовка
След успешното стартиране на горните ще има достъп до FE01.
ssh sysadm@hpc-lab.sofiatech.bg systemctl restart opt.mount ssh sn01 -p 666 systemctl restart opt.mount
-
Стартиране на файлов сървър 2 - FS02(Supermicro)
След горните команди трябва да се намираме на сервизен възел 1 и да имаме възможност да стартираме останалите машини.
ipmitool -H da02.irmc -U admin -P admin power on ipmitool -H fs02.irmc -U admin -P admin power on
-
Стартиране на изчислителни възли:
/home/sysadm/admin/power.sh 1-24 on
-
-
Поправка на счупени сървиси:
Целият контрол става през sn01
-
Рестартиране на munge/slurm
ansible -m shell -a 'systemctl restart munge' cn0* ansible -m shell -a 'systemctl restart slurm' cn0*
-
Рестартиране на главния възел sn02
Понякога slurm контролера не успява да тръгне както трябва.
За целта:
ssh sn02 sudo reboot now
!!!Внимание След успешното стартиране на sn02 да се повтори 4.1
-
-
Проблеми с маунтване на потребителски директории във fs02:
Понякога zfs sharefs се сетва на off когато се спира тотално fs02.
-
Поправка на Network shares
За да поправите потребителски директории от него, които не се маунтват от него:
ssh fs02 zfs get sharenfs
Резултата от горната команда трябва да изглежда по следния начин:
sysadm@fs02:~$ sudo zfs get sharenfs NAME PROPERTY VALUE SOURCE zlocal sharenfs off default znfs sharenfs off default znfs/export sharenfs on local znfs/export/home sharenfs on local znfs/export/home/inf sharenfs on inherited from znfs/export/home znfs/export/home/smgrobotics sharenfs on inherited from znfs/export/home znfs/export/work sharenfs rw=@10.2.0.0/15 local znfs/export/work/inf sharenfs rw=@10.2.0.0/15 inherited from znfs/export/work znfs/export/work/mc sharenfs rw=@10.2.0.0/15 inherited from znfs/export/work znfs/export/work/smgrobotics sharenfs rw=@10.2.0.0/15 inherited from znfs/export/work
Ако не е като горното, напр.
znfs/export
еoff
, използвайкиzfs set sharenfs=on znfs/export
или аналогично, доведете състоянието до горното. -
Рестартиране на autofs:
ssh fe001 sudo systemctl restart autofs.service
ssh sn01 -p 666 ansible -m shell -a 'systemctl restart autofs.service' cn0*
Горните две би следвало да решат проблема.
Възможно е да се наложи рестартиране и на други конкретни сървиси! Горното е ориентировъчно за най-основните проблеми.
-
-
Мониторингови сървиси (prometheus, grafana, etc)
ssh sn02 cd /home/sysadm/git/nestum/docker-apps/monitoring sudo docker-compose up -d
-
Mailman
ssh sn02 cd /home/sysadm/git/nestum/docker-apps/mailman sudo docker-compose up -d
-
Изключване на изчислителните възли:
Най-безопасно и лесно е изключването на изчислителни възли
ssh sysadm@hpc-lab.sofiatech.bg systemctl restart opt.mount ssh sn01 -p 666 /home/sysadm/admin/power.sh 1-24 off
За по-кратки прекъсвания (< 2 часа) това е напълно достатъчно. Зарядът на 100% зареден UPS ще е напълно достатъчен, за да се "преживее" спирането. При включването им може да се наложи рестартиране на sn02 и на munge/slurm - вж 4.1, 4.2.
-
Изключване на файловите сървъри:
- FS02(Supermicro)
ssh sn01 -p 666 ipmitool -H fs02.irmc -U admin -P admin chassis power soft ipmitool -H da02.irmc -U admin -P admin chassis power soft
- FS01(Fujitsu)
ssh sn01 -p 666 ipmitool -H fs01.irmc -U admin -P admin chassis power soft
-
Изключване на сервизните възли:
ssh sn01 -p 666 ipmitool -H sn02.irmc -U admin -P admin chassis power off sudo shutdown now
В края на стъпка 3, целият Нестум е изключен.