Стартиране на Нестум след тотален shutdown

Стартира се (физически) FS01 (Fujitsu файлов сървър)
Стартират се (физически) SN01, SN02 (сервизните възли)
Стартиране на останалите машини:
1. Преподготовка
  
  След успешното стартиране на горните ще има достъп до FE01.
```
ssh sysadm@hpc-lab.sofiatech.bg
systemctl restart opt.mount
ssh sn01 -p 666
systemctl restart opt.mount
```
2. Стартиране на файлов сървър 2 - FS02(Supermicro)
  
  След горните команди трябва да се намираме на сервизен възел 1 и да имаме възможност да стартираме останалите машини.
```
    ipmitool -H da02.irmc -U admin -P admin power on
    ipmitool -H fs02.irmc -U admin -P admin power on
```
3. Стартиране на изчислителни възли:
```
/home/sysadm/admin/power.sh 1-24 on
```
Поправка на счупени сървиси:

Целият контрол става през sn01
1. Рестартиране на munge/slurm
```
ansible -m shell -a 'systemctl restart munge' cn0*
ansible -m shell -a 'systemctl restart slurm' cn0*
```
2. Рестартиране на главния възел sn02
  
  Понякога slurm контролера не успява да тръгне както трябва.
  
  За целта:
```
ssh sn02 
sudo reboot now
```
  !!!Внимание След успешното стартиране на sn02 да се повтори 4.1

Проблеми с маунтване на потребителски директории във fs02:

Понякога zfs sharefs се сетва на off когато се спира тотално fs02.

Поправка на Network shares

За да поправите потребителски директории от него, които не се маунтват от него:

ssh fs02
zfs get sharenfs

Резултата от горната команда трябва да изглежда по следния начин:

sysadm@fs02:~$ sudo zfs get sharenfs
NAME                          PROPERTY  VALUE            SOURCE
zlocal                        sharenfs  off              default
znfs                          sharenfs  off              default
znfs/export                   sharenfs  on               local
znfs/export/home              sharenfs  on               local
znfs/export/home/inf          sharenfs  on               inherited from znfs/export/home
znfs/export/home/smgrobotics  sharenfs  on               inherited from znfs/export/home
znfs/export/work              sharenfs  rw=@10.2.0.0/15  local
znfs/export/work/inf          sharenfs  rw=@10.2.0.0/15  inherited from znfs/export/work
znfs/export/work/mc           sharenfs  rw=@10.2.0.0/15  inherited from znfs/export/work
znfs/export/work/smgrobotics  sharenfs  rw=@10.2.0.0/15  inherited from znfs/export/work

Ако не е като горното, напр. znfs/export е off, използвайки zfs set sharenfs=on znfs/export или аналогично, доведете състоянието до горното.

Рестартиране на autofs:
```
ssh fe001
sudo systemctl restart autofs.service
```
```
ssh sn01 -p 666
ansible -m shell -a 'systemctl restart autofs.service' cn0*
```
Горните две би следвало да решат проблема.

Възможно е да се наложи рестартиране и на други конкретни сървиси! Горното е ориентировъчно за най-основните проблеми.

Мониторингови сървиси (prometheus, grafana, etc)

ssh sn02
cd /home/sysadm/git/nestum/docker-apps/monitoring
sudo docker-compose up -d

Mailman

ssh sn02
cd /home/sysadm/git/nestum/docker-apps/mailman
sudo docker-compose up -d

Тотален/Частичен Shutdown:

Изключване на изчислителните възли:

Най-безопасно и лесно е изключването на изчислителни възли
```
ssh sysadm@hpc-lab.sofiatech.bg
systemctl restart opt.mount
ssh sn01 -p 666
/home/sysadm/admin/power.sh 1-24 off
```
За по-кратки прекъсвания (< 2 часа) това е напълно достатъчно. Зарядът на 100% зареден UPS ще е напълно достатъчен, за да се "преживее" спирането. При включването им може да се наложи рестартиране на sn02 и на munge/slurm - вж 4.1, 4.2.

Изключване на файловите сървъри:

FS02(Supermicro)

    ssh sn01 -p 666
    ipmitool -H fs02.irmc -U admin -P admin chassis power soft
    ipmitool -H da02.irmc -U admin -P admin chassis power soft

FS01(Fujitsu)

    ssh sn01 -p 666
    ipmitool -H fs01.irmc -U admin -P admin chassis power soft

Изключване на сервизните възли:

    ssh sn01 -p 666
    ipmitool -H sn02.irmc -U admin -P admin chassis power off
    sudo shutdown now

В края на стъпка 3, целият Нестум е изключен.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

startup-shutdown.md

startup-shutdown.md

Стартиране на Нестум след тотален shutdown

Тотален/Частичен Shutdown:

Files

startup-shutdown.md

Latest commit

History

startup-shutdown.md

File metadata and controls

Стартиране на Нестум след тотален shutdown

Тотален/Частичен Shutdown: