По каким формальным параметрам оценивать состояния серверов?

Админ

20.03.12

✎

17:23

Хочу выделить параметры по которым оценивать все ли нормально серверами и рабочими станциями. Чтобы сисадмин регулярно проверял эти параметры с какой-то периодичностью и заполнял отчет. ЧТо-то типа check-листа при диагностике автомобиля.
Пока смог выделить:
Показатель Значение
Последняя дефрагментация дисков (Дата)
Антивирусная защита
Последнее обновления антивирусных баз (Дата)
Последняя полная антивирусная проверка (Дата)
Наличие вирусной активности (Да/Нет)
Резервное копирование
Последнее резервное копирование системного диска (Дата)
Последнее резервное копирование баз данных (Дата)
Свободное место на жестких дисках
Наличие свободного места на системном диске (ГБ)
Наличие свободного места на диске с СУБД/базами данных (ГБ)
Наличие свободного места на диске с резервными копиями (ГБ)

Уважаемый Джинн уже упоминал об этом. Вот пытаюсь систематизировать.

1 Волшебник

20.03.12

✎

17:30

загрузка процессора
свободная оперативная память
размер файла подкачки
пейджинг (активность файла подкачки)
сетевая активность

2 Йохохо

20.03.12

✎

17:30

смарт, vcore.., температуры, скорости вентиляторов, расписание бэкапов, расписание теста восстановления из бэкапа, глубина пыли, планы обслуживания бд, инструктаж уборщиц, объем мейлбоксов, юзерпапок

3 Волшебник

20.03.12

✎

17:31

(2) А глубину пыли как получить? Есть какой-то метод в API?

4 Господин ПЖ

20.03.12

✎

17:33

(3) щуп такой есть, вынимаешь, протираешь, втыкаешь и снова вынимаешь...

5 Джинн

20.03.12

✎

17:34

(0) Не извращайтесь. Достаточно оценить доступность сервиса, который обеспечивает этот сервер, время простоев его и время разрешения инцидентов.

Нет смысла регламентировать толщину слоя пыли на нем.

6 Волшебник

20.03.12

✎

17:34

(4) Это масло замерять. А для пыли я слышал есть лазерные датчики, которые сначала калибруются в ноль, а потом по степени "серости" замеряют глубину пыли. Вот я и спрашиваю, как до них достучаться через API

7 Midaw

20.03.12

✎

17:35

(0) а если сразу применить wiki:System_Center_Configuration_Manager

8 PLUT

20.03.12

✎

17:36

(6) в серьезных конторах "чистые" помещения. понятие глубина пыли отсутствует в принципе)

9 Doomer

20.03.12

✎

17:37

Я немного о другом, или не правильно понял вас.
Задача: 1 раз в месяц снимать эти показания и по ним принимать решения нужно ли что-то делать или нет. Например в расписании бекапов стоит - ежедневно. Сисадмин смотрит дату последнего бекапа и сравнивает с расписанием. Если все ОК значит, до следующего месяца (например) забываем. Если бекапы по какой-то причине не делались, значит принимаем меры к исправлению ситуации.

10 PLUT

20.03.12

✎

17:38

+(8) типичная спецодежда клининг-менеджера в серверной
wiki:Файл:Cleanroom_Garment2.JPG

11 Волшебник

20.03.12

✎

17:40

(8) А как контролируется чистота воздуха в этих "чистых" помещениях?

12 Джинн

20.03.12

✎

17:41

(9) Составьте график проведения технического обслуживания и регламентных процедур. В данном случае они носят больше периодический характер, не не зависят от наработки.

13 Doomer

20.03.12

✎

17:43

(8) (10) Мы не так высоко летаем. Хочу чтобы это поддерживалось в нормальном состоянии и не забивалось. А то настроили бекапы один раз и пока сервер не упадет никто не вспоминает о них.
Я почему стрепенулся. У меня клиенты например. Еще месяца 3 назад я обратил внимание, что RAID стал ошибку выдавать. Скалаз админу. Он пересоздал массив и успокоился. Вчера сервках у них стал сильно тормозить и опять развалился RAID. Админ опять пересоздал массив и наверное успокоился. Сегодня сервер завис и файлы на рейде бельше не доступны. Сегочас бегают дрючат админа. А данные уже ушли.

14 Doomer

20.03.12

✎

17:43

(12) Вот я как раз и составляю. Пытаюсь как раз описать регламентные процедуры.

15 Джинн

20.03.12

✎

17:50

(14) Тогда не нужно никаких "последних дат". Наступила дата проведения регламентных процедур - их выполнили. Согласно перечню.

16 PLUT

20.03.12

✎

17:51

(11) у клининг-менеджера есть специальный времяпролетный лазерный прибор для дискретного подсчета макрочастиц, а также спец. мембранный фильтр и микроскоп

17 Doomer

20.03.12

✎

17:52

(15) Выполнил, а результат?
Или типа "Проверит работоспособность резервного копирования" Да/нет?

18 mozzga

20.03.12

✎

17:57

Единственный пункт это про бекапы, чтобы потом не было обидно что их нет

19 Джинн

20.03.12

✎

17:59

(13) Для этого админу в KPI вписать допустимое время простоя сервиса. Не уложился - сосет лапу. Уложился - получил премию. Пусть у него голова болит об этом.

(17) Еснно. Либо выполнил, либо нет. Тут нет количественной оценки.

Но еще раз - если по такому пути пойти, то Вы снимаете с админа как инициативу, так и ответственность. Пляшите от результата. Опять же впишите "Наличие резервной копии базы данных по состоянию на 21.00 за каждый день в течение последних двух недель и на 1 число каждого месяца за последний год". Ну или что-то в этом роде.

А дальше просто - есть копия - есть премия, нет копии - нет премии. Как он организует работу - его личное горе. Для контроля можно иногда просить поднять бекап на копию базы с последующей раздачей слонов в случае необходимости. Чтобы не дремал.

20 Doomer

20.03.12

✎

18:02

(18) А то что сервер зависал за месяц 10 раз оценивать нельзя?

21 Doomer

20.03.12

✎

18:02

+Не нужно?

22 Doomer

20.03.12

✎

18:04

Если этот господин озаботился почему у него рэйд разваливается, то бекапы не понадобились. Цель то не админов дрючить, а обеспечить бесперебойную работу и предотвращать возможные проблемы а не заниматься их решением когда что-то отвалиться.

23 МихаилМ

20.03.12

✎

18:04

ИТ и кипиай

тема полностью раскпытая.
не изобретайте велосипед.

24 Doomer

20.03.12

✎

18:06

(23) Дайте ссылку. Я как раз это и ищу.

25 Йохохо

20.03.12

✎

18:09

(9) не верно в корне, не так думаете. Аларм должен быть, если хоть 1 бэкап сфейлил, + аларм проверки целостности, если все автоматом, то не напрягает. Но надо в расписание контроль аларма добавить)
+ контроль состояния бесперебойников забыл
(16) клининг менеджер это уборщица только моложе?)

26 Джинн

20.03.12

✎

18:13

(20) Я же писал выше - оцениваем время простоя и время разрешения инцидента.

Для примера пишем, что допустимое время простоя в месяц - 30 минут (ну или сколько там Вы определите), время разрешения инцидента - не более 15 (5,10,20...) мин.

А дальше все просто - ребутнулся 10 раз в месяц с временем восстановления в 3 мин, значит уложился. Не уложился - сосет лапу и думает в чем причина - организация работы, оборудование и т.п. Не уложился еще раз - анализ причин и выводы. Если вина человека - пусть идет дворником. При этом если сам не шевелился, не обосновывал необходимость модернизации, ремонта, обслуживания - тоже в дворники.

27 Doomer

20.03.12

✎

18:16

(26) Что-то мне так тоже не нравиться. У одних клиентов админ приходит в 8:30 на работу чтобы перезагрузить сервер. Если он этого не делает, то сервер зависает в течении дня. По моему, давно пора разобщаться в чем дело, а он идет по пути наименьшего сопротивления, т.к. разбираться с сервером ему бы пришлось в выходные. А так он приходит на 30 мин раньше и уходит на 30 минут раньше.

28 Джинн

20.03.12

✎

18:22

(27) Сервер работает без сбоев в течение рабочего времени? Задача выполнена, сервис обеспечен, клиент удовлетворен работой?

29 Doomer

20.03.12

✎

18:24

(28) В ваши критерии укладывается. Но в данном случае админ укладывается в регламент, но не решает проблему, хотя о ней знает. Есть большая вероятность того, что сервер станет окончательно в рабочее время. И проблему придется решать в рабочее время пока предприятие будет стоять. И кренделей админ получит только после этого. А я хочу такой проблемы избежать.

30 Скользящий

20.03.12

✎

18:28

(29) Такого админа надо гнать накуй. У меня была подобная проблема, интернет был от двух провайдеров, по земле исходящий, входящий по спутнику, и исходящий утром зависал. А приходить я рано не любил. ) Я тупо ННкроном сделал чтобы сервак утром перезагружался и им же эмулировал нажатие кнопки мыши в нужных местах для подключения через гуи опенВПН. Вуаля.

31 Kraft

20.03.12

✎

18:32

(30) )

32 МихаилМ

20.03.12

✎

18:33

это Ваша раборта -
добывать знания в конкретной области.
но не моя.

+ можно создать кучу параметров, включая толoщину пыли внутри сервера.

но готовы Вы платить за это (это 1).

ит ифра-структупа меняется стремительно это -2

кретерии надежности меняются в середнем каждые 2 года

(например степень дефрагментации к ссд неприменима на уровне файловой системы, как и скороть обмена между виртуальными серверами в рамках одной платформы).

есть спец комитет по стадатрам надкжности.

в итил тоже есть раздел надежности.

в России проповедники стандартов надежности - крупные интеграторы

в ланите есть академия ит.

обеспечение надежности - процесс бесконечный.

нужно исходить из базоавх китериев возможное время простоя (ожидания)

скорость реакции на события.

в общем это тема не этого форума.

есть же сайт и форум ит менеджеров.

там они это обсасывают вдоль и поперек.

опять же проблема кадров. и организации в ит отделе.

педантичные админы - враги всего ит отдела.

можно выбрать стандарты по-максимому и не найти под них кадры.

в общем это отдельна религия.

33 Jump

20.03.12

✎

18:35

Главное следи чтобы дефрагментацию делали не реже двух раз в день, остальное фигня!