Имя: Пароль:
IT
Админ
Печальный опыт с RAID 10
,
0 Повелитель
 
30.06.21
14:44
Вчера смотрю на одном из наших серверов из RAID 10 пропал диск.
Диски HDD по 1Tb.
Послал сисадмина поменять.
Решили на горячую сделать.
До этого много раз так делали и всё было хорошо.
На RAID 10 лежала основная база и системные базы MS SQL.

В 11:36 админ поменял диск, но видимо случайно задел шлейф другого диска и из RAID 10 ушло сразу 2 диска и он поплыл.
MS SQL и базы перестали запускаться.
Диски вернули как были, даже тот что вышел из строя подхватился. Началось автоматическое перестроение RAID, которое длилось 2.5 часа.
Естественно в этом время база не работала, закрыли Торговый зал на технический перерыв.

После того как RAID восстановился, MS SQL отказался работать. Так как опыта с подобным восстановлением не было, то в итоге почитав мануалы и попробовав восстановить MS SQL, я его просто переустановил. В итогде на это ушло ещё 30 минут.
После переустановки MS SQL, база рабочая тоже отказалась работать.
Хорошо были бэкапы и логи транзакции. Последняя копия была на 11:20.
Поднял базу из бэкапов, потом по одному накатил каждый файл журнала транзакции, еще минут 30-40.
Закончили в 16:30
Итого сервер не работал 5 часов.

За 16 потерянных минут (с 11:20 до 11:36), не много документов было, все нашли и перезабили в 1с руками. Благо сбой был до обмена с центральным сервером, который по плану был бы в 11:40, а то был бы еще рассинхрон с центральной базой.

Вот так вот поменяли на горячую диски в RAID.
Выводы сделаны, в том числе и по расположению системных баз.
Для себя решили, что на горячую больше диски в RAID менять не будем. Лучше пусть 10 минут подождут.

Решил с вами поделится опытом.
1 ДенисЧ
 
30.06.21
14:46
"админ ... задел шлейф другого диска"

А виноват рейд...
2 polosov
 
30.06.21
14:47
(0) Чтобы такого не было давно стойки придумали и юниты со специальными контейнерами для винтов.
Обычный системник ведь у вас, да?
3 Повелитель
 
30.06.21
14:47
(1) Да он с себя вины не снимает. Но случайно получилось. Он даже не отвалился, просто видимо отошёл.
4 Повелитель
 
30.06.21
14:48
(2) Да обычный
5 Arbuz
 
30.06.21
14:52
(2) Корзины для съёмных контейнеров есть и для "обычных системников".
6 Chai Nic
 
30.06.21
14:53
На горячую диски менять можно, только если они в хотсвапной корзине.
7 Chai Nic
 
30.06.21
14:54
+(5) Именно, с наступлением эпохи сата это давно не экзотика
8 polosov
 
30.06.21
14:56
(5) На пару винтов?
9 fisher
 
30.06.21
14:58
(0) Спасибо, что поделился. Техника безопасности пишется потерянными данными и временем.
10 d4rkmesa
 
30.06.21
15:11
(0) Было дело, диски "уходили" из raid'а просто от того, что кто-то рядом прошел, а сервер лежал, грубо говоря, на полу на поддоне(еще не завезли стойку). Помню, настроил новый сервер и уехал в отпуск, а начальница звонит в 4 утра, и я совсем не в курсе, как выглядит перестроение raid. Ну, теперь знаете, как это выглядит на практике.
11 d_monah
 
30.06.21
15:19
(9) Ну поделился и поделился.Если для вас 5 часов критично,примите меры.Стойка,замок,упс,юнит с резервом по БП,резерв по сети,удаленный архив и тд.Да дороже будет.ну а что вы хотели?Еще неплохо отделались
12 XMMS
 
30.06.21
15:32
Я бы всё же смотрел в сторону резервирования сервера.
Чтобы было куда переткнуть ключи, накатить бэкап и запустить.
Иногда процесс восстановления может занять гораздо больше времени, чем "стоимость" потерянной с последнего бэкапа информации.
13 fisher
 
30.06.21
15:53
(11) Товарищ уже принял гораздо более дешевые меры - не злоупотреблять горячей заменой, если не уверен в ее полной безопасности. И это хороший совет и хороший пример, что может пойти не так во время горячей замены.
14 d_monah
 
30.06.21
16:48
(13) Что то пойти не так может пойти в 100500 случаях которые я знаю и еще столько, о чем я и подумать не мог.Я например никогда не в чем не уверен,только с определенной вероятностью.На месте ТС я бы и с железом,стоиками и прочим поработал+не злоупотреблял бы.Вот тогда норм.
15 d_monah
 
30.06.21
16:49
(14) Ну по крайней мере он получил опыт))),больше не полезет,это бесценно)).Сам косячил в молодости))
16 ptiz
 
30.06.21
16:57
Тоже сталкивались. Наш отважный админ решил поменять диск на горячую. Базе капут. 4 часа активной работы - ёк. Аукалось нам это еще год. Админ больше у нас не работает.
Горячая замена - только после бэкапа и выгона всех.
17 Seriy_Volk
 
30.06.21
17:04
(0) мы все учились понемногу... В нынешних реалиях неаккуратный админ, зацепивший шлейф не самое большое зло. Личный опыт :
новый (полгода в работе) сервер, на нем RAID 10 из 10 SSD дисков. На диски гарантия пять лет + 4 диска в хотспаре, т.е. соломку вроде подстелили.
Итог - сдыхает один диск, массив начинает перестраиваться и в процессе ребилда сдыхает второй диск ИЗ ЭТОЙ же пары.
Ответ вендора - проблемная прошивка, меняем по гарантии. В конечном итоге поменяли по гарантии все дисски из этой партии, сдохли в течение года.
18 Злопчинский
 
30.06.21
23:43
(3) я так случайно тестовую мусорную базу потер. а там бухи пару месяцев какой-то учет восстанавливали...
19 d_monah
 
01.07.21
00:03
(18) Тер боевую,истинно веруя что это тест.Заодно научился бэкапы делать регулярно и перед каждыми изменениями
20 acanta
 
01.07.21
00:11
Перемещала рабочую базу в соседний каталог, в процессе работы неловким движением. Никто не заметил. А затем обратно (когда нашла куда делась с винта боевая база).
21 Злопчинский
 
01.07.21
00:30
во времена ЕС1840 набрал
xdel, рука пошла на ввод, увидел/сообразил что стою не в том каталоге но уже поздно.. потерся каталог со всеми подкаталогами. 4Мб из 20МБ диска ушли в никуда. Все что нажито непосильным трудом, научные программы, перетазенное с БЭСМ5 с FOREX и переколдирвоание в watcom-ий фортран кучу прог и прочая и прочая...  Но тогда было легче. было понятно что какая программа делает, где что сидит. Короче - восстановил все.
22 Почему 1С
 
01.07.21
07:37
Не знаю что сделал наш админ, но у нас при выходе из строя одного диска из RAID1, после замены диска оказалась свободное место на весь объем диска. Я так понял он каким то образом умудрился новый диск сделать целевым.
23 Chai Nic
 
01.07.21
08:00
(22) Когда-то в начале двухтысячных я так уронил сервер. Вместо "rebuild" на новом диске в raid5 выбрал "take online". Хорошо бэкапы были)
24 Kongo2019
 
01.07.21
08:03
(0)Случайно задел шлейф другого диска -  тут не понял, в корзине нет шлейфов же? Там жесткая плата с разъемами.
25 lodger
 
01.07.21
08:21
(24) RAID10 - это отсылка к режиму работы контроллера. и ничего не было сразу сказано о конструкции.
по факту - системный блок с паутиной проводов, как в любом домашнем компе ленивого айтишника.
26 d_monah
 
01.07.21
09:19
(25) Читая "на горячую" можно предположить что там корзины,ХотСвап))),но можно и по другому)).Вы видели неленивого айтишника?Вам повезло,они в Красной книге.Если здоровались за руку,руки не мыть!!!Детям и внукам будете рассказывать
27 ДенисЧ
 
01.07.21
09:26
(26) У неленивого руки в пыли. Поэтому руки мыть обязательно
28 d_monah
 
01.07.21
09:30
(27) Да и черт с этой пылью,больше грязи-шире морда.Зато это НАСТОЯЩИЙ НЕЛЕНИВЫЙ АЙТИШНИК!
Я не хочу быть самым богатым человеком на кладбище. Засыпать с чувством, что за день я сделал какую-нибудь потрясающую вещь — вот что меня интересует. Стив Джобс