|
Печальный опыт с RAID 10 | ☑ | ||
---|---|---|---|---|
0
Повелитель
30.06.21
✎
14:44
|
Вчера смотрю на одном из наших серверов из RAID 10 пропал диск.
Диски HDD по 1Tb. Послал сисадмина поменять. Решили на горячую сделать. До этого много раз так делали и всё было хорошо. На RAID 10 лежала основная база и системные базы MS SQL. В 11:36 админ поменял диск, но видимо случайно задел шлейф другого диска и из RAID 10 ушло сразу 2 диска и он поплыл. MS SQL и базы перестали запускаться. Диски вернули как были, даже тот что вышел из строя подхватился. Началось автоматическое перестроение RAID, которое длилось 2.5 часа. Естественно в этом время база не работала, закрыли Торговый зал на технический перерыв. После того как RAID восстановился, MS SQL отказался работать. Так как опыта с подобным восстановлением не было, то в итоге почитав мануалы и попробовав восстановить MS SQL, я его просто переустановил. В итогде на это ушло ещё 30 минут. После переустановки MS SQL, база рабочая тоже отказалась работать. Хорошо были бэкапы и логи транзакции. Последняя копия была на 11:20. Поднял базу из бэкапов, потом по одному накатил каждый файл журнала транзакции, еще минут 30-40. Закончили в 16:30 Итого сервер не работал 5 часов. За 16 потерянных минут (с 11:20 до 11:36), не много документов было, все нашли и перезабили в 1с руками. Благо сбой был до обмена с центральным сервером, который по плану был бы в 11:40, а то был бы еще рассинхрон с центральной базой. Вот так вот поменяли на горячую диски в RAID. Выводы сделаны, в том числе и по расположению системных баз. Для себя решили, что на горячую больше диски в RAID менять не будем. Лучше пусть 10 минут подождут. Решил с вами поделится опытом. |
|||
1
ДенисЧ
30.06.21
✎
14:46
|
"админ ... задел шлейф другого диска"
А виноват рейд... |
|||
2
polosov
30.06.21
✎
14:47
|
(0) Чтобы такого не было давно стойки придумали и юниты со специальными контейнерами для винтов.
Обычный системник ведь у вас, да? |
|||
3
Повелитель
30.06.21
✎
14:47
|
(1) Да он с себя вины не снимает. Но случайно получилось. Он даже не отвалился, просто видимо отошёл.
|
|||
4
Повелитель
30.06.21
✎
14:48
|
(2) Да обычный
|
|||
5
Arbuz
30.06.21
✎
14:52
|
(2) Корзины для съёмных контейнеров есть и для "обычных системников".
|
|||
6
Chai Nic
30.06.21
✎
14:53
|
На горячую диски менять можно, только если они в хотсвапной корзине.
|
|||
7
Chai Nic
30.06.21
✎
14:54
|
+(5) Именно, с наступлением эпохи сата это давно не экзотика
|
|||
8
polosov
30.06.21
✎
14:56
|
(5) На пару винтов?
|
|||
9
fisher
30.06.21
✎
14:58
|
(0) Спасибо, что поделился. Техника безопасности пишется потерянными данными и временем.
|
|||
10
d4rkmesa
30.06.21
✎
15:11
|
(0) Было дело, диски "уходили" из raid'а просто от того, что кто-то рядом прошел, а сервер лежал, грубо говоря, на полу на поддоне(еще не завезли стойку). Помню, настроил новый сервер и уехал в отпуск, а начальница звонит в 4 утра, и я совсем не в курсе, как выглядит перестроение raid. Ну, теперь знаете, как это выглядит на практике.
|
|||
11
d_monah
30.06.21
✎
15:19
|
(9) Ну поделился и поделился.Если для вас 5 часов критично,примите меры.Стойка,замок,упс,юнит с резервом по БП,резерв по сети,удаленный архив и тд.Да дороже будет.ну а что вы хотели?Еще неплохо отделались
|
|||
12
XMMS
30.06.21
✎
15:32
|
Я бы всё же смотрел в сторону резервирования сервера.
Чтобы было куда переткнуть ключи, накатить бэкап и запустить. Иногда процесс восстановления может занять гораздо больше времени, чем "стоимость" потерянной с последнего бэкапа информации. |
|||
13
fisher
30.06.21
✎
15:53
|
(11) Товарищ уже принял гораздо более дешевые меры - не злоупотреблять горячей заменой, если не уверен в ее полной безопасности. И это хороший совет и хороший пример, что может пойти не так во время горячей замены.
|
|||
14
d_monah
30.06.21
✎
16:48
|
(13) Что то пойти не так может пойти в 100500 случаях которые я знаю и еще столько, о чем я и подумать не мог.Я например никогда не в чем не уверен,только с определенной вероятностью.На месте ТС я бы и с железом,стоиками и прочим поработал+не злоупотреблял бы.Вот тогда норм.
|
|||
15
d_monah
30.06.21
✎
16:49
|
(14) Ну по крайней мере он получил опыт))),больше не полезет,это бесценно)).Сам косячил в молодости))
|
|||
16
ptiz
30.06.21
✎
16:57
|
Тоже сталкивались. Наш отважный админ решил поменять диск на горячую. Базе капут. 4 часа активной работы - ёк. Аукалось нам это еще год. Админ больше у нас не работает.
Горячая замена - только после бэкапа и выгона всех. |
|||
17
Seriy_Volk
30.06.21
✎
17:04
|
(0) мы все учились понемногу... В нынешних реалиях неаккуратный админ, зацепивший шлейф не самое большое зло. Личный опыт :
новый (полгода в работе) сервер, на нем RAID 10 из 10 SSD дисков. На диски гарантия пять лет + 4 диска в хотспаре, т.е. соломку вроде подстелили. Итог - сдыхает один диск, массив начинает перестраиваться и в процессе ребилда сдыхает второй диск ИЗ ЭТОЙ же пары. Ответ вендора - проблемная прошивка, меняем по гарантии. В конечном итоге поменяли по гарантии все дисски из этой партии, сдохли в течение года. |
|||
18
Злопчинский
30.06.21
✎
23:43
|
(3) я так случайно тестовую мусорную базу потер. а там бухи пару месяцев какой-то учет восстанавливали...
|
|||
19
d_monah
01.07.21
✎
00:03
|
(18) Тер боевую,истинно веруя что это тест.Заодно научился бэкапы делать регулярно и перед каждыми изменениями
|
|||
20
acanta
01.07.21
✎
00:11
|
Перемещала рабочую базу в соседний каталог, в процессе работы неловким движением. Никто не заметил. А затем обратно (когда нашла куда делась с винта боевая база).
|
|||
21
Злопчинский
01.07.21
✎
00:30
|
во времена ЕС1840 набрал
xdel, рука пошла на ввод, увидел/сообразил что стою не в том каталоге но уже поздно.. потерся каталог со всеми подкаталогами. 4Мб из 20МБ диска ушли в никуда. Все что нажито непосильным трудом, научные программы, перетазенное с БЭСМ5 с FOREX и переколдирвоание в watcom-ий фортран кучу прог и прочая и прочая... Но тогда было легче. было понятно что какая программа делает, где что сидит. Короче - восстановил все. |
|||
22
Почему 1С
01.07.21
✎
07:37
|
Не знаю что сделал наш админ, но у нас при выходе из строя одного диска из RAID1, после замены диска оказалась свободное место на весь объем диска. Я так понял он каким то образом умудрился новый диск сделать целевым.
|
|||
23
Chai Nic
01.07.21
✎
08:00
|
(22) Когда-то в начале двухтысячных я так уронил сервер. Вместо "rebuild" на новом диске в raid5 выбрал "take online". Хорошо бэкапы были)
|
|||
24
Kongo2019
01.07.21
✎
08:03
|
(0)Случайно задел шлейф другого диска - тут не понял, в корзине нет шлейфов же? Там жесткая плата с разъемами.
|
|||
25
lodger
01.07.21
✎
08:21
|
(24) RAID10 - это отсылка к режиму работы контроллера. и ничего не было сразу сказано о конструкции.
по факту - системный блок с паутиной проводов, как в любом домашнем компе ленивого айтишника. |
|||
26
d_monah
01.07.21
✎
09:19
|
(25) Читая "на горячую" можно предположить что там корзины,ХотСвап))),но можно и по другому)).Вы видели неленивого айтишника?Вам повезло,они в Красной книге.Если здоровались за руку,руки не мыть!!!Детям и внукам будете рассказывать
|
|||
27
ДенисЧ
01.07.21
✎
09:26
|
(26) У неленивого руки в пыли. Поэтому руки мыть обязательно
|
|||
28
d_monah
01.07.21
✎
09:30
|
(27) Да и черт с этой пылью,больше грязи-шире морда.Зато это НАСТОЯЩИЙ НЕЛЕНИВЫЙ АЙТИШНИК!
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |