fbpx
19.8 C
София

Най-странният бъг: SSD умират точно след 40 000 часа

Най-четени

Даниел Десподов
Даниел Десподовhttps://www.kaldata.com/
Ежедневен автор на новини. Увличам се от съвременни технологии, оръжие, информационна безопасност, спорт, наука и концепцията Internet of Things.

В хардуерните форуми все по-често започна да се обсъжда темата за 40-те хиляди часа на флаш дисковете. Става дума за бъг във фърмуера на някои SSD производители, заради който техните флаш дискове излизат от строя точно след 40 000 часа или 4 години, 206 дни и 16 часа.

Това съвсем не е някаква форумна легенда или конспиративна теория. Това е чиста истина за редица SSD, произведени от SanDisk, които масово се използват в компютърната индустрия, включително в сървърите, NAS хранилищата и още много други мрежови продукти на голям брой компании.

От гледна точка на системния администратор, излизането от строя на един флаш диск след над 4 години не е чак толкова критично, ако имате резервни копия на масив от SSD или просто отделни SSD. Впрочем, чакайте малко…

Този проблем много нашумя през 2019 година, но всичко се забрави и почти никой не обърна сериозно внимание на тази информация.

Бъговете във фърмуерите

През 2020 година компанията Hewlett-Packard най-настоятелно препоръча да бъдат обновени фърмуерите на свои четири фирмени SSD:

  • HPE 800GB 12G SAS WI-1 SFF SC SSD (заводски номер 846622-001)
  • HPE 800GB 12G SAS MU-1 SFF SC SSD (846624-001)
  • HPE 1.6TB 12G SAS WI-1 SFF SC SSD (846623-001)
  • HPE 1.6TB 12G SAS MU-1 SFF SC SSD (846625-001)

Точно тези флаш дискове се използват в редица мрежови продукти на HPE, включително HPE ProLiant, Synergy, Apollo 4200, Synergy Storage Modules, D3000 Storage Enclosure, StoreEasy 1000 Storage!

За съжаление фърмуерът е със затворен код, който не се публикува в публичното пространство, както впрочем и пачовете за него. В описанието на пача на Dell се казва, че той оправя „грешката при проверката на максималния индекс на цикличния буфер“ и по всичко личи, че значението на този буфер се намалява с единица при всяка проверка. Съвсем същото е написано и в пача за фърмуера Lightning Gen II SAS:

Интересно е, че една година преди това Hewlett-Packard съобщи за подобен бъг, заради който SSD умират след точно 32 768 часа.

32 768-те часа

През месец ноември 2019 година стана дума за двадесет модела SSD, които се използват в сървърите и хранилищата на HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 и StoreVirtual 3200.

Ето как изглежда списъкът с флаш дисковете при които настъпва тази така наречена „внезапна смърт“:

  • HP 480GB 12Gb SAS 2.5 RI PLP SC SSD (сериен номер 817047-001)
  • HP 960GB 12Gb SAS 2.5 RI PLP SC SSD (817049-001)
  • HP 1.92TB 12Gb SAS 2.5 RI PLP SC SSD (817051-001)
  • HP 3.84TB 12Gb SAS 2.5 RI PLP SC SSD (817053-001)
  • HP 400GB 12Gb SAS 2.5 MU PLP SC SSD S2 (822784-001)
  • HP 800GB 12Gb SAS 2.5 MU PLP SC SSD S2 (822786-001)
  • HP 1.6TB 12Gb SAS 2.5 MU PLP SC SSD S2 (822788-001)
  • HP 3.2TB 12Gb SAS 2.5 MU PLP SC SSD S2 (822790-001)
  • HPE 480GB SAS SFF RI SC DS SSD (875681-001)
  • HPE 960GB SAS SFF RI SC DS SSD (875682-001)
  • HPE1.92TB SAS RI SFF SC DS SSD (875684-001)
  • HPE 3.84TB SAS RI SFF SC DS SSD (875686-001)
  • HPE 7.68TB SAS 12G RI SFF SC DS SSD (870460-001)
  • HPE 15.3TB SAS 12G RI SFF SC DS SSD (870462-001)
  • HPE 960GB SAS RI SFF SC DS SSD (P08608-001)
  • HPE 1.92TB SAS RI SFF SC DS SSD (P08609-001)
  • HPE 3.84TB SAS RI SFF SC DS SSD (P08610-001)
  • HPE 3.84TB SAS RI LFF SCC DS SPL SSD (P11360-001)
  • HPE 7.68TB SAS RI SFF SC DS SSD (P08611-001)
  • HPE 15.3TB SAS RI SFF SC DS SSD (P08612-001)

В своето официално ръководство компанията Hewlett-Packard препоръчва на притежателите на някои от тези потенциално опасни флаш дискове да проверят параметъра Power-on Hours с помощта на програмата за мониторинг Smart Storage Administrator.

При необходимост пачът се инсталира с помощта на специален софтуерен инструмент за работа с HDD/SSD фърмуерите, който може да работи в средата на VMware ESXi, Windows и Linux.

„След излизането на подобен SSD от строя, не е възможно възстановяването нито на флаш диска, нито на данните записани в него. Освен това SSD, използването на които е започнало по едно и също време, най-вероятно ще спрат да работят почти едновременно“ се казва в съобщението на HP.

Като причина за тези сривове HP посочи някакъв външен доставчик, който се е занимавал с разработването на тези SSD за компанията Не бе съобщено кой точно е този доставчик и производител, но технологичните медии веднага разбраха, че тези флаш дискове са на SanDisk, отдела на Western Digital.

От своя страна SanDisk е един от най-големите производители на SSD в целия свят, като почти всички негови флаш дискове се произвеждат по поръчка на големи компании, като тези SSD не се продават с търговска марка SanDisk, а под брандовете HPE, Cisco и още много други.

А през месец февруари за същия бъг предупреди компанията Dell:

Както много добре се вижда, засегнати са най-различни модели SSD с капацитет от 200 GB до 1,6 TB. Това означава, че въпросната „внезапна смърт“ може да засегне устройствата на най-различни производители, както и флаш дисковете на най-различни брандове. Някои от тях така и нищо не потвърдиха публично, че са използвали тези SSD. Те се надяват, че ще им се размине или за случилото се ще съобщят, че това се дължи на „естествени причини“.

Сривът на портала Hacker News

По този начин в целия свят продължават да работят десетки SSD, фърмуерите на които не са обновени и с всяка изминала минута се приближават до фаталния час. Новините относно бъговете от 2019 и 2020 години така си и останаха почти незабелязани. Повечето хора си мислят, че това са някакви си корпоративни продукти… Никой не си е и помислял, че този проблем може лично да го засегне. Но ето че настъпи „часът Х“.

На 8-ми юли тази година – тоест само преди около един месец, се срина популярният уеб сайт Hacker News. Разработчиците от целия свят по цял ден търсеха портала, който в западното IT общество е едва ли не основният сайт за технологични новини и за общуване на  тема компютри и техника (нещо Kaldata в  България, но в по-голям мащаб).

Когато се срина основният сървър на HN, цялото натоварване бе прехвърлено към специално предвидения за подобни случаи резервен сървър, който също се срина.

Разбира се, всички започнаха да се питат, кака така при един от основните IT сайтове в целия свят, който разполага с може би най-добрите специалисти, е възможно едновременно да се сринат основния и резервния сървър. Тези хора не правят ли архиви? По-късно стана ясно, че основните и резервните сървърни мощности използват флаш дисковете SanDisk Optimus Lightning II, които са работили приблизително еднакво време. Явно системните администратори на Hacker News не са могли дори да си представят, че е възможно всичките флаш дискове на техния компютърен парк да спрат да работят буквално в една и съща минута:

Оказа се, че и двата сървъра са оборудвани с RAID масиви, в които четирите SSD излизат от строя почти едновременно.

Всеки ден се стартират по няколко сървъра едновременно и това се счита за нещо нормално – ежедневие. Всеки един от тези сървъри има RAID масив от два и повече диска, като по този начин се увеличава скоростта на обмен на данните и едновременно с това се осигурява тяхната безопасност. Този подход гарантира на практика абсолютна защита от фатални сривове и прекъсвания в работата, като теоретичните пресмятания показват 99,999% устойчивост – да, до третия знак след десетичната запетая. Според теорията на вероятността, какъв е шансът в един RAID масив едновременно да откажат четири диска? Почти никакъв. А ето, че се оказа, че е възможно.

За щастие системните администратори на Hacker News са имали резервни копия на други сървъри, в които се използват по-други SSD. Късметлии.

Благодарение на тези архиви работата на Hacker News бе възстановена 14 часа след срива на първия сървър и 8 часа след срива на резервния сървър.

И да, това съвсем не е единственият случай, когато няколко диска излизат от строя в един и същ момент.

Черните лебеди

„Черният лебед“ е някакво съвсем рядко събитие, само че с катастрофални последици. Но на един безкрайно дълъг период от време вероятността за възникването дори на на най-рядкото събитие се стреми към 1. Тоест, долитането на „черния лебед“ може 100% да бъде гарантирано. Въпросът е кога точно ще стане това.

Всъщност въпросът е доколко адекватно оценяваме риска – тоест, доколко реалистично преценяваме вероятността едно или друго събитие наистина да се случи. Историята с четирите SSD показва, че това, което досега сме считали за четири различни събития, за които само умножаваме вероятностите, всъщност може да се окаже едно единствено събитие.


Това всъщност можем да наблюдаваме и в реалния живот, а и в работата. Ние си представяме и изграждаме десетки резервни планове просто така, за всеки случай – знае ли човек? А един ден се оказва, че всичките тези резервни стратегии са станали безсмислени заради едно единствено абсолютно неочаквано събитие. И всъщност това сякаш не са точно резервни стратегии и планове, а самозаблуда. Може би по-често трябва да си задаваме въпроса „Какво би станало ако…“ и да напуснем зоната на самозаблудата.

От тази история се натрапва навярно познат за мнозина извод. Ако не се вижда и не се забелязва каквато и да било опасност, по последствията от потенциалния срив могат да се окажат много по-лоши от всички  предварително разглеждани и предъвквани сценарии и оценки на рисковете. Може би най-опасната ситуация е когато всичко наоколо е тихо и спокойно. Това си е съвсем реален повод да застанем нащрек и внимателно да се огледаме. Навярно това важи не само за системните администратори на водещите IT компании и големи технологични сайтове.

Но да оставим настрани менталния модел на бъдещето, добре описан от Лорин Хохщайн (Lorin Hochstein, surfingcomplexity.blog/2022/05/30/imagine-theres-no-human-error) и втората стъпка в техниката на въображението на Фейнман (Richard Feynman, fs.blog/feynman-learning-technique).  Практическият урок от тази история е съвсем обикновен: никак не е добра идея в RAID масив да бъдат поставяни дискове от един и същ модел, още повече от една партида с поредни серийни номера.


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iOS и Huawei!

Абонирай се
Извести ме за
guest

21 Коментара
стари
нови
Отзиви
Всички коментари

Нови ревюта

Подобни новини