Крошечные чипы, большие головные боли

7 февраля 2022

По мере роста крупнейших компьютерных сетей некоторые инженеры опасаются, что их мельчайшие компоненты могут оказаться "ахиллесовой пятой".

Крошечные чипы, большие головные боли
Представьте на мгновение, что миллионы компьютерных чипов внутри серверов, питающих крупнейшие центры обработки данных в мире, имеют редкие, почти необнаружимые недостатки. И единственный способ найти эти недостатки - бросить эти чипы на решение гигантских вычислительных задач, которые еще десять лет назад были бы просто немыслимы.

Поскольку крошечные переключатели в компьютерных чипах уменьшились до ширины в несколько атомов, надежность чипов стала еще одним поводом для беспокойства людей, управляющих крупнейшими сетями в мире. Такие компании, как Amazon, Facebook, Twitter и многие другие сайты, за последний год столкнулись с удивительными перебоями в работе.

Перебои имели несколько причин, например, ошибки программирования или перегруженность сетей. Однако растет беспокойство по поводу того, что, хотя сети облачных вычислений стали больше и сложнее, они по-прежнему зависят на самом базовом уровне от компьютерных чипов, которые стали менее надежными и, в некоторых случаях, менее предсказуемыми.

В прошлом году исследователи из Facebook и Google опубликовали исследования, описывающие сбои компьютерного оборудования, причины которых было нелегко определить. Проблема, по их мнению, заключалась не в программном обеспечении - она была где-то в компьютерном оборудовании, производимом различными компаниями. Google отказался комментировать свое исследование, а Facebook не ответил на просьбу прокомментировать свое исследование.

"Они видят эти тихие ошибки, по сути, исходящие из базового оборудования", - сказал Субхасиш Митра, инженер-электрик Стэнфордского университета, специализирующийся на тестировании компьютерного оборудования. По словам доктора Митры, люди все чаще считают, что производственные дефекты связаны с этими так называемыми "тихими ошибками", которые нелегко обнаружить.

Исследователи беспокоятся, что они находят редкие дефекты, потому что пытаются решать все более и более сложные вычислительные задачи, что приводит к неожиданным нагрузкам на их системы.

Компании, управляющие крупными центрами обработки данных, начали сообщать о систематических проблемах более десяти лет назад. В 2015 году в инженерном издании IEEE Spectrum группа компьютерных ученых, изучающих надежность оборудования в Университете Торонто, сообщила, что каждый год до 4 процентов миллионов компьютеров Google сталкивались с ошибками, которые невозможно было обнаружить и которые приводили к их неожиданному выключению.

В микропроцессоре, состоящем из миллиардов транзисторов, или в компьютерной памяти, состоящей из триллионов крошечных переключателей, каждый из которых может хранить 1 или 0, даже самая маленькая ошибка может вывести из строя системы, которые сегодня ежесекундно выполняют миллиарды вычислений.

В начале эры полупроводников инженеры беспокоились о том, что космические лучи могут случайно перевернуть один транзистор и изменить результат вычислений. Теперь их беспокоит, что сами переключатели становятся все менее надежными. Исследователи Facebook даже утверждают, что переключатели становятся все более склонными к износу и что срок службы компьютерной памяти или процессоров может быть короче, чем считалось ранее.

Появляется все больше доказательств того, что проблема усугубляется с каждым новым поколением чипов. Отчет, опубликованный в 2020 году производителем чипов Advanced Micro Devices, показал, что самые современные на тот момент чипы компьютерной памяти были примерно в 5,5 раз менее надежны, чем предыдущее поколение. Компания AMD не ответила на просьбу прокомментировать этот отчет.

Отследить эти ошибки очень сложно, говорит Дэвид Дитцель, ветеран инженерной техники, председатель и основатель компании Esperanto Technologies, производителя нового типа процессоров, предназначенных для приложений искусственного интеллекта в Маунтин-Вью, Калифорния. Он сказал, что новый чип его компании, который только выходит на рынок, состоит из 1000 процессоров, изготовленных из 28 миллиардов транзисторов.

Он сравнивает этот чип с многоквартирным домом, площадь которого равна площади всех Соединенных Штатов. Используя метафору г-на Дитцеля, д-р Митра сказал, что поиск новых ошибок немного напоминает поиск единственного протекающего крана в одной квартире в этом здании, который неисправен только тогда, когда в спальне горит свет и открыта дверь квартиры.

До сих пор разработчики компьютеров пытались справиться с аппаратными недостатками путем добавления в микросхемы специальных схем, исправляющих ошибки. Эти схемы автоматически обнаруживают и исправляют плохие данные. Когда-то это считалось крайне редкой проблемой. Но несколько лет назад производственные команды Google начали сообщать об ошибках, которые было безумно трудно диагностировать. Ошибки вычислений возникали периодически, и их было трудно воспроизвести, говорится в их отчете.

Группа исследователей попыталась отследить проблему, и в прошлом году они опубликовали свои выводы. Они пришли к выводу, что огромные центры обработки данных компании, состоящие из компьютерных систем, основанных на миллионах процессорных "ядер", сталкиваются с новыми ошибками, которые, вероятно, являются комбинацией нескольких факторов: меньших транзисторов, которые приближаются к физическим пределам, и неадекватного тестирования.

В своей статье "Ядра, которые не считаются" исследователи Google отметили, что проблема была настолько сложной, что они уже посвятили ее решению эквивалент нескольких десятилетий инженерного времени.

Современные процессорные чипы состоят из десятков процессорных ядер - вычислительных механизмов, позволяющих разбивать задачи на части и решать их параллельно. Исследователи обнаружили, что крошечное подмножество ядер выдавало неточные результаты нечасто и только при определенных условиях. Они назвали такое поведение спорадическим. В некоторых случаях ядра выдавали ошибки только при изменении скорости вычислений или температуры.

По мнению Google, одной из важных причин сбоев было усложнение конструкции процессоров. Но инженеры также заявили, что меньшие транзисторы, трехмерные чипы и новые конструкции, которые создают ошибки только в определенных случаях, также способствовали возникновению проблемы.

В аналогичной работе, опубликованной в прошлом году, группа исследователей из Facebook отметила, что некоторые процессоры проходили тесты производителей, но затем начинали давать сбои при эксплуатации.

Руководители Intel заявили, что они знакомы с исследовательскими работами Google и Facebook и работают с обеими компаниями над разработкой новых методов обнаружения и устранения аппаратных ошибок.

Брайан Йоргенсен, вице-президент группы платформ данных Intel, сказал, что утверждения исследователей верны и что "вызов, который они бросают отрасли, является правильным".

Он сказал, что Intel недавно начала проект по созданию стандартного программного обеспечения с открытым исходным кодом для операторов центров обработки данных. Это программное обеспечение позволит им находить и исправлять аппаратные ошибки, которые не обнаруживаются встроенными в микросхемы схемами.

Эта проблема была подчеркнута в прошлом году, когда несколько клиентов Intel без лишнего шума выпустили предупреждения о необнаруженных ошибках, созданных их системами. Компания Lenovo, крупнейший в мире производитель персональных компьютеров, сообщила своим клиентам, что изменения в конструкции нескольких поколений процессоров Intel Xeon означают, что чипы могут генерировать большее количество неисправимых ошибок, чем более ранние микропроцессоры Intel.

Intel не высказывалась публично по этому вопросу, но г-н Йоргенсен признал наличие проблемы и сказал, что она уже устранена. С тех пор компания изменила свою конструкцию.

Компьютерные инженеры расходятся во мнениях относительно того, как реагировать на эту проблему. Одним из распространенных ответов является спрос на новые виды программного обеспечения, которые проактивно отслеживают ошибки оборудования и дают возможность операторам систем удалять оборудование, когда оно начинает деградировать. Это создало возможность для новых стартапов, предлагающих программное обеспечение, которое отслеживает состояние базовых чипов в центрах обработки данных.

Одним из таких предприятий является TidalScale, компания из Лос-Гатоса, Калифорния, которая производит специализированное программное обеспечение для компаний, пытающихся свести к минимуму перебои в работе оборудования. Ее генеральный директор Гэри Смердон предположил, что TidalScale и другие компании столкнулись с серьезной проблемой.

"Это будет немного похоже на замену двигателя, когда самолет еще летит", - сказал он.
49
6188
/nytimes-ru/tech/kroshechnye-chipy-bolshie-golovnye-boli/
10
2000
ukrtop@mail.ru
/local/components/dev/auto.comments
Есть что добавить? #
Гость
15 февраля 2022
Даёшь кварнтовые процессоры для серфинга и переписки!
Оставьте комментарий

Полезно знать

Крупный потребительский кредит Кредит на развитие бизнеса Кредит бизнесу с обеспечением Кредит наличными для бизнеса Овердрафт по упрощенной схеме Факторинг Потребительский кредит Ипотека Кредит под залог квартиры Микрозайм на карту онлайн
Информация

Кредиты для руководителей Кредиты малому бизнесу Кредиты юридическим лицам Экспресс-кредит для бизнеса Кредиты для ИП Продукты для развития бизнеса Кредиты под бизнес-план Кредиты для ООО Кредит на бизнес с нуля Кредит юр.лицам под залог Если не выдают кредит Карта сайта
Сервисы сайта

Конвертер валют Заявка на кредит Кредитный калькулятор Скоринг Аналитика рынка Все о кредитовании Видео о кредитах