حادثه پس از مرگ: 27 اکتبر 2021

خلاصه تقریباً بین ساعت 6:40 صبح تا 10:42 صبح به وقت PT، و دوباره بین ساعت 12:20 بعد از ظهر تا 2:32 بعد از ظهر روز چهارشنبه، 27 اکتبر، ما با قطعی متناوب در Coinbase.com، برنامه های تلفن همراه Coinbase، و Coinbase Pro مواجه شدیم. در طول این قطع‌ها، بسیاری از کاربران هنگام تلاش برای

کد خبر : 122712
تاریخ انتشار : شنبه ۸ آبان ۱۴۰۰ - ۵:۰۹
حادثه پس از مرگ: 27 اکتبر 2021


خلاصه

تقریباً بین ساعت 6:40 صبح تا 10:42 صبح به وقت PT، و دوباره بین ساعت 12:20 بعد از ظهر تا 2:32 بعد از ظهر روز چهارشنبه، 27 اکتبر، ما با قطعی متناوب در Coinbase.com، برنامه های تلفن همراه Coinbase، و Coinbase Pro مواجه شدیم. در طول این قطع‌ها، بسیاری از کاربران هنگام تلاش برای دسترسی به Coinbase، زمان بارگذاری کند و خطاها را تجربه کردند یا نتوانستند از ویژگی‌هایی مانند خرید، فروش و تجارت از طریق وب‌سایت‌ها و برنامه‌های خرده‌فروشی و حرفه‌ای ما استفاده کنند. خود بورس تأثیر مادی نداشته است. این پست برای توصیف آنچه رخ داده و علل آن و بحث در مورد چگونگی برنامه ریزی ما برای جلوگیری از چنین مشکلاتی در آینده است.

ما همچنان به کسب اطلاعات بیشتر در مورد این رویدادها ادامه می دهیم و به به روز رسانی این پست با جزئیات بیشتری که ممکن است جالب باشد ادامه خواهیم داد.

حادثه

در صبح روز 27 اکتبر PT، افزایش قابل توجهی در ترافیک را تجربه کردیم. با افزایش ترافیک، مهندسان ما در مورد افزایش نرخ خطا در تعدادی از خدمات هشدار داده شدند.

عملکرد زیر تحت تأثیر قرار گرفت:

  • تجربه خروج از سیستم: کاربرانی که وارد سیستم نشده‌اند، هنگام بازدید از coinbase.com یا برنامه‌های تلفن همراه ما، با خطا مواجه شدند.
  • Coinbase Pro: کاربران به طور موقت قادر به ورود به Coinbase Pro نبودند.
  • نقل و انتقالات: نرخ بالاتری از نقل و انتقالات لغو شده و بازپرداخت شده در این مدت و همچنین تأخیر در پردازش جابجایی پول در زنجیره وجود داشت. کاربران ممکن است نتوانند آخرین تاریخچه انتقال خود را ببینند.

تحلیل علل ریشه ای

این مشکلات ناشی از دو قطعی جداگانه اما مرتبط بود. هر دو توسط تنگناهای سیستم ناشی از ترافیک بالا ایجاد شدند.

ترافیک به کوین بیس — 2021/10/27

در اولین قطع، الگوهای ترافیکی را مشاهده کردیم که چندین برابر بیشتر از پیک های قبلی بود. این افزایش ترافیک شروع به بارگیری بیش از حد یک فروشگاه داده که مسئول عملکرد پاداش‌های ما بود، کرد. با افزایش تاخیر در این پایگاه داده، سرویس های مرتبط اشباع شدند و شروع به تخلیه منابع نیز کردند. این منجر به زنجیره ای از خرابی ها و قطعی گسترده تر شد.

ظرفیت پرس و جو برای خوشه پایگاه داده کلید

قطعی دوم نیز به دلیل افزایش سطح ترافیک رخ داد. در اوایل بعد از ظهر، به مهندسان هشدار داده شد که پردازش پرداخت ما به طور مشابه بارگذاری شده است. متأسفانه، یک رویداد تعمیر و نگهداری خودکار که قبلاً در حال انجام بود، توانایی ما را برای افزایش مقیاس این خوشه برای پاسخگویی به تقاضا کند کرد و مجموعه‌ای از خرابی‌ها مشابه مواردی که در اولین قطعی رخ داد، به دنبال آن رخ داد.

تأخیر پرس و جو افزایش یافته برای خوشه پرداخت

در این مثال، سرورهایی که تجربه خروج از سیستم ما را تامین می‌کنند نیز تحت تأثیر قرار گرفتند. از آنجایی که این سرورها تحت فشار قرار گرفتند، قادر به ارائه ترافیک جدید نبودند و در نهایت توسط load balancer ما به عنوان ناسالم علامت‌گذاری شدند و از مخزن آن حذف شدند، که باعث شد coinbase.com برای کاربرانی که از سیستم خارج شده‌اند یا قصد ورود به سیستم را داشتند در دسترس نباشد. سایر عملکردهای تأثیرگذار شامل توانایی خرید، فروش و تجارت در برنامه خرده فروشی Coinbase و همچنین Coinbase Pro است.

در ساعت 2:32 بعد از ظهر PT، خدمات ما به حالت عادی بازگشت.

وضوح و بهبود

برای اولین قطع، پس از اعمال تغییرات حافظه پنهان، پایگاه داده پاداش‌ها بزرگ‌تر شد و کپی‌های اضافی در دسترس قرار گرفت. پس از آن، سیستم ما توانست به کار عادی خود ادامه دهد.

برای رفع قطعی دوم، خوشه پرداخت های کمتر از ظرفیت را به اندازه نمونه بزرگتر ارتقا دادیم و کپی های فقط خواندنی اضافی را معرفی کردیم.

برای جلوگیری از مشکلات مشابه در آینده، چندین اقدام اضافی انجام می دهیم:

  1. سازماندهی مجدد بزرگترین خدمات ما: ما به خرد کردن و جداسازی بزرگترین خدمات خود ادامه خواهیم داد تا از محدودیت هایی مانند موارد ذکر شده در بالا جلوگیری کنیم.
  2. تست بار پیشرفته: ما در حال ارتقای چارچوب تست بار خود هستیم تا بیشتر نماینده الگوهای ترافیکی جدیدی باشد که در این رویداد دیدیم.
  3. مقیاس بندی اضافی: ما چندین پایگاه داده خود را که مشاهده کردیم نزدیک به محدودیت ها در سطح ترافیک بالا در روز چهارشنبه کار می کنند، بیشتر مقیاس بندی می کنیم.

ما به‌روزرسانی و عملکرد زیرساخت‌های خود را بسیار جدی می‌گیریم و سخت تلاش می‌کنیم تا از میلیون‌ها مشتری که Coinbase را برای مدیریت ارز دیجیتال خود انتخاب می‌کنند، پشتیبانی کنیم. اگر به حل چالش‌های مقیاس‌پذیری مانند موارد ارائه شده در اینجا علاقه دارید، با ما همکاری کنید.


Incident Post Mortem: 27 اکتبر 2021 در ابتدا در وبلاگ The Coinbase در Medium منتشر شد، جایی که مردم با برجسته کردن و پاسخ دادن به این داستان به گفتگو ادامه می دهند.



لینک منبع : هوشمند نیوز

آموزش مجازی مدیریت عالی حرفه ای کسب و کار Post DBA
+ مدرک معتبر قابل ترجمه رسمی با مهر دادگستری و وزارت امور خارجه
آموزش مجازی مدیریت عالی و حرفه ای کسب و کار DBA
+ مدرک معتبر قابل ترجمه رسمی با مهر دادگستری و وزارت امور خارجه
آموزش مجازی مدیریت کسب و کار MBA
+ مدرک معتبر قابل ترجمه رسمی با مهر دادگستری و وزارت امور خارجه
ای کافی شاپ
مدیریت حرفه ای کافی شاپ
خبره
حقوقدان خبره
و حرفه ای
سرآشپز حرفه ای
آموزش مجازی تعمیرات موبایل
آموزش مجازی ICDL مهارت های رایانه کار درجه یک و دو
آموزش مجازی کارشناس معاملات املاک_ مشاور املاک

برچسب ها :

ناموجود
ارسال نظر شما
مجموع نظرات : 0 در انتظار بررسی : 0 انتشار یافته : ۰
  • نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
  • نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.