לפרטים נוספים וייעוץ מקצועי השאירו פרטים כאן:

כשפייסבוק איבדה את השליטה על המערכות שלה

והלקח שלמדה על בשרה ענקית הטכנולוגיה

ב- 4 באוקטובר 2021 היתה דממה. פייסבוק, היום מטא, חברת המדיה המפלצתית נעלמה מעל גלי הרשת למשך כ-6 שעות. במובנים דיגיטליים זהו כמובן נצח, ונזק אדיר מבחינה עסקית גלובאלית, בדגש על הנגשה וחווית משתמש.

איך קרה שהחברה שהפכה לאחת מהשליטות הבלתי מעורערות של התקשורת החברתית הדיגיטלית המודרנית נתפסה לא מוכנה?

להלן עובדות, ממצאים, וצקצוקי לשון בדיעבד….

שורש הבעייה נעוץ באצבעות....

טרי סלאטרי, יועץ Terry Slattery, Principal Architect at NetCraftsmen ציוץ

היום בו הושבתה פייסבוק ויחד איתה חברות הבת שלה: אינסטגרם, מסנג'ר, וואטס-אפ, הצית גל של תהיות בדבר הגורם העיקרי לתקלה האפוקליפטית שקרתה. מסקנת הרוב גרסה כי מדובר בשגיאת BGP, תקלה בה ישנו כשל תקשורתי בין רשתות שמחבל בציוות שמתבצע באמצעות פרוטוקול BGP.

אבל, לדברי פייסבוק, כשל BGP היה רק הסימפטום לבעיה האמיתית: מיס-קונפיגורציה שגרמה לניתוק הרשתות עליהן מתקיימת החברה. במילים אחרות….טעות אנוש.

אפקט הדומינו לפניך

סיפור שהיה: הטריגר שהתרחש ממש לפני קריסת הרשתות  היה ניסיון של מהנדס מהחברה לאמוד את הקיבולת בזמן פעולת תחזוקת רשת, וככל הנראה שיגר בטעות הוראת מחשב שהתגלגלה כמו כדור שלג של כשלים טכניים. למרות שהמערכת כללה מנגנון התראה שאמור לעצור מיס-קונפיגורציה בעת שקורית, באג בתוכנה מנע זאת  והחיש את הקריסה שניתקה את פייסבוק ממאגרי המידע שברשותה.  דבר זה הצית נזק משני של בעיות BGP ו- DNS כאשר השרתים לא יכלו לבצע תקשורת עם מאגרי המידע. כל ההשתלשלות הזו בעצם גרמה לנוכחות הווירטואלית של פייסבוק להיעלם מהמפה, יחד עם האפליקציות שמחוברות אליה בטבור.

כאילו שפייסבוק נעלה את מפתחות הרכב מבפנים....

ג'ונתן סיטרין Professor at the Harvard John A. Paulson School of Engineering and Applied Sciences ציוץ

נאלצו ללכלך את הידיים

כחלק מניסיון לפתור את הבעיה, מהנדסים נאלצו להיכנס למאגרי המידע של פייסבוק ולנטרל את השנאים באופן ידני, יחד עם הפעלה מחדש של השרתים. עובד החברה שהתראיין לניו יורק טיימס דיווח שהעובדים לא יכלו לקבל גישה פיזית לאופרציות החברה עקב כשל מערכתי נרחב.

רשת נקיה היא רשת חיה

בעקבות הבאז התקשורתי האדיר שנוצר סביב המקרה הקולוסאלי, רבים ביקשו לדעת מה פייסבוק הייתה יכולה לעשות אחרת כדי להימנע מההשבתה חסרת התקדים הזו. והתשובה הגורסת? מפתיע כמה בסיסית וקריטית: שמירה על רשת "נקיה".
זה אולי נראה ברור מאליו, אבל רבות החברות שאינן מבצעות תהליכים מין היסוד שאמורים לשמור על הפונקציונאליות והעבירות של הרשתות. 

מה חברות יכולות לעשות כפעולות אבטחה ראשוניות וקריטיות?

  1. ניטור ומעקב של קונפיגורציות מכשירי רשת במאגר מידע בסיסי
  2. תכנית ב' למגירה
  3. אוטומציה של תהליכי אישור שינויי רשת
  4. ביצוע בדיקות רשת קבועות ותכופות

 

צפו את הגרוע מכל, תכננו את הגרוע מכל, ואל תחסכו בבדיקות.
רוב המומחים מסכימים שכל אופרציה ארגונית חייבת לבצע סימולציות תגובה לאירועי קריסת רשתות. אין חכם כבעל ניסיון, וגם בתחזוקת רשתות אין יוצא דופן. רק כך ארגונים יוכלו להתכונן לאירוע של מחסור פתאומי במשאב מסוים, וההמשך ידוע.

השורה התחתונה? קישוריות Out-of-Band

כשל רשתי הוא תוצאה נפוצה של קונפיגורציה שגויה, מצב שמסכל את הגישה למידע המאוחסן על גבי הרשת. קישוריות Out-of-Band שנעשית מרחוק היא פתרון המאפשר מתן גישת חירום בשעת קריסת רשתות, יחד עם מערכת זמינה ואוטומטית המאפשרת ניהול מקיף של האופרציה. כך ניתן להגביר את יעילות הרשת וההסתמכות עליה.

חברת RIL ECO SYSTEMS הינה חברת ההפצה המובילה בישראל לפתרונות מתקדמים לחדרי מחשב, ומתמחה ביבוא, שיווק והפצה של טכנולוגיות לעולם ה-Data Center. באמצעות טכנולוגיות מתקדמות לשליטה מרחוק ויחד עם ספקי פתרונות ה- Console Server המובילים בעולם, אנו מספקים שרותי קישוריות  Out-of-Band הכוללים את האוטומציה, חוסן הרשת והביטחון הנחוצים לניהול והגנה יעילים של מערכות מידע, תקשורת, רשת וכוח קריטיים ולהבטחת המשכיות עסקית.

באמצעות גישה מרוחקת קווית ואלחוטית זמינה, ניטור פרואקטיבי ותגובה אוטומטית אנו מאפשרים קישוריות מרחוק ללא הפרעות, גם כאשר הרשת במצב לא פעיל. והתוצאה? יכולת קולחת לנהל נתונים באתרים מרוחקים המאפשרת לצוות הטכני לספק, לתחזק ולתקן תשתיות מכל מקום ובכל זמן, ובכך להפחית באופן דרסטי את עלויות התפעול ואת זמן ההשבתה

הפתרונות של RIL