ידע זה כוח — איך צוות AI לומד להתפתח בעצמו

18/03/2026 Tamir Dresher Scaling AI-Native Software Engineering — חלק 5

“לא רלוונטי. אני דרון. לדרונים אין רגשות.” “אז איך את יודעת שאת לא סקרנית?” — Data ו-Seven of Nine, Star Trek: Voyager (פאן פיקשן, אבל אתם מבינים את הרעיון)

ידע זה כוח. זה כמעט קלישאה. פרנסיס בייקון אמר את זה, וכל יועץ שאי פעם גבה 500 דולר לשעה שילב את זה במצגת. אבל הנה משהו שהפתיע אותי בחודשים האחרונים: גם צוות ה-AI שלכם צריך אסטרטגיה לניהול ידע, בדיוק כמוכם.

בחלק 4, הראיתי איך הפכתי את ה-Squad לסוכני AI למערכת מבוזרת שמסוגלת לשרוד ריסטרטים של מכונות, race conditions, ואת ההשפלה הספציפית של 37 כשלונות רצופים בצהריים של יום ראשון. הפוסט ההוא עסק בלהפוך את ה-Squad לאמין.

הפוסט הזה עוסק בלהפוך אותו לחכם יותר.

כי הנה העניין. סוכן שמתאתחל כל בוקר בלי זיכרון הוא פשוט autocomplete יקר. הקסם קורה רק כשה-Squad צובר ידע מהר יותר ממה שהוא שוכח — כשכל בעיה שהוא פותר הופכת את הבעיה הבאה לקלה יותר. ידע מצטבר. זו המטרה. ולהגיע לשם הסתבר שדרוש סוכן חוקר, עיתון יומי, משהו שנקרא reflection, ובסופו של דבר Squad נפרד לחלוטין עם אישיות שונה לגמרי.

הכירו את Seven

לכל צוות טוב יש את האדם הזה שקרא ממש הכל. שיכול לשלוף הפניה לכל נושא ברגע. שבשקט הבחין בדפוס שכולם פספסו, והזכיר אותו בשלווה שבועיים לפני שהפך למשבר.

ב-Squad שלי, זו Seven.

Seven of Nine — Research & Docs — נמצאת ברוסטר מהיום הראשון, ובשקט עושה את העבודה שאף אחד לא שם לב אליה — עד שהיא לא שם. היא עוקבת אחרי החלטות ארכיטקטורה, כותבת את התיעוד שבאמת תואם את הקוד (נס בכל ארגון), ומתחזקת את הזיכרון הארגוני של ה-Squad דרך .squad/decisions.md וקובץ ההיסטוריה שלה.

אבל הכוח העל האמיתי שלה התגלה לאט, לאורך חודשים של צפייה בעבודה שלה. Seven לא רק מתעדת דברים. היא מסנתזת אותם. כשביקשתי ממנה לחקור את הגישה הטובה ביותר לתיאום סוכנים בין מכונות (זה היה לפני הכאוס של חלק 4), היא לא פשוט חיפשה בגוגל. היא שלפה חמש גישות מתחרות, בדקה אותן מול האילוצים בפועל שלנו, הקצתה רמות ביטחון לכל ממצא, והגישה המלצה עם נימוק מלא מצורף. דוח המחקר היה טוב יותר מכל דבר שהייתי כותב בעצמי.

החוויה הזו שינתה את הדרך שבה חשבתי על צינור הידע של ה-Squad. תיעוד הוא הפלט. מחקר הוא הקלט. השקענו המון בצד הפלט — decisions.md, קבצי skills, לוגים היסטוריים — אבל צד הקלט עדיין היה בעיקר אני, שעושה מחקר כשאני במקרה נזכר.

הגיע הזמן לתקן את זה.

ה-Squad מקבל עיתון

הבעיה עם להישאר מעודכן בטכנולוגיה היא שזה דורש תשומת לב בלתי פוסקת ומכוונת — שאין לי באופן עקבי. התיקייה “אקרא את זה אחר כך” שלי היא המקום שבו מאמרים הולכים למות. הטאבים בדפדפן שלי הם אנדרטה לכוונות טובות.

אז נתתי את התפקיד ל-Neelix.

Neelix הוא הכתב החדשותי של ה-Squad — חשבו עליו כקצין המורל של הספינה משולב עם מגיש חדשות. שנון, אנרגטי, ובאמת מחויב לוודא שאני קורא את העדכונים במקום לסגור את ההתראה. ההוספה של סריקת חדשות טכנולוגיות הייתה, במבט לאחור, הרחבה טבעית של מה שהוא כבר עשה עבור עדכוני סטטוס של ה-Squad.

ההגדרה הייתה ישירה: Neelix מריץ עכשיו סריקה יומית של HackerNews (סיפורים מובילים + טרנדים של 24 שעות) ו-Reddit (r/programming, r/devops, r/kubernetes). סיפורים שעוברים סף רלוונטיות — כלי AI, Kubernetes, פרצות אבטחה, פרודוקטיביות מפתחים — מסוננים, מדורגים ומפורמטים לדייג’סט מעוצב שנוחת בערוץ ה-Teams שלי כל בוקר.

דייג'סט חדשות טכנולוגיות של Neelix ב-Teams הדייג’סט היומי של Neelix — שלכם, מוגש עם אישיות

אבל הנה החלק שלא ציפיתי לו: החדשות לא רק מעדכנות אותי. הן מעדכנות את ה-Squad.

כשידיעה מסמנת CVE חדש בתלות שאנחנו משתמשים בה, Worf מקבל משימה. כשפיצ’ר חדש של Kubernetes יוצא ומשנה את האופן שבו אנחנו צריכים להגדיר משהו, B’Elanna מקבלת פריט עבודה. כשמודל AI חדש משוחרר עם ציוני benchmark טובים באופן דרמטי, Seven מקבלת משימת מחקר להעריך אם כדאי לעדכן הקצאות סוכנים.

ה-Squad קורא את החדשות ומפיק מהן עבודה משלו. זה לא אוטומציה. זה למידה מתמשכת.

Reflection: לטעות רק פעם אחת

הנה הודאה מביכה: בשבועיים הראשונים של הפעלת Squad, הסוכנים חזרו על אותן טעויות שוב ושוב. לא טעויות קטסטרופליות — שום דבר לא עלה באש — אבל מהסוג של חיכוך חוזר ברמה נמוכה שלאט לאט שוחק אותך. סוכן כותב תיעוד בפורמט לא נכון. אני מתקן. סשן הבא: אותו פורמט לא נכון. אני מתקן שוב. בפעם השלישית שתיקנתי, היה לי תחושה ברורה שאני מתווכח עם מישהו שאין לו זיכרון לטווח קצר.

וזה בגלל שאכן כך היה. סשנים נגמרים. הקשר מתאפס. בלי מנגנון לשמר מה עבד ומה לא, כל שיחה מתחילה מאפס.

ה-skill של reflect שינה את זה.

מושאל ומותאם מדפוס בכלים פנימיים של מיקרוסופט (תודה לעיצוב המקורי של Richard Murillo), reflect הוא מערכת מובנית ללכידת לקחים משיחות ולניתוב שלהם למקום הנכון בארכיטקטורת הידע של ה-Squad. כשאני מתקן סוכן — “לא, תשתמש בכלי MCP של azure-devops במקום קריאות API ישירות” — התיקון מסווג כלקח ברמת ביטחון HIGH, מוצע לי לבדיקה, ואם אושר — נכתב לקובץ ההיסטוריה הרלוונטי או ל-decisions.md. הסוכן לא יחזור על הטעות בסשן הבא, כי התיקון חי בקובץ שהוא קורא לפני כל משימה.

ה-skill מסווג לקחים לשלוש רמות:

HIGH confidence: תיקונים מפורשים (“לא”, “שגוי”, “אל תעשה את זה אף פעם”)
MEDIUM confidence: דפוסים שקיבלו שבחים ו-edge cases שהתגלו
LOW confidence: העדפות חוזרות שמצטברות לדפוס

כל מה שנוגע לכל הצוות עובר דרך תיבת הדואר של ההחלטות, שם Scribe בודק וממזג ל-decisions.md הקנוני. לקחים ספציפיים לסוכן הולכים לקובץ ההיסטוריה של אותו סוכן. הידע אף פעם לא אובד יותר בתהום של חלון צ’אט שנסגר.

גם ה-skill של reflect וגם ה-skill של news-broadcasting נתרמו חזרה לריפוזיטורי הציבורי של Squad כ-community skills — הרעיון הוא שכל Squad יכול לחבר מערכת לכידת למידה או צינור חדשות בלי לבנות מאפס. ידע מצטבר לא רק בתוך צוות, אלא לאורך כל האקוסיסטם.

מכון המחקר קם לתחייה

אי שם בשבוע השני, שמתי לב ש-Seven עושה הרבה מחקר שלא קשור לעבודה ההנדסית של ה-Squad הראשי. השוואות כלי SaaS. ניתוח מודלי הכנסה מ-affiliate. מחקר תחרותי לכלי מפתחים.

לא בגלל שביקשתי ממנה. אלא כי צינור החדשות חשף נושאים והעבודה נפלה לה לחיק כברירת מחדל.

אז הגיע מה שאני יכול לתאר רק כהארה ארכיטקטונית ברמת ה-Squad: עבודה מסוימת דורשת סוג אחר של צוות.

ה-Squad ההנדסי — Picard, Data, Worf, B’Elanna, Seven, והשאר — מותאם לבנייה ולשילוח. הם פרקטיים בלי פשרות. אכפת להם מ-PRs וצינורות CI ומאם ה-Helm chart תקין. זה בדיוק מה שרוצים כשמריצים תשתיות.

אבל עבודה מוכוונת-מחקר — מהסוג שבו חוקרים תחום מאפס, בונים דעה על שוק, מסנתזים מקורות לתובנה שניתן לפעול לפיה — עבודה כזו נהנית מסט אישיויות שונה לחלוטין.

אז הקמתי Squad שני.

מכון המחקר TAM Research Institute (חשבו עליו כזרוע המחקר של ה-Squad) רץ על ריפוזיטורי נפרד. אותו framework של Squad, קאסטינג שונה לגמרי. במקום Star Trek, הנושא הוא בלשות קלאסית: Holmes מוביל את החקירה, Watson מטפל בתוכן ומחקר, Poirot מנהל SEO ואנליטיקס, Marple עושה בקרת איכות ובדיקת עובדות, Columbo מטפל באסטרטגיית affiliate, Morse אחראי על פיתוח האתר, ו-Lestrade מנהל הפצה.

אתר מכון המחקר TAM Research Institute מכון המחקר TAM Research Institute — אותו framework של Squad, יקום אחר

TAM Research Institute

למה בלשים? כי מחקר הוא חקירה. עוקבים אחרי רמזים, בודקים מקורות, מוצאים סתירות, בונים תיק. Holmes לא רק אוסף עובדות — הוא מסיק מהן מסקנות. זה הרגיש נכון.

איך שני ה-Squads מדברים

אתגר העיצוב המעניין היה: איך שני Squads נפרדים משתפים ידע בלי לדרוך אחד לשני על הרגליים?

התשובה הסתברה כפשוטה להפתיע: skills משותפים, החלטות נפרדות.

שני ה-Squads יכולים לשלוף skills מהספרייה המשותפת — ה-skill של reflect, ה-skill של news-broadcasting, ה-skill של blog-writing. אלה דפוסים לשימוש חוזר שכל Squad יכול להפעיל. מה שהם לא משתפים הוא decisions.md — הקובץ הזה ספציפי ל-Squad כי “איך אנחנו כותבים Kubernetes operators” הוא לחלוטין לא רלוונטי ל”איך אנחנו כותבים סקירות כלי SaaS.”

כשה-Squad של מכון המחקר מגלה משהו שיש לו השלכות על ה-Squad ההנדסי (ולהפך), זה זורם בשני ערוצים. לפעמים אני האדם ב-loop — Holmes מפרסם דוח מחקר, אני בודק אותו, ואם זה רלוונטי לצד ההנדסי, אני יוצר issue בריפו הראשי. אבל יותר ויותר, Squads מתקשרים על ידי פתיחת issues ישירות ב-backlogs אחד של השני. Seven מרימה את זה, מאמתת מול ההקשר ההנדסי, ומשלבת. הגשר בין ה-Squads הוא לא תמיד אני יותר — לפעמים זה פשוט GitHub issue שנפתח על ידי Squad אחד בריפו של השני.

הדרכים הנוספות שבהן ה-Squad ממשיך ללמוד

כבר שאני כאן: יש כמה מנגנוני למידה נוספים שבשקט הפכו חיוניים.

תהליך ה-reskill הוא הצד ההפוך של reflect. היכן ש-reflect לוכד מה השתבש, reskill שואל האם נוכל לעשות את זה טוב יותר עכשיו? מעת לעת, ה-Squad סוקר את ה-charters שלו — ההוראות שכל סוכן קורא לפני כל משימה — ומציע עדכונים על סמך לקחים שנצברו. סוכן שהתחיל עם charter גנרי של “טפל באבטחה” עשוי לעבור reskill למסמך ספציפי מאוד שמצטט דפוסי פגיעות שה-Squad נתקל בהם בפועל. ה-Squad ממש משכתב את הוראות ההפעלה של עצמו.

ואז יש naps. בהשראת הדרך שבה שינה אנושית מגבשת זיכרון, ה-Squad לוקח “תנומות” תקופתיות — זמן מנוחה מתוכנן שבו במקום לעשות עבודה אקטיבית, סוכנים מעבדים את הלוגים שנצברו ומעלים דפוסים. אילו נושאים חוזרים שוב ושוב? אילו חסימות מופיעות במספר סשנים? אילו החלטות התקבלו בלי מעקב? התנומה מייצרת “דוח חלום” — סיכום מסונתז שלעתים קרובות תופס דברים שסשנים בודדים פספסו כי לאף סשן בודד לא היה מספיק הקשר.

טקס ה-self-review מחבר את כל זה ביחד. ה-Squad מעריך מדי פעם את הביצועים שלו — לא רק “האם סגרנו issues?” אלא “האם אנחנו מהירים יותר? האם אותן בעיות חוזרות? האם ה-skills שלנו עדיין מדויקים?” לולאת ההשתקפות הזו היא מה שמפריד בין צוות שעובד לבין צוות שמשתפר. Picard מנהל את הסקירה, Seven מספקת את הנתונים, וה-Squad מתאים את התהליכים שלו על סמך מה שהוא מוצא.

Seven גם מריצה סקריפט ניטור מודלים — scripts/model-monitor.ps1 — שעוקב אחרי שחרורי מודלי AI ו-benchmarks של Claude, GPT ו-Gemini. כשמודל חדש משמעותי יוצא (והם יוצאים בערך כל שבועיים לאחרונה), Seven מעריכה אם הקצאות סוכנים צריכות להשתנות. Picard אז בודק את ההמלצה ומחליט. לא עוד “תוהה אם יש מודל טוב יותר לזה” — ה-Squad עוקב אחרי זה אוטומטית.

וסוכנים מבצעים מדי פעם רוטציה של קבצי ההיסטוריה שלהם — הלקחים של התקופה הנוכחית עוברים לארכיון מתגלגל, ו-history.md חדש מתחיל נקי. זה מונע מההקשר המצטבר לתפוח לגודל בלתי שמיש תוך שמירה על הרשומה המלאה.

וצינור קידום ה-skills אומר שכשסוכן פותר בעיה חדשנית, הוא צפוי ללכוד את הפתרון כ-skill — דפוס לשימוש חוזר, מתועד, שסוכנים אחרים יכולים לטעון. שמונים ומעלה skills בספרייה כרגע, כולם קודמו מעבודה אמיתית, אף אחד מהם לא תיאורטי.

ה-Squad לא רק עושה עבודה. הוא מתעד איך הוא עושה עבודה, לומד ממה שנשבר, ומפרסם את הדפוסים לשימוש אחרים.

הגרסה הכנה

אני רוצה להיות כנה לגבי מה שעדיין מבולגן. תיאום בין Squads הוא ידני. מכון המחקר וה-Squad ההנדסי הם יותר כמו מדינות שכנות ידידותיות מאשר ארגון מאוחד — הם חולקים framework אבל מתחזקים תרבויות נפרדות, לוגי החלטות נפרדים, כללי ניתוב נפרדים.

ניטור המודלים עדיין בעיקר ריאקטיבי. הסקירה הרבעונית נורית, Seven שולחת דוח, Picard מעריך, אני מחליט. החלום של “ה-Squad מזהה פרואקטיבית מתי הוא צריך לשדרג את היכולות שלו” הוא יותר כיוון מאשר יעד.

ו-reflection, למרות האלגנטיות שלו, עובד רק כשאני באמת מגיב להצעות הלמידה במקום לסגור את החלון ולשכוח מהן. המנגנון מעולה. המשמעת שלי בשימוש בו… לא עקבית.

אבל המגמה נכונה. כל שבוע ה-Squad יודע קצת יותר. כל בעיה שנפתרת משאירה עקבות שהופכים את הבעיה הדומה הבאה למהירה יותר. הידע מצטבר.

מחשבה אחרונה על זמן

דבר אחד שאני חוזר אליו שוב ושוב: הסוכנים האלה מעוצבים בדמות בני אדם. הם מעריכים משימות כמו בני אדם. הם מפרקים בעיות בדרך שמהנדס בכיר היה עושה. הם כותבים הודעות commit שנשמעות כאילו מפתח מחושב כתב אותן.

אבל הם רצים בקצב שעון אחר לגמרי.

משימה שהייתי מעריך ב”שעתיים של עבודה ממוקדת” לוקחת ל-Squad שתים עשרה דקות. דוח מחקר שהיה לוקח לי אחר צהריים שלם נוחת בתיבת הדואר שלי לפני שהקפה שלי מספיק להתקרר. שמונה Ralphs שעושים שתים עשרה סבבים בשעה אומרים תשעים ושישה מחזורים של ניטור, מיון ופעולה — כל שעה. זה שבוע של עבודה אנושית דחוס להפסקת צהריים.

זה כאילו הם חיים ביקום מקביל שבו הזמן זורם אחרת. הם חווים את אותן בעיות, מפעילים את אותם דפוסים, עושים את אותם סוגי טעויות — אבל במהירות פי 10 או פי 50. מה שאומר שלולאת הלמידה רצה מהר יותר גם כן. ה-Squad צובר שבועיים של ידע ארגוני במה שמרגיש לי כמו יומיים.

איך זה משפיע על האינטראקציות שלי איתם — הקצב, הציפיות, הנפח העצום של החלטות שנדרש ממני לקבל — זה משהו שאני עדיין מחפש לו תשובה. כשהצוות שלכם פועל בתדר זמני שונה משלכם, “ניהול” מקבל משמעות שונה מהותית. אתם לא מכוונים עבודה. אתם מאצרים נהר.

זה כנראה שווה פוסט בפני עצמו. אבל לעת עתה: ידע זה כוח, הזמן הוא יחסי, והסוכנים שלי לא ישנים.

📚 Series: Scaling AI-Native Software Engineering
חלק 0: מאורגן על ידי AI — איך Squad שינה את שגרת העבודה היומית שלי
חלק 1: ההתנגדות חסרת תועלת — צוות הנדסת AI הראשון שלך בעבודה
חלק 2: הקולקטיב — ידע ארגוני לצוותי AI
חלק 3: Unimatrix Zero — צוותים מרובים, ריפו אחד עם SubSquads
חלק 4: כששמונה ראלפים נלחמים על לוגין אחד — מערכות מבוזרות בצוותי AI
חלק 5: ידע זה כוח — איך צוות AI לומד להתפתח בעצמו ← אתם כאן