Predictive mean matching and imputation – השלמת ערכים חסרים איטרטיבית

ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching. אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון – וכעת נמצאת במודול הexperimental של scikit learn. נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה.

כאן – Kolmogorov Arnold network

הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם – ולא היה ברור מה המהומה. Kolmogorov Arnold network זו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר. בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר – נשמע מדהים. אבל, הפוטנציאל הוא גדול אבל […]

How we use aggregates for regression models on Hydrolix for user targeting

Context AdTech companies should be able to explore and test several aggregation strategies on the same dataset for debugging and model learning purposes. But let’s be honest, this really isn’t happening. DSP’s typically implement decision trees and logistic regression. Or as we like to call it, a spray and pray approach – where the bid […]

Price Predictions: How to Build Online Probabilistic Attribution Models for DSP Optimization

In the ever-evolving world of digital marketing, optimizing dynamic bidding to drive lower funnel metrics is crucial for Demand-Side Platforms (DSPs). A key component of this optimization is accurate attribution, determining which interactions and touchpoints contribute to conversions. Probabilistic attribution models provide a sophisticated approach to this, offering nuanced insights that can significantly enhance bidding […]

The Future of Ad Targeting: Leveraging Contextual and Intent Data with ChatGPT

In the ever-evolving landscape of digital advertising, marketers face the challenge of reaching the right audience effectively, especially as user targeting becomes increasingly restricted due to privacy regulations and changes in platform policies. As traditional user targeting methods face limitations, contextual and intent data emerge as powerful tools to drive ad targeting. This blog explores […]

Navigating Machine Learning in the Era of Apple’s SKAdNetwork: The Low Signal Quality Dilemma

In the realm of digital advertising, precision and data quality are paramount.  With advancements in machine learning, advertisers have been able to harness data to optimize ad targeting, measure effectiveness, and refine their strategies. However, Apple’s introduction of SKAdNetwork, a framework for privacy-preserving mobile app attribution, has brought significant changes to this landscape. While SKAdNetwork […]

רק לא ראג RAG

מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש. בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות 1. אתם אחראיים (משפטית) על הפלט שלהם – אם אין בן אדם בלופ – יש בעיה 2. שאילתות סמנטיות לא מתאימות להמון מקרים, […]

חיפוש וקטורי עם מירב גרימברג

מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים. לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם. רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב. מירב תספר לנו […]

טרנספורמרים וסדרות עיתיות – ש.ח

עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) – הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו. פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024.

כישורים רכים למדעני נתונים – עם בוריס גורליק

בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן – ידבר איתנו על דווקא על נושא אחר: Soft skills. מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים – הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר. נדבר על אתגרים נפוצים […]