Tf–idf

tf–idf, קיצור של term frequency–inverse document frequency, בעברית: תדירות מונח (tf) - תדירות מסמכים הופכית (idf), הוא מדד של עיבוד שפה טבעית, המצמד לכל מילה במסמך השייך לאוסף מסמכים ערך מספרי. ערך זה, משקף את מרכזיותה של המילה במסמך, ביחס למסמכים אחרים^[1]. מדד זה נפוץ בתחומים של אחזור מידע, כריית טקסט ומידול משתמשים.

גרסאות של tf–idf משמשות מנועי חיפוש לניקוד ולדירוג רלוונטיות טקסטים כתגובה לשאילתת משתמש (כמה מסמך רלוונטי לבקשה שהמשתמש הזין במנוע חיפוש). שימושים מרכזיים נוספים ל-tf–idf הם סינון מילים עם משמעות נמוכה לזיהוי ועיבוד טקסטים (מילות עצירה), לסיכום טקסטים ולסיווג מסמכים.

הגדרות ואופן החישוב

tf–idf מחושב בנפרד לכל מונח בתוך כל מסמך, על ידי מכפלה של שני גורמים: תדירות מונח (tf) ותדירות מסמכים הופכית (idf).

תדירות מונח היא אחוז הפעמים שמופיע מונח t במסמך d:

\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}

,

כאשר $f t, d$ היא הספירה הגולמית של מונח במסמך, כלומר, מספר הפעמים שמונח $t$ מופיע במסמך $d$ . המכנה הוא המספר הכולל של מונחים במסמך $d$ (ספירת כל מופע של אותו מונח בנפרד). ישנן דרכים נוספות אחרות המגדירות מדד זה, אך הגדרה פשוטה ובעלת שימושים רבים.

תדירות מסמכים הופכית (idf) היא מדד לנדירות המילה בין מסמכים .מדד זה מחושב על ידי מציאת אחוז המסמכים בהם המונח מופיע מכלל המסמכים, והפעלת פונקציית הלוג על אחוז זה:

\mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}

כאשר:

$N$ : המספר הכולל של המסמכים $N={|D|}$
$|\{d\in D:t\in d\}|$ : מספר המסמכים שבהם המונח $t$ מופיע (כלומר, $\mathrm {tf} (t,d)\neq 0$ ). אם המונח לא נמצא בקורפוס, הדבר יוביל לחלוקה באפס. לכן מקובל להתאים את המכנה ל $1+|\{d\in D:t\in d\}|$ .

מכפלת tf ב-idf מניבה את המדד tf–idf:

\mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)

משקל גבוה ב-tf–idf מגיע על ידי תדירות מונח גבוהה (במסמך הנתון) ותדירות מסמכים נמוכה של המונח בכל אוסף המסמכים; לכן המשקולות נוטות לסנן מונחים נפוצים. מכיוון שהיחס בתוך הפונקציה הלוגריתמית של תדירות המסמכים ההופכית תמיד גדול או שווה ל-1, הערך של תדירות המסמכים ההופכית (ובהתאמה של tf–idf) גדול או שווה ל-0. ככל שמונח מופיע במסמכים נוספים, היחס בתוך הלוגריתם מתקרב ל-1, ומקרב את ה-idf ואת tf–idf ל-0.

דוגמה

מסמך 2
מונח	תדירות
this	1
is	1
another	2
example	3

מסמך 1
מונח	תדירות
this	1
is	1
a	2
sample	1

נניח שיש טבלאות ספירת מונחים של קורפוס המורכב משני מסמכים בלבד, כפי שהם מופיעים בטבלאות המוצגות בצד שמאל.

החישוב של tf–idf עבור המונח "this" מתבצעת באופן הבא:

בצורתו הגולמית, tf הוא רק התדירות של "this" עבור כל מסמך. בכל מסמך מופיעה המילה "this" פעם אחת; אבל ככל שלמסמך 2 יש יותר מילים (יש לשים לב שמילים מסוימות נספרות פעמיים), התדירות היחסית של אותו מונח קטנה יותר.

\mathrm {tf} ({\mathsf {''this''}},d_{1})={\frac {1}{5}}=0.2

\mathrm {tf} ({\mathsf {''this''}},d_{2})={\frac {1}{7}}\approx 0.14

idf הוא קבוע לכל קורפוס, ומהווה את היחס בין המסמכים הכוללים את המילה "this". במקרה זה, ישנו קורפוס של שני מסמכים, ושניהם כוללים את המילה "this".

\mathrm {idf} ({\mathsf {''this''}},D)=\log \left({\frac {2}{2}}\right)=0

אז tf–idf הוא אפס עבור המילה "this", מה שמרמז שהמילה אינה אינפורמטיבית במיוחד מאחר שהיא מופיעה בכל המסמכים.

\mathrm {tfidf} ({\mathsf {''this''}},d_{1},D)=0.2\times 0=0

\mathrm {tfidf} ({\mathsf {''this''}},d_{2},D)=0.14\times 0=0

המילה "example" מעניינת יותר - היא מופיעה שלוש פעמים, אבל רק במסמך השני:

\mathrm {tf} ({\mathsf {''example''}},d_{1})={\frac {0}{5}}=0

\mathrm {tf} ({\mathsf {''example''}},d_{2})={\frac {3}{7}}\approx 0.429

\mathrm {idf} ({\mathsf {''example''}},D)=\log \left({\frac {2}{1}}\right)=0.301

ולבסוף,

\mathrm {tfidf} ({\mathsf {''example''}},d_{1},D)=\mathrm {tf} ({\mathsf {''example''}},d_{1})\times \mathrm {idf} ({\mathsf {''example''}},D)=0\times 0.301=0

\mathrm {tfidf} ({\mathsf {''example''}},d_{2},D)=\mathrm {tf} ({\mathsf {''example''}},d_{2})\times \mathrm {idf} ({\mathsf {''example''}},D)=0.429\times 0.301\approx 0.129

שימושים

word embedding: הצמדת ערך מספרי למונחים מילוליים, כפי שמתאפשר באמצעות שימוש במדד tf-idf מאפשרת דרך פשוטה ונוחה לייצג מונחים מילוליים באמצעות וקטור. המרה זו, אשר קרויה גם word embedding, מאפשרת הפעלת מניפולציות מתמטיות על מונחים מילוליים, ומהווה את הבסיס לתחום של עיבוד שפה טבעית. במקרה בו משתמשים במדד tf-idf לword embedding, מילים שונות בעלות מרכזיות דומה בתוך כל מסמך יהיו קרובות זו לזו מבחינת ייצוגם המתמטי.

זיהוי מילות עצירה: מילים אשר מופיעות בכל המסמכים בניתוח מתאפיינות במדד idf=0, וכאלה אשר מופיעות ברובם מתאפיינות במדד idf קרוב יחסית לאפס. לפיכך, סינון מילים בעלות מדדי idf או tf-idf נמוכים יחסית מאפשרות לנפות מילים נפוצות, כמו "אֶת" "הוא" "אשר". מילים אלו לרוב אינן מכילות מידע משמעותי, ונהוג לכנותם בעגה של למידת מכונה "מילות עצירה". כתהליך קדם-עיבודי Pre-processing בעיבוד שפה טבעית נהוג להסיר מילות עצירה, מאחר שהן עלולות לשבש ביצועי מודלים לניתוח שפה טבעית.

ראו גם

כריית טקסט

הערות שוליים

^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.

[1] Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.

[1]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית • אוריינות AI • סוכן תבוני • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית (בישראל) • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית • בינה מלאכותית כללית (AGI)
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • יער אקראי • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • פונקציית אקטיבציה • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות • הזיות
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini • קלוד •‏ Perplexity •‏ SearchGPT •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה • מיקרוסופט קופיילוט
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית • השתלטות הבינה המלאכותית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית