INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ت
    0.67
    ד
    0.67
    0.62
    ه
    0.60
    צב
    0.59
    ی
    0.59
    د
    0.59
    ס
    0.59
     سپورټ
    0.58
    ה
    0.58
    POSITIVE LOGITS
    。“
    0.63
     be
    0.63
    。(
    0.62
     vårt
    0.57
    。【
    0.54
     gjorde
    0.52
     hvad
    0.52
    0.51
     før
    0.51
    en
    0.50
    Act Density 0.001%

    No Known Activations