INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ור
    0.58
    و
    0.57
    מ
    0.55
    ו
    0.53
    م
    0.49
    рав
    0.49
    此刻
    0.48
    us
    0.48
    ített
    0.47
    м
    0.46
    POSITIVE LOGITS
     penguins
    0.59
     cyclist
    0.54
     કા
    0.52
     ريا
    0.49
     กลุ่ม
    0.49
     granddaughters
    0.49
     penguin
    0.48
     bicycle
    0.48
     医学
    0.48
     नाइट्रोजन
    0.47
    Act Density 0.000%

    No Known Activations