INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    م
    1.50
    یر
    1.26
    1.08
    ین
    1.07
    ھی
    1.05
    ک
    1.03
    ون
    1.02
    ம்
    1.01
    ных
    0.95
    んですよね
    0.95
    POSITIVE LOGITS
     heat
    1.26
     Heat
    1.06
     Wärm
    1.02
     HEAT
    1.00
    Heat
    0.98
    n
    0.97
    nél
    0.96
     Heiz
    0.94
    K
    0.93
    heat
    0.93
    Act Density 0.025%

    No Known Activations