INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    in
    1.67
    on
    1.58
    ב
    1.46
    г
    1.41
    يل
    1.37
    am
    1.35
    ur
    1.35
    1.34
    ام
    1.32
    o
    1.29
    POSITIVE LOGITS
    ;
    1.22
     hom
    1.19
     Hom
    1.17
     homo
    1.16
     Homo
    1.10
    ‌ای
    1.09
    hom
    1.04
     HOM
    0.98
    ktion
    0.94
    ри
    0.93
    Act Density 0.007%

    No Known Activations