INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <unused483>
    0.19
    <unused287>
    0.18
    gdock
    0.18
    <unused369>
    0.18
    0.18
    imposed
    0.17
    organised
    0.17
     expropri
    0.17
    0.17
    ovjek
    0.17
    POSITIVE LOGITS
     
    0.28
     cinco
    0.21
     two
    0.19
     five
    0.19
     three
    0.18
     V
    0.18
     ~
    0.18
     Q
    0.17
     fünf
    0.17
    -
    0.17
    Act Density 0.005%

    No Known Activations