INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     silenc
    -0.09
    krieg
    -0.08
    ("$.
    -0.08
     polít
    -0.08
    hop
    -0.08
     Modell
    -0.08
     skyrock
    -0.08
     Möbel
    -0.08
     Frankreich
    -0.07
     Frankrijk
    -0.07
    POSITIVE LOGITS
    0.07
    BW
    0.07
     వె
    0.07
     antar
    0.07
    0.07
     podendo
    0.07
    -vis
    0.07
    	bw
    0.07
     thereof
    0.07
    ्ट्रेल
    0.07
    Act Density 0.030%

    No Known Activations