INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nahe
    -0.08
     Cay
    -0.08
     chalk
    -0.08
    chalk
    -0.07
    учы
    -0.07
     ಅಂಗ
    -0.07
    -0.07
     Diary
    -0.07
     phần
    -0.07
     Chill
    -0.07
    POSITIVE LOGITS
     alike
    0.09
    0.08
    Offsets
    0.08
     Bahnhof
    0.08
     سرا
    0.08
     begge
    0.08
     Бал
    0.07
    0.07
    主人
    0.07
    0.07
    Act Density 0.020%

    No Known Activations