INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kwe
    -0.09
     abh
    -0.08
     nhu
    -0.08
    โก
    -0.07
     anb
    -0.07
    ับ
    -0.07
     quella
    -0.07
     ben
    -0.07
     matat
    -0.07
     motives
    -0.07
    POSITIVE LOGITS
    _CB
    0.08
    ord
    0.08
    িস
    0.08
    CB
    0.08
    0.08
    0.08
    0.08
    0.08
    0.08
     duurzaamheid
    0.08
    Act Density 0.017%

    No Known Activations