INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    gate
    -0.08
    τέ
    -0.07
    ути
    -0.07
    '];
    -0.06
     kalk
    -0.06
    ’:
    -0.06
     correspond
    -0.06
     impossible
    -0.06
    ale
    -0.06
    ”。
    -0.06
    POSITIVE LOGITS
     ($
    0.08
     (\
    0.08
    ="{{$
    0.07
     soph
    0.07
     [$
    0.07
    {$
    0.07
     Warsaw
    0.07
     '$
    0.07
     citiz
    0.07
    788
    0.07
    Act Density 0.004%

    No Known Activations