INDEX
    Explanations

    describes negative actions or states

    New Auto-Interp
    Negative Logits
     ক্যাথোডে
    0.46
    id
    0.42
    ³
    0.42
    міна
    0.41
    бычно
    0.41
    манов
    0.40
    Servers
    0.40
    ման
    0.39
    RGB
    0.39
    ემ
    0.39
    POSITIVE LOGITS
     Beide
    0.55
     Diese
    0.46
    imsu
    0.45
    ابق
    0.45
    大きい
    0.44
     teie
    0.42
     beide
    0.42
     सारी
    0.42
     demikian
    0.42
     Kleid
    0.41
    Act Density 0.001%

    No Known Activations