INDEX
    Explanations

    proper nouns and specific terms

    New Auto-Interp
    Negative Logits
    Poznám
    -1.84
    子が
    -1.80
    Související
    -1.64
    Obsah
    -1.63
    ΙΚ
    -1.63
    Postup
    -1.63
    』『
    -1.61
     این
    -1.60
     ſon
    -1.54
     reyes
    -1.53
    POSITIVE LOGITS
    なんだろう
    1.59
    べし
    1.46
    なのかな
    1.45
    1.44
     Можно
    1.42
    際は
    1.38
    ようだ
    1.38
    際には
    1.37
    つもり
    1.37
    様な
    1.37
    Act Density 0.948%

    No Known Activations