INDEX
    Explanations

    start of turn greetings or introductions

    New Auto-Interp
    Negative Logits
     فی
    0.63
     یا
    0.57
     می‌شود
    0.57
     nhàng
    0.57
    što
    0.57
     می‌کند
    0.52
     ಸ್ಥ
    0.52
     πό
    0.52
     ممکن
    0.51
    いますが
    0.50
    POSITIVE LOGITS
     are
    0.71
    1
    0.66
    0.66
    {
    0.62
    с
    0.59
     be
    0.58
    0.58
    س
    0.57
    í
    0.57
    н
    0.55
    Act Density 0.263%

    No Known Activations