INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     doubt
    1.05
     duda
    0.96
     заключается
    0.95
     dúvida
    0.90
     nyeri
    0.89
     wordt
    0.83
    ન્મ
    0.83
     judi
    0.82
     wonder
    0.82
    سرائيل
    0.82
    POSITIVE LOGITS
     everytime
    0.86
    เพราะ
    0.70
    because
    0.67
     потому
    0.66
    Dist
    0.66
     নিক
    0.65
     Потому
    0.65
     because
    0.65
     لأن
    0.63
     whereas
    0.62
    Act Density 0.009%

    No Known Activations