INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     लगभग
    0.46
     ആരംഭ
    0.41
     extremamente
    0.41
    ようになる
    0.40
    এই
    0.40
     mittlerweile
    0.40
    此同时
    0.39
     შემდეგ
    0.38
    תר
    0.38
     রয়েছে
    0.38
    POSITIVE LOGITS
     instead
    0.78
     вместо
    0.77
     대신
    0.77
    instead
    0.74
    Instead
    0.72
    代わりに
    0.66
     Instead
    0.66
     invece
    0.62
     பதிலாக
    0.61
     statt
    0.61
    Act Density 0.068%

    No Known Activations