INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Although
    0.44
     শুধুমাত্র
    0.44
     প্রথমে
    0.42
     فقط
    0.41
     ആദ്യ
    0.41
    竟然
    0.41
     केवल
    0.40
    τε
    0.40
     इसे
    0.38
     फक्त
    0.38
    POSITIVE LOGITS
     различных
    0.57
    各种
    0.57
    various
    0.57
    Various
    0.56
     various
    0.56
    さまざまな
    0.55
    様々な
    0.54
    いろいろ
    0.54
    各種
    0.52
     многих
    0.51
    Act Density 0.049%

    No Known Activations