INDEX
    Explanations

    introduces definitions or explanations

    New Auto-Interp
    Negative Logits
    കളും
    0.44
     beispielsweise
    0.39
    രുവനന്തപു
    0.39
    യിലും
    0.38
    <unused13>
    0.37
    ಥವಾ
    0.37
     বলিয়
    0.36
    などを
    0.36
     নিচের
    0.36
    िखर
    0.35
    POSITIVE LOGITS
    :
    1.68
    1.55
     yakni
    1.40
    1.32
     yaitu
    1.32
    1.29
     iaitu
    1.29
     -
    1.28
     :
    1.24
     namely
    1.11
    Act Density 0.173%

    No Known Activations