INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    т
    3.51
    ה
    3.34
    ت
    3.10
    תה
    2.60
    تری
    2.56
     цей
    2.51
     tind
    2.49
    לים
    2.49
     måde
    2.39
    2.39
    POSITIVE LOGITS
    ان
    2.89
    বারের
    2.59
     나서
    2.59
    mente
    2.54
    ging
    2.50
    ά
    2.39
    ly
    2.38
    ចំ
    2.34
    textfield
    2.31
    ֲ
    2.30
    Act Density 0.006%

    No Known Activations