INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    etas
    0.35
    0.35
    ロッパ
    0.35
     պատ
    0.34
     آئینہ
    0.34
     župan
    0.34
     እንደሚ
    0.34
    HARAD
    0.34
     nối
    0.33
    φη
    0.32
    POSITIVE LOGITS
     core
    4.59
     Core
    4.25
    core
    4.19
    Core
    4.19
     cores
    3.84
    核心
    3.81
     CORE
    3.67
    CORE
    3.52
    コア
    3.48
    cores
    3.08
    Act Density 0.168%

    No Known Activations