INDEX
    Explanations

    self interactions

    New Auto-Interp
    Negative Logits
     metod
    -0.07
    -but
    -0.07
     estimation
    -0.07
     '/';↵
    -0.07
    HD
    -0.07
    Theta
    -0.06
     shifts
    -0.06
     ninth
    -0.06
    وینت
    -0.06
     performances
    -0.06
    POSITIVE LOGITS
     ai
    0.07
     bản
    0.07
     Αθή
    0.07
    	Vk
    0.06
    、それ
    0.06
    Insp
    0.06
    漫画
    0.06
     lưu
    0.06
     lanes
    0.06
    ungen
    0.06
    Act Density 0.035%

    No Known Activations