INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     behave
    -0.09
     embrace
    -0.08
     obey
    -0.08
    _visit
    -0.08
     visit
    -0.07
     (*(
    -0.07
     Visit
    -0.07
     לג
    -0.07
     violate
    -0.07
     cherish
    -0.07
    POSITIVE LOGITS
     beslag
    0.09
    .Amount
    0.09
     Aufwand
    0.09
     sejumlah
    0.08
    iyya
    0.08
     hoeveelheid
    0.08
    _REQUIRED
    0.08
     огромное
    0.08
     талап
    0.08
     akeh
    0.08
    Act Density 0.007%

    No Known Activations