INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     quat
    -0.07
     ragaz
    -0.06
     nebezpeč
    -0.06
     Evrop
    -0.06
     succès
    -0.06
     ces
    -0.06
    Blur
    -0.06
     Ngoài
    -0.06
     vết
    -0.06
    .module
    -0.06
    POSITIVE LOGITS
     aligned
    0.08
    .cg
    0.07
    ле
    0.07
     align
    0.07
    .ecore
    0.06
     merry
    0.06
    符合
    0.06
     alignment
    0.06
     Lutheran
    0.06
     등장
    0.06
    Act Density 0.010%

    No Known Activations