INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Gospels
    0.46
     observé
    0.45
    онів
    0.45
    0.43
    文學
    0.42
    直径
    0.42
     monographs
    0.42
     durée
    0.42
    0.42
    0.41
    POSITIVE LOGITS
     כמו
    0.51
    4
    0.47
    r
    0.45
     gibi
    0.44
    9
    0.44
     is
    0.43
     نفسه
    0.43
    7
    0.43
    ital
    0.42
    eler
    0.42
    Act Density 0.002%

    No Known Activations