INDEX
    Explanations

    design relates to ideal

    New Auto-Interp
    Negative Logits
    واه
    0.36
     जना
    0.35
    ujući
    0.35
    voir
    0.35
    께서
    0.35
     incremento
    0.34
     ہوئے
    0.34
     terzo
    0.34
     conséquence
    0.34
    augmentation
    0.34
    POSITIVE LOGITS
     differs
    0.81
     отличается
    0.79
     является
    0.78
     evokes
    0.69
     отлича
    0.67
     представляет
    0.66
     represents
    0.65
     differ
    0.61
     явля
    0.61
     contains
    0.59
    Act Density 0.008%

    No Known Activations