INDEX
    Explanations

    new concepts or situations

    New Auto-Interp
    Negative Logits
    比較的
    0.38
    НО
    0.36
    0.36
    тится
    0.35
    0.34
    CER
    0.34
    various
    0.34
    НУ
    0.34
    decreasing
    0.33
    க்கமாக
    0.33
    POSITIVE LOGITS
     new
    3.97
     nieuwe
    3.47
     নতুন
    3.45
     새로운
    3.42
     nuovi
    3.41
     nuevos
    3.39
     новых
    3.39
     neuen
    3.38
     nuove
    3.36
    新的
    3.34
    Act Density 0.091%

    No Known Activations