INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     及び
    0.40
     devrait
    0.37
    大丈夫
    0.37
    ophers
    0.37
    ומים
    0.36
     تاکید
    0.36
    VII
    0.35
    consciousness
    0.35
     впоследствии
    0.35
    生意
    0.35
    POSITIVE LOGITS
    首先
    1.34
     প্রথমে
    1.23
     먼저
    1.20
    まず
    1.18
     首先
    1.17
     まず
    1.16
     primero
    1.10
     сначала
    1.09
    先把
    1.09
     zunächst
    1.05
    Act Density 0.119%

    No Known Activations