INDEX
    Explanations

    phrases indicating initial actions or prompts to begin something

    まず / もう / とりあえず

    New Auto-Interp
    Negative Logits
     vč
    -0.51
    ModelAdmin
    -0.44
     vacacionales
    -0.43
     egyéb
    -0.43
    genodigd
    -0.43
     tidligere
    -0.40
    earlier
    -0.38
     gemeint
    -0.38
     telefónica
    -0.37
     koła
    -0.37
    POSITIVE LOGITS
    まず
    1.69
    まずは
    1.49
    とにかく
    0.96
    やはり
    0.96
    とりあえず
    0.92
    ぜひ
    0.87
    やっぱり
    0.84
    はじめに
    0.83
    首先
    0.76
    unächst
    0.66
    Act Density 0.005%

    No Known Activations