INDEX
    Explanations

    adjective noun pairings

    New Auto-Interp
    Negative Logits
    注意事项
    0.74
    unicorn
    0.71
    ミュニ
    0.69
    शिक
    0.68
    ㅋㅋㅋㅋㅋㅋㅋㅋ
    0.66
    NC
    0.66
    パラメータ
    0.64
     தொடங்கி
    0.64
    imbangan
    0.63
    מק
    0.63
    POSITIVE LOGITS
     Peru
    0.83
     Spain
    0.78
    Spain
    0.76
     Lea
    0.74
     hive
    0.73
     Dems
    0.72
    ětí
    0.72
     bees
    0.72
     bee
    0.71
     stars
    0.71
    Act Density 0.901%

    No Known Activations