INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    出版年
    -0.76
    évaluateur
    -0.76
     geweſen
    -0.71
    <unused6>
    -0.71
    <unused17>
    -0.71
    <unused1>
    -0.71
    <unused55>
    -0.71
    sizeCache
    -0.71
    [@BOS@]
    -0.70
    <unused14>
    -0.70
    POSITIVE LOGITS
     born
    0.58
     name
    0.55
     alias
    0.52
     aka
    0.50
     geboren
    0.47
     originally
    0.47
     known
    0.44
     surname
    0.42
     names
    0.40
     naam
    0.40
    Act Density 0.016%

    No Known Activations