Skip to content

请问wwm不适用于生成mlm+nsp格式的数据吗? #362

Open
@dr-GitHub-account

Description

运行process.py生成数据时,--data_processor默认是'bert',这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时,发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP],该函数返回的tokens_index, src并不能准确反映整词掩码,主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下,在设置wwm接口的时候,是不是没有考虑生成mlm+nsp格式的数据,只能用于--data_processor设置为'mlm'的情况?

Activity

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions