数据挖掘 - 处理 HuggingFace 模型的令牌 - 吾爱随笔录

我有一些关于为不同的拥抱脸模型标记单词/字符/表情符号的问题。

据我了解，只有当输入句子的标记在模型的标记器训练的标记内时，模型才会在推理过程中表现最佳。

我的问题是：

有没有办法轻松找出特定单词/表情符号是否与模型兼容（包括在模型训练期间）？（在拥抱脸的情况下）
如果在模型训练期间没有包含这个词/表情符号，那么处理这些词/表情符号的最佳方法是什么，这样模型推断将在考虑将这些词/表情符号作为输入的情况下提供最佳输出。（对于 2. 如果可能的话，如果可以在下面我的拥抱脸设置的上下文中回答它会很好）

我目前的设置如下：

from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
pre_trained_model = 'facebook/bart-large-mnli'
task = 'zero-shot-classification'
candidate_labels = ['happy', 'sad', 'angry', 'confused']
tokenizer = AutoTokenizer.from_pretrained(pre_trained_model)
model = AutoModelForSequenceClassification.from_pretrained(pre_trained_model)
zero_shot_classifier = pipeline(model=model, tokenizer=tokenizer, task=task)

zero_shot_classifier('today is a good day 😃', candidate_labels=candidate_labels)

任何帮助表示赞赏😃

text = 'today is a good day 😃' ids2string = lambda ids: tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(ids)) ids2string(tokenizer(text)['input_ids']) > <s>today is a good day 😃</s>