我有一些关于为不同的拥抱脸模型标记单词/字符/表情符号的问题。
据我了解,只有当输入句子的标记在模型的标记器训练的标记内时,模型才会在推理过程中表现最佳。
我的问题是:
有没有办法轻松找出特定单词/表情符号是否与模型兼容(包括在模型训练期间)?(在拥抱脸的情况下)
如果在模型训练期间没有包含这个词/表情符号,那么处理这些词/表情符号的最佳方法是什么,这样模型推断将在考虑将这些词/表情符号作为输入的情况下提供最佳输出。(对于 2. 如果可能的话,如果可以在下面我的拥抱脸设置的上下文中回答它会很好)
我目前的设置如下:
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
pre_trained_model = 'facebook/bart-large-mnli'
task = 'zero-shot-classification'
candidate_labels = ['happy', 'sad', 'angry', 'confused']
tokenizer = AutoTokenizer.from_pretrained(pre_trained_model)
model = AutoModelForSequenceClassification.from_pretrained(pre_trained_model)
zero_shot_classifier = pipeline(model=model, tokenizer=tokenizer, task=task)
zero_shot_classifier('today is a good day 😃', candidate_labels=candidate_labels)
任何帮助表示赞赏😃