语言: 英语
许可证: MIT
任务标签: 标记分类
标签:
示例输入:
- 文本: >
以下是使用的配料:番茄酱、芝麻油、奶酪培养物、
玉米粉、植物油、糙米、海盐、番茄、牛奶、洋葱、
蛋黄、浓缩酸橙汁、玉米淀粉、炼乳、香料、
人工香料、红色5号、烘焙咖啡。
- 文本: >
牛肉:每100克250卡路里 鸡肉:每100克165卡路里 三文鱼:每100克206
卡路里 豆腐:每100克76卡路里 扁豆:每100克116卡路里
胡萝卜:每100克41卡路里 菠菜:每100克23卡路里 苹果:每100克52
卡路里 香蕉:每100克89卡路里 橙子:每100克47卡路里
米饭:每100克煮熟130卡路里 意大利面:每100克煮熟131卡路里
面包:每100克265卡路里 橄榄油:每100克884卡路里 黄油:每100克717
卡路里
这是一个专门为营养标签领域的命名实体识别(NER)设计的BERT模型。其主要目标是从文本数据中检测和分类不同的营养成分。通过这种方式,它系统地理解通常出现在营养标签和其他营养材料上的信息。
该模型是作为基准和学习工具创建的,用于训练来自增强数据的模型。
训练数据描述
sgarbi/bert-fda-nutrition-ner
模型的训练数据经过精心策划,来自美国食品药品监督管理局(FDA)的公开数据集。这些数据主要来源于FoodData Central网站,包含各种食品的全面营养信息和标签。
数据来源
- 标签来源: 美国食品药品监督管理局(FDA),FoodData Central。FDA FoodData Central。数据集包括详细的营养数据,如配料表、营养价值、份量大小和其他重要的标签信息。
- Yelp餐厅评论: 使用了来自Hugging Face的Yelp Review Full数据集,并通过Mistral 7B进行通用标记增强,以丰富模型对餐厅相关营养提及的理解。
- 亚马逊食品评论: 类似于Yelp数据集,该模型还结合了来自Hugging Face的Amazon Food Reviews数据集,并通过Mistral 7B增强,提高了其从多样化的食品评论中识别和分类广泛营养信息的能力,这些评论与FDA数据相关联。
预处理和增强步骤
- 提取: 从FDA数据集中提取关键文本数据,包括营养成分和配料表。
- 标准化: 所有文本经过标准化处理以确保一致性,包括转换为小写和去除冗余格式。
- 实体标记: 手动标记重要的营养元素,创建用于训练的标记数据集。这包括宏量营养素、维生素、矿物质和各种特定的膳食成分。
- 分词和格式化: 数据经过分词和格式化,以满足BERT模型的输入要求。
- 引入噪声: 为了增强模型处理现实世界中不完美数据的能力,训练集中引入了故意噪声。这包括:
- 句子交换: 随机交换文本中的句子,以促进模型对不同句子结构的理解。
- 引入拼写错误: 故意插入常见的拼写错误,训练模型识别和处理现实场景中经常遇到的拼写错误,如不准确的文档扫描。
注意事项
- 该模型仅使用食品标签的公开数据进行训练。未使用任何私有或敏感数据。
- 标记任务由mistral.ai提供的Mistral 7B-Instruct执行(https://docs.mistral.ai/)。模型可能在标记数据时出现幻觉,导致分类不精确。
- 该工具仅从文本中提取营养实体;不应用于营养或健康建议。任何营养建议应由合格专家提供。
- 某些食品标签的语言和措辞可能会给模型带来偏见。
- 该模型是为探索BERT架构和NER任务而创建的。
标签映射
label_map = {
0: 'O',
1: 'I-VITAMINS',
2: 'I-STIMULANTS',
3: 'I-PROXIMATES',
4: 'I-PROTEIN',
5: 'I-PROBIOTICS',
6: 'I-MINERALS',
7: 'I-LIPIDS',
8: 'I-FLAVORING',
9: 'I-ENZYMES',
10: 'I-EMULSIFIERS',
11: 'I-DIETARYFIBER',
12: 'I-COLORANTS',
13: 'I-CARBOHYDRATES',
14: 'I-ANTIOXIDANTS',
15: 'I-ALCOHOLS',
16: 'I-ADDITIVES',
17: 'I-ACIDS',
18: 'B-VITAMINS',
19: 'B-STIMULANTS',
20: 'B-PROXIMATES',
21: 'B-PROTEIN',
22: 'B-PROBIOTICS',
23: 'B-MINERALS',
24: 'B-LIPIDS',
25: 'B-FLAVORING',
26: 'B-ENZYMES',
27: 'B-EMULSIFIERS',
28: 'B-DIETARYFIBER',
29: 'B-COLORANTS',
30: 'B-CARBOHYDRATES',
31: 'B-ANTIOXIDANTS',
32: 'B-ALCOHOLS',
33: 'B-ADDITIVES',
34: 'B-ACIDS'
}
以下是模型在提供文本上的一些示例输出:
输入:
'以下是使用的配料:番茄酱、芝麻油、奶酪培养物、玉米粉、植物油、糙米、海盐、番茄、牛奶、洋葱、蛋黄、浓缩酸橙汁、玉米淀粉、炼乳、香料、人工香料、红色5号、烘焙咖啡'
输出:
['CLS', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-CARBOHYDRATES', 'I-CARBOHYDRATES', 'O', 'B-LIPIDS', 'I-LIPIDS', 'O', 'B-PROBIOTICS', 'I-PROBIOTICS', 'O', 'B-CARBOHYDRATES', 'I-CARBOHYDRATES', 'O', 'B-LIPIDS', 'I-LIPIDS', 'O', 'B-CARBOHYDRATES', 'I-CARBOHYDRATES', 'O', 'B-MINERALS', 'I-MINERALS', 'O', 'B-CARBOHYDRATES', 'O', 'B-PROXIMATES', 'O', 'B-CARBOHYDRATES', 'O', 'B-LIPIDS', 'I-LIPIDS', 'I-LIPIDS', 'I-LIPIDS', 'O', 'B-CARBOHYDRATES', 'I-CARBOHYDRATES', 'I-CARBOHYDRATES', 'O', 'B-CARBOHYDRATES', 'I-CARBOHYDRATES', 'I-CARBOHYDRATES', 'O', 'B-PROXIMATES', 'I-PROXIMATES', 'O', 'B-FLAVORING', 'O', 'B-FLAVORING', 'I-FLAVORING', 'O', 'B-COLORANTS', 'I-COLORANTS', 'O', 'B-STIMULANTS', 'I-STIMULANTS', 'O', 'I-STIMULANTS']
GitHub
https://github.com/ESgarbi/bert-fda-nutrition-ner