语言:
- 英文
缩略图: 用于社交分享的缩略图链接
标签:
- 地名识别
- 语言模型
- 地理空间理解
- 地理语言模型
许可证: CC-BY-NC-2.0
数据集:
- GeoWebNews
评估指标:
- F1分数
流水线标签: 标记分类
示例:
- 文本: >-
明尼阿波利斯,正式名称为明尼阿波利斯市,是明尼苏达州的一个城市,也是亨内平县的首府。根据2020年的人口普查,人口为429,954人,使其成为明尼苏达州最大的城市和美国第46大人口最多的城市。绰号为“湖泊之城”的明尼阿波利斯水资源丰富,拥有十三个湖泊、湿地、密西西比河、小溪和瀑布。
- 文本: >-
洛杉矶,常以其缩写L.A.称呼,是加利福尼亚州人口最多的城市,也是美国人口最多的州。它是南加州的商业、金融和文化中心。截至2020年,洛杉矶是美国仅次于纽约市的第二人口最多的城市,市区内约有390万居民。
GeoLM地名识别模型卡片
一个用于从句子中检测地名(即地点名称)的语言模型。我们在全球范围的OpenStreetMap(OSM)、WikiData和Wikipedia数据上预训练GeoLM模型,然后在GeoWebNews数据集上微调以进行地名识别任务。
模型详情
模型描述
在全球范围的OpenStreetMap(OSM)、WikiData和Wikipedia数据上预训练GeoLM模型,然后在GeoWebNews数据集上微调以进行地名识别任务。
- 模型类型: 用于地理空间理解的语言模型
- 语言(自然语言处理): 英文
- 许可证: CC-BY-NC-2.0
- 父模型: https://huggingface.co/zekun-li/geolm-base-cased
用途
这是一个用于地名检测任务的微调GeoLM模型。输入是句子,输出是检测到的地名。
使用此模型,请参考以下代码。
- 选项1: 将权重加载到BERT模型(与右侧面板演示相同的过程)
import torch
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = "zekun-li/geolm-base-toponym-recognition"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
input_sentence = "明尼阿波利斯,正式名称为明尼阿波利斯市,是明尼苏达州的一个城市,也是亨内平县的首府。"
tokens = tokenizer.encode(input_sentence, return_tensors="pt")
outputs = model(tokens)
predicted_labels = torch.argmax(outputs.logits, dim=2)
predicted_labels = predicted_labels.detach().cpu().numpy()
predicted_labels = [model.config.id2label[label] for label in predicted_labels[0]]
print(predicted_labels)
即将推出
训练详情
训练数据
GeoWebNews(感谢Gritta等人)
下载链接: https://github.com/milangritta/Pragmatic-Guide-to-Geoparsing-Evaluation/blob/master/data/GWN.xml
训练过程
速度、大小、时间
需要更多信息
评估
测试数据、指标和结果
测试数据
需要更多信息
指标
需要更多信息
结果
需要更多信息
技术规格 [可选]
模型架构和目标
需要更多信息
计算基础设施
需要更多信息
偏见、风险和限制
大量研究探讨了语言模型的偏见和公平性问题(参见,例如,Sheng等人(2021)和Bender等人(2021))。模型生成的预测可能包括针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
引用
BibTeX:
需要更多信息
APA:
需要更多信息
模型卡片作者 [可选]