BETO es un modelo BERT entrenado sobre un gran corpus en Español. BETO es de tamaño similar a Bert-Base y fue entrenado con la técnica Whole Word Masking. A continuación, encontrarás checkpoints para Tensorflow y Pytorch de las versiones uncased y cased, así como algunos resultados de pruebas comparativas en Español que comparan BETO con Multilingual BERT, así como otros modelos (no BERT-Based).
HuggingFace Model Repository | |
---|---|
BETO uncased | dccuchile/bert-base-spanish-wwm-uncased |
BETO cased | dccuchile/bert-base-spanish-wwm-cased |
Todos los modelos utilizan un vocabulario de aproximadamente 31.000 subpalabras BPE construidas con SentencePiece y fueron entrenados para 2 millones de steps.
La siguiente tabla muestra algunos resultados BETO en la versión en español de cada tarea. Comparamos BETO (cased y uncased) con los mejores resultados de Multilingual BERT que encontramos en la literatura (a octubre del 2019). La tabla también muestra algunos métodos alternativos para las mismas tareas (no necesariamente BERT-based). Las referencias de todos los métodos se pueden encontrar aquí.
Task | BETO-cased | BETO-uncased | Best Multilingual BERT | Other results |
---|---|---|---|---|
POS | 98.97 | 98.44 | 97.10 [2] | 98.91 [6], 96.71 [3] |
NER-C | 88.43 | 82.67 | 87.38 [2] | 87.18 [3] |
MLDoc | 95.60 | 96.12 | 95.70 [2] | 88.75 [4] |
PAWS-X | 89.05 | 89.55 | 90.70 [8] | |
XNLI | 82.01 | 80.15 | 78.50 [2] | 80.80 [5], 77.80 [1], 73.15 [4] |
Para obtener más detalles sobre cómo usar BETO, puede visitar la biblioteca 🤗Huggingface Transformers, comenzando por la Quickstart section. Se puede acceder a los modelos BETO simplemente como 'dccuchile/bert-base-spanish-wwm-cased'
y 'dccuchile/bert-base-spanish-wwm-uncased'
utilizando la biblioteca Transformers. Un ejemplo de como usar los modelos en esta página se puede encontrar, en este colab notebook.
Agradecemos a Adereso por brindar amablemente apoyo para entrenar BETO-uncased, y el Millennium Institute for Foundational Research on Data que brindó apoyo para el entrenamiento de BETO-cased. También gracias a Google por ayudarnos con el programa TensorFlow Research Cloud.
Spanish Pre-Trained BERT Model and Evaluation Data
Para citar este recurso en una publicación por favor use lo siguiente:
@inproceedings{CaneteCFP2020,
title={Spanish Pre-Trained BERT Model and Evaluation Data},
author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
booktitle={PML4DC at ICLR 2020},
year={2020}
}
La licencia CC BY 4.0 describe mejor nuestras intenciones para nuestro trabajo. Sin embargo, no estamos seguros de que todos los conjuntos de datos utilizados para entrenar BETO tengan licencias compatibles con CC BY 4.0 (especialmente para uso comercial). Por favor, use a su propia discreción y verifique que las licencias de los recursos de texto originales coincidan con sus necesidades.
- [1] Original Multilingual BERT
- [2] Multilingual BERT on "Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT"
- [3] Multilingual BERT on "How Multilingual is Multilingual BERT?"
- [4] LASER
- [5] XLM (MLM+TLM)
- [6] UDPipe on "75 Languages, 1 Model: Parsing Universal Dependencies Universally"
- [7] Multilingual BERT on "Sequence Tagging with Contextual and Non-Contextual Subword Representations: A Multilingual Evaluation"
- [8] Multilingual BERT on "PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification"