Skip to content

Latest commit

 

History

History
68 lines (47 loc) · 5.69 KB

README-spa.md

File metadata and controls

68 lines (47 loc) · 5.69 KB

BETO: Spanish BERT

BETO es un modelo BERT entrenado sobre un gran corpus en Español. BETO es de tamaño similar a Bert-Base y fue entrenado con la técnica Whole Word Masking. A continuación, encontrarás checkpoints para Tensorflow y Pytorch de las versiones uncased y cased, así como algunos resultados de pruebas comparativas en Español que comparan BETO con Multilingual BERT, así como otros modelos (no BERT-Based).

Download

HuggingFace Model Repository
BETO uncased dccuchile/bert-base-spanish-wwm-uncased
BETO cased dccuchile/bert-base-spanish-wwm-cased

Todos los modelos utilizan un vocabulario de aproximadamente 31.000 subpalabras BPE construidas con SentencePiece y fueron entrenados para 2 millones de steps.

Benchmarks

La siguiente tabla muestra algunos resultados BETO en la versión en español de cada tarea. Comparamos BETO (cased y uncased) con los mejores resultados de Multilingual BERT que encontramos en la literatura (a octubre del 2019). La tabla también muestra algunos métodos alternativos para las mismas tareas (no necesariamente BERT-based). Las referencias de todos los métodos se pueden encontrar aquí.

Task BETO-cased BETO-uncased Best Multilingual BERT Other results
POS 98.97 98.44 97.10 [2] 98.91 [6], 96.71 [3]
NER-C 88.43 82.67 87.38 [2] 87.18 [3]
MLDoc 95.60 96.12 95.70 [2] 88.75 [4]
PAWS-X 89.05 89.55 90.70 [8]
XNLI 82.01 80.15 78.50 [2] 80.80 [5], 77.80 [1], 73.15 [4]

Example of use

Para obtener más detalles sobre cómo usar BETO, puede visitar la biblioteca 🤗Huggingface Transformers, comenzando por la Quickstart section. Se puede acceder a los modelos BETO simplemente como 'dccuchile/bert-base-spanish-wwm-cased' y 'dccuchile/bert-base-spanish-wwm-uncased' utilizando la biblioteca Transformers. Un ejemplo de como usar los modelos en esta página se puede encontrar, en este colab notebook.

Acknowledgments

Agradecemos a Adereso por brindar amablemente apoyo para entrenar BETO-uncased, y el Millennium Institute for Foundational Research on Data que brindó apoyo para el entrenamiento de BETO-cased. También gracias a Google por ayudarnos con el programa TensorFlow Research Cloud.

Citation

Spanish Pre-Trained BERT Model and Evaluation Data

Para citar este recurso en una publicación por favor use lo siguiente:

@inproceedings{CaneteCFP2020,
  title={Spanish Pre-Trained BERT Model and Evaluation Data},
  author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
  booktitle={PML4DC at ICLR 2020},
  year={2020}
}

License Disclaimer

La licencia CC BY 4.0 describe mejor nuestras intenciones para nuestro trabajo. Sin embargo, no estamos seguros de que todos los conjuntos de datos utilizados para entrenar BETO tengan licencias compatibles con CC BY 4.0 (especialmente para uso comercial). Por favor, use a su propia discreción y verifique que las licencias de los recursos de texto originales coincidan con sus necesidades.

References