OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 19.03.2026, 23:51

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical

2020·0 Zitationen
Volltext beim Verlag öffnen

0

Zitationen

1

Autoren

2020

Jahr

Abstract

Les modeles BERT employes en domaine specialise semblent tous decouler d’une strategie assez simple : utiliser le modele BERT originel comme initialisation puis poursuivre l’entrainement de celuici sur un corpus specialise. Il est clair que cette approche aboutit a des modeles plutot performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il parait raisonnable de penser qu’entrainer un modele directement sur un corpus specialise, en employant un vocabulaire specialise, puisse aboutir a des plongements mieux adaptes au domaine et donc faire progresser les performances. Afin de tester cette hypothese, nous entrainons des modeles BERT a partir de zero en testant differentes configurations melant corpus generaux et corpus medicaux et biomedicaux. Sur la base d’evaluations menees sur quatre tâches differentes, nous constatons que le corpus de depart influence peu la performance d’un modele BERT lorsque celui-ci est re-entraine sur un corpus medical.

Ähnliche Arbeiten