Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical

2020·0 Zitationen

Volltext beim Verlag öffnen

Zitationen

Autoren

2020

Jahr

Abstract

Les modeles BERT employes en domaine specialise semblent tous decouler d’une strategie assez simple : utiliser le modele BERT originel comme initialisation puis poursuivre l’entrainement de celuici sur un corpus specialise. Il est clair que cette approche aboutit a des modeles plutot performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il parait raisonnable de penser qu’entrainer un modele directement sur un corpus specialise, en employant un vocabulaire specialise, puisse aboutir a des plongements mieux adaptes au domaine et donc faire progresser les performances. Afin de tester cette hypothese, nous entrainons des modeles BERT a partir de zero en testant differentes configurations melant corpus generaux et corpus medicaux et biomedicaux. Sur la base d’evaluations menees sur quatre tâches differentes, nous constatons que le corpus de depart influence peu la performance d’un modele BERT lorsque celui-ci est re-entraine sur un corpus medical.

Autoren

Hicham El Boukkouri

Institutionen

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur(FR)

Themen

Artificial Intelligence in Healthcare and Education

Volltext beim Verlag öffnen

Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical

Abstract

Ähnliche Arbeiten

Autoren

Institutionen

Themen