Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.
Quality of Research Articles and Neural Language Models : Applications to the Biomedical Domain
0
Zitationen
1
Autoren
2025
Jahr
Abstract
La qualité des articles de recherche dans le domaine biomédical est importante, elle permet par exemple d'assurer une prise de décision clinique correcte par les médecins. Cependant, l'augmentation du nombre d'articles publiés chaque année rend l'évaluation de cette qualité par des experts difficile. Ainsi, l'utilisation de méthodes de traitement automatique des langues (TAL) peut s'avérer utile pour les assister. Cette qualité peut également être un enjeu pour l'apprentissage des modèles utilisés en TAL pour les tâches du domaine biomédical. En effet, ces modèles sont souvent ajustés sur de larges corpus d'articles de recherche du domaine afin d'obtenir de meilleures performances pour les tâches spécifiques au domaine. Il est donc important de vérifier quel type de critères de qualité peut avoir un impact lors de l'adaptation de ces modèles. Ainsi, dans cette thèse, nous nous intéressons dans un premier temps à la détection automatique de problèmes de qualité dans les articles à l'aide de modèles neuronaux, puis dans un second temps à la sélection de données pour l'entraînement de ces modèles. Pour la détection de critères de qualité, nous nous penchons particulièrement sur les articles de recherche rapportant des essais cliniques. Nous tentons d'identifier des problèmes n'ayant pas été explorés auparavant ou tentons d'améliorer les méthodes employées. Ces problèmes sont la cohérence entre un article et le registre associé, ainsi que la complétude de l'article. Pour la cohérence des articles, nous affinons des encodeurs bidirectionnels (du domaine général et adaptés au domaine médical) sur des corpus spécifiques aux tâches considérées et produisons un système utilisant ces modèles. Nous développons ensuite une interface graphique pour aider les experts du domaine à accéder et visualiser nos méthodes. Ensuite, pour détecter la complétude, nous utilisons de larges modèles de langue autorégressifs (en testant des modèles pour le domaine général ou biomédical) en reformulant la tâche d'évaluation de critères de qualité en tant que tâche de question-réponse et en tirant parti des méthodes d'apprentissage en contexte. Enfin, nous sélectionnons des données dans un corpus d'articles de recherche biomédicale afin de préentraîner un modèle de langue de type encodeur bidirectionnel pour son adaptation au domaine biomédical, en utilisant un critère de confiance : l'impact des journaux.