医療ドメイン特化LLMの性能はどうやって評価する?

医療ドメイン特化LLMの性能はどうやって評価する?

Author: Unknown Author

Date: Unknown Date

Original URL: https://zenn.dev/hellorusk/articles/04a29974138c7b

要約:

    - 医療ドメイン特化LLMの性能評価方法についてのまとめ - オープンなモデルの例 - BioGPT (2022): GPT-2ベース、PubMedで学習、評価はRelation Extraction系や文書分類系データセット - ClinicalGPT (2023): BLOOM-7Bベース、中国語モデル、会話データセットでBLEU, ROUGE評価 - PMC-LLaMA (2023): Llamaベース、医学系文書で追加事前学習、評価はMedQA, MedMCQA, PubMedQA - MedAlpaca (2023): Llamaベース、Webから医療データ収集、評価はMedQAのみ - ChatDoctor (2023): Llamaベース、オンライン診療サイトからデータ収集、ChatGPTとの類似度をBERTScoreで評価 - BioMedGPT-LM-7B (2023): Llama 2ベース、医学論文で追加事前学習、評価はMedQA, MedMCQA, PubMedQA - MediTron-7B, 70B (2023): Llama 2ベース、評価データセットにMMLU-Medicalが初登場 - BioMistral (2024): Mistralベース、評価はMMLU-Medical, MedQA, MedMCQA, PubMedQA - クローズなモデルの例 - Med-PALM (Google DeepMind): MedQA, PubMedQA, MedMCQA, MMLU-Medicalで評価 - MedPrompt (Microsoft): 同様にMedQA, PubMedQA, MedMCQA, MMLU-Medicalを使用 - 2024年初頭の医療ドメイン特化LLMのベンチマーク - 主流の評価データセット: MedQA, PubMedQA, MedMCQA, MMLU-Medical - 日本語版の評価ベンチマークの必要性 - 日本語の医療ドメインLLM評価ベンチマークが登場したことを紹介 - リンク: JMED-LLM, JMedBench, japanese-lm-med-harness
screenshot

コメント

このブログの人気の投稿

ある中学校生徒達の医療AIに関するQ&A(2025年1月版)

AI画像診断:現状と課題、そして未来 (2025年1月版)

2026年03月18日のAIニュースまとめ