医療ドメイン特化LLMの性能はどうやって評価する?
医療ドメイン特化LLMの性能はどうやって評価する?
Author: Unknown Author
Date: Unknown Date
Original URL: https://zenn.dev/hellorusk/articles/04a29974138c7b
要約:
- - 医療ドメイン特化LLMの性能評価方法についてのまとめ
- オープンなモデルの例
- BioGPT (2022): GPT-2ベース、PubMedで学習、評価はRelation Extraction系や文書分類系データセット
- ClinicalGPT (2023): BLOOM-7Bベース、中国語モデル、会話データセットでBLEU, ROUGE評価
- PMC-LLaMA (2023): Llamaベース、医学系文書で追加事前学習、評価はMedQA, MedMCQA, PubMedQA
- MedAlpaca (2023): Llamaベース、Webから医療データ収集、評価はMedQAのみ
- ChatDoctor (2023): Llamaベース、オンライン診療サイトからデータ収集、ChatGPTとの類似度をBERTScoreで評価
- BioMedGPT-LM-7B (2023): Llama 2ベース、医学論文で追加事前学習、評価はMedQA, MedMCQA, PubMedQA
- MediTron-7B, 70B (2023): Llama 2ベース、評価データセットにMMLU-Medicalが初登場
- BioMistral (2024): Mistralベース、評価はMMLU-Medical, MedQA, MedMCQA, PubMedQA
- クローズなモデルの例
- Med-PALM (Google DeepMind): MedQA, PubMedQA, MedMCQA, MMLU-Medicalで評価
- MedPrompt (Microsoft): 同様にMedQA, PubMedQA, MedMCQA, MMLU-Medicalを使用
- 2024年初頭の医療ドメイン特化LLMのベンチマーク
- 主流の評価データセット: MedQA, PubMedQA, MedMCQA, MMLU-Medical
- 日本語版の評価ベンチマークの必要性
- 日本語の医療ドメインLLM評価ベンチマークが登場したことを紹介
- リンク: JMED-LLM, JMedBench, japanese-lm-med-harness
コメント
コメントを投稿