医薬品・医療機器 GxP CSV要件に応える
コンサルティングサービス

NEWS

医療機器開発のための優れた機械学習実践(GMLP):FDA、カナダ保健省、MHRAによる指針Good Machine Learning Practice (GMLP) for Medical Device Development: Guiding Principles by FDA, Health Canada, and MHRA

2019年4月から FDAにより検討が始まったGMLP(Good Machine Learning Practice)は、最初にFDAの基本的な考え方が提示され、各ステークホルダからの GMLPに対する Public Comments の募集が行われました(*4)。また、GMLPの特定分野(画像解析へのML-AIの適用)での Workshop Sessionが開催され関連する医療現場と医療機器メーカでの意見交換も行われました(*3)。 そして2021年9月22日には、GMLPの規制当局からの施行に向けての Action Planの提示がありました (*2)。なお、これまでのFDA GMLPに関する動きを Newsletter  Vol-3 No-6でサマリーしてありますので、以下のURLからご参照ください(*1)

さて、今回はこれまでの FDAの検討を踏まえて、さらにカナダ保健省(Health Canada)と英国医薬品庁(MHRA)との共同で GMLP  10-指針原則(Guiding Principles)が発出されました。今回はその速報として10-指針原則(日・英:original)を示します。

Good Machine Learning Practice (GMLP) for Medical Device Development: Guiding Principles by FDA, Health Canada, and MHRA  [27-Oct.2021]

米国食品医薬品局 (FDA) 、カナダ保健省、英国医薬品庁 (MHRA) は共同で、Good Machine Learning Practice (GMLP) の策定に役立つ10の基本ガイドラインを規定した。 (2021年10月27日)

米国食品医薬品局 (FDA) 、カナダ保健省、英国医薬品庁 (MHRA) は共同で、Good Machine Learning Practice (GMLP) の策定に役立つ10の基本ガイドラインを規定した。これらのガイドラインは、人工知能 (AI) と機械学習 (ML) を利用した安全で効果的かつ高品質な医療機器の普及に有用となる。

Good Machine Learning Practice (GMLP) for Medical Device Development: Guiding Principles by FDA, Health Canada, and MHRA [Content current as of: 10/27/2021]

The U.S. Food and Drug Administration (FDA), Health Canada, and the United Kingdom’s Medicines and Healthcare products Regulatory Agency (MHRA) have jointly identified 10 guiding principles that can inform the development of Good Machine Learning Practice (GMLP). These guiding principles will help promote safe, effective, and high-quality medical devices that use artificial intelligence and machine learning (AI/ML).
https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles?utm_medium=email&utm_source=govdelivery


指針原則(Guiding Principles) (Reference Translated by HiroPharmaConsulting Co., Ltd.)

                                         (Note: If you plan to take action based on these guidelines, be sure to refer to the original guidelines in English at FDA Web Site.)
  1. 総合的な製品ライフサイクルを通じて学際的な専門知識を活用すること: モデルの臨床ワークフローへの意図された統合、および望ましい利点と関連する患者リスクを深く理解することで、ML対応の医療機器が安全かつ効果的であり、機器のライフサイクルを通じて臨床的に意味のあるニーズに対応することができる。
  2. 優れたソフトウェアエンジニアリングとセキュリティプラクティスを実装すること: モデル設計は、優れたソフトウェアエンジニアリングのプラクティス、データ品質保証、データ管理、堅牢なサイバーセキュリティのプラクティスなどの「基本」 に注意して実装する。これらのプラクティスには、設計、実装、およびリスク管理の決定と根拠を適切に把握して伝達することができ、データの完全性と整合性を保証する、体系的なリスク管理と設計プロセスが含まれる。
  3. 臨床試験参加者とデータセットは対象患者の集団を代表すること: データ収集プロトコルは、対象患者集団の関連する特性(例えば、年齢、性別、性別、人種、民族の観点から)、使用及び測定入力が、臨床試験並びに訓練及び試験データセットにおいて適切なサイズのサンプルで十分に計画され、結果を対象集団に合理的に一般化できることを保証すべきである。これは、あらゆるバイアスを管理し、対象となる患者集団全体で適切かつ一般化可能なパフォーマンスを促進し、有用性を評価し、モデルのパフォーマンスが低下する可能性のある状況を特定するために重要である。
  4. トレーニング(学習)データセットはテストセットから独立すること: トレーニングデータセットとテストデータセットは、互いに適切に独立しているように選択され、維持する。患者、データ収集、および部位因子を含む全ての潜在的依存源を考慮し、独立性を確保するために対処する。
  5. 選択された参照データセットは、利用可能な最良の方法に基づくようにすること: 参照データセットを開発するための受け入れられた利用可能な最良の方法(すなわち、参照基準)は、臨床的に関連性があり、十分に特徴づけられたデータが収集され、参照の限界が理解されることを保証する。利用可能な場合は、対象となる患者集団全体にわたるモデルの堅牢性と一般化可能性を促進し、実証する、モデル開発とテストにおける受け入れられた参照データセットが使用する。
  6. モデル設計は利用可能なデータに合わせて調整され、医療機器デバイスの使用目的を反映すること: モデル設計は利用可能なデータに適しており、オーバーフィット、パフォーマンス低下、セキュリティリスクなどの既知のリスクの積極的な軽減をサポートする。本製品に関連する臨床上の有益性とリスクは十分に理解されており、試験のために臨床的に意味のある性能目標を導出するために使用され、本製品が意図された使用を安全かつ効果的に達成できることを支持する。考慮事項には、装置の入力、出力、対象となる患者集団、および臨床使用条件における、全体的および局所的な性能と不確実性/変動性の両方の影響が含まれる。
  7. 人間-AIチーム(Human-AIチーム)のパフォーマンスに焦点を置くこと: モデルが 「ループの中の人間(human in the loop)」 を持つ場合、人的要因の考慮事項とモデル出力の人間による解釈可能性は、モデルの単独でのパフォーマンスだけでなく、人間-AIチーム(Human-AIチーム)のパフォーマンスに重点を置いて扱われる。
  8. 試験は臨床的に適切な状態での医療機器デバイス性能を証明すること: 統計的に健全な試験計画が開発され、訓練データセットとは独立して臨床的に適切なデバイス性能情報を生成するために実行される。考慮事項には、対象となる患者集団、重要なサブグループ、臨床環境およびHuman-AIチームによる使用、測定入力、および潜在的交絡因子が含まれる。
  9. ユーザーには、明確で重要な情報を提供すること: ユーザーには、製品の使用目的と使用の適応症、適切なサブグループに対するモデルのパフォーマンス、モデルのトレーニングとテストに使用されるデータの特性、許容可能な入力、既知の制限、ユーザー・インタフェースの解釈、モデルの臨床ワークフローの統合など、対象ユーザー (医療従事者や患者など) に適した、明確でコンテキストに関連した情報への迅速なアクセスが提供される。また、実際のパフォーマンス監視によるデバイスの変更と更新、利用可能な場合の意思決定の基礎、および開発者に製品に関する懸念を伝える手段についてもユーザーに通知する。
  10. 導入展開されたモデルのパフォーマンスを監視し、再トレーニングのリスクを管理すること: 展開されたモデルは、安全性とパフォーマンスの維持または向上に焦点を当て、 「現実世界 “real world”」 での使用を監視する機能を備える。さらに、モデルが展開後に定期的または継続的にトレーニングされる場合は、Human-AIチームによって使用されるモデルの安全性とパフォーマンスに影響を与える可能性のある、モデルの過剰適合、意図しないバイアス、または劣化(例えば、データセットのドリフト)のリスクを管理するための適切なコントロールを用意する。

Refence: for GMLP Guideline (HiroPharmaConsulting Newsletter)

 *1) https://hiropharmaconsulting.com/2021/05/08/newsletter-vol-3-no-6/
*2) https://hiropharmaconsulting.com/2021/04/15/newsletter-3-4/
*3) https://hiropharmaconsulting.com/2020/04/18/newsletter-2-6/
*4) https://hiropharmaconsulting.com/2020/02/09/newsletter-2%e5%b7%bb-1%e5%8f%b7/


Guiding Principles

  1. Multi-Disciplinary Expertise Is Leveraged Throughout the Total Product Life Cycle:  In-depth understanding of a model’s intended integration into clinical workflow, and the desired benefits and associated patient risks, can help ensure that ML- enabled medical devices are safe and effective and address clinically meaningful needs over the lifecycle of the device.
  2. Good Software Engineering and Security Practices Are Implemented:  Model design is implemented with attention to the “fundamentals”: good software engineering practices, data quality assurance, data management, and robust cybersecurity practices. These practices include methodical risk management and design process that can appropriately capture and communicate design, implementation, and risk management decisions and rationale, as well as ensure data authenticity and integrity.
  3. Clinical Study Participants and Data Sets Are Representative of the Intended Patient Population: Data collection protocols should ensure that the relevant characteristics of the intended patient population (for example, in terms of age, gender, sex, race, and ethnicity), use, and measurement inputs are sufficiently represented in a sample of adequate size in the clinical study and training and test datasets, so that results can be reasonably generalized to the population of interest. This is important to manage any bias, promote appropriate and generalizable performance across the intended patient population, assess usability, and identify circumstances where the model may underperform.
  4. Training Data Sets Are Independent of Test Sets:  Training and test datasets are selected and maintained to be appropriately independent of one another. All potential sources of dependence, including patient, data acquisition, and site factors, are considered and addressed to assure independence.
  5.  Selected Reference Datasets Are Based Upon Best Available Methods:  Accepted, best available methods for developing a reference dataset (that is, a reference standard) ensure that clinically relevant and well characterized data are collected and the limitations of the reference are understood. If available, accepted reference datasets in model development and testing that promote and demonstrate model robustness and generalizability across the intended patient population are used.
  6. Model Design Is Tailored to the Available Data and Reflects the Intended Use of the Device:  Model design is suited to the available data and supports the active mitigation of known risks, like overfitting, performance degradation, and security risks. The clinical benefits and risks related to the product are well understood, used to derive clinically meaningful performance goals for testing, and support that the product can safely and effectively achieve its intended use. Considerations include the impact of both global and local performance and uncertainty/variability in the device inputs, outputs, intended patient populations, and clinical use conditions.
  7.  Focus Is Placed on the Performance of the Human-AI Team:  Where the model has a “human in the loop,” human factors considerations and the human interpretability of the model outputs are addressed with emphasis on the performance of the Human-AI team, rather than just the performance of the model in isolation.
  8. Testing Demonstrates Device Performance During Clinically Relevant Conditions:  Statistically sound test plans are developed and executed to generate clinically relevant device performance information independently of the training data set. Considerations include the intended patient population, important subgroups, clinical environment and use by the Human-AI team, measurement inputs, and potential confounding factors.
  9. Users Are Provided Clear, Essential Information: Users are provided ready access to clear, contextually relevant information that is appropriate for the intended audience (such as health care providers or patients) including: the product’s intended use and indications for use, performance of the model for appropriate subgroups, characteristics of the data used to train and test the model, acceptable inputs, known limitations, user interface interpretation, and clinical workflow integration of the model. Users are also made aware of device modifications and updates from real-world performance monitoring, the basis for decision-making when available, and a means to communicate product concerns to the developer.
  10. Deployed Models Are Monitored for Performance and Re-training Risks Are Managed:  Deployed models have the capability to be monitored in “real world” use with a focus on maintained or improved safety and performance. Additionally, when models are periodically or continually trained after deployment, there are appropriate controls in place to manage risks of overfitting, unintended bias, or degradation of the model (for example, dataset drift) that may impact the safety and performance of the model as it is used by the Human-AI team.

https://www.fda.gov/media/153486/download