どの構造が寄与しているか解釈したい! 〜Morgan Fingerprintの部分構造を特徴量に〜

こんにちはnissyです

定量的構造物性相関を取る上でどの構造が効いているか、直感的に解釈したい場面ありますよね。

そんな時に役に立つ手法を紹介しますので解説します!!!

分子内の特徴の重複回数を考慮してFingerprintを生成

早速、ライブラリーをインポートします。

 

データセットの準備

SMILESのフィンガープリントに変換するまでは、過去のブログで紹介してるのでそちらも参照してください。

radiusが大きい方が広く部分構造をとります。今回は3にしています。

 

カウントを有効にしたモルガンフィンガープリント

df_fp_countを開くと以下のようなデータフレームが得られてることが確認できます。

カラムにはハッシュ値が特徴量名として入力されています。

ある化学構造に対して、どのような部分構造をとっているかを確認します。

確認する構造は以下を選定しています。

どのような部分構造が取られたかを確認して行きましょう!

BitIDのファイル名でデータセット内の部分構造の画像を保存

下記コードを走らせることで、データセットないの部分構造の画像が保存されます。

BitIDを説明変数として機械学習モデルを構築した際に、各ハッシュ値に対して重要度が付与された場合、そのハッシュ値がどの部分構造を示しているかを確認したい場合にこれらの画像を使用します。

最近ではChatGPTなどの生成AIに頼んでコードを生成してもらえて便利です。

ChatGPTへのプロンプト(個人メモ)
================================================
部分構造の列のセルに写真を埋め込みたいです。
写真の保存先は下記のパスです。
” ”
画像のファイル名はBitの数字.pngになっているので、指定のBitの値のところに部分構造の写真が埋め込まれるようにしてほしいです。
================================================

 

 

 

 

 

データ分析
未経験の壁をぶっこわ〜す!化学系データサイエンティスト転職ブログ

コメント

タイトルとURLをコピーしました