KNIME: 重複する分子の削除

By | 2015年6月6日


今回は、重複する分子の削除を行うワークフローの構築を行います。
分子の重複の削除は、分子構造(SMILES)と分子IDで行っており、GroupByノードにより実現しています。

knime_dupli_01

各ノードの設定方法を説明します。
各ノードを配置、接続した後、ノードをダブルクリックするとConfigureが開き、設定を行うことができます。

Read SDF

SDFの読み込みには、SDF Readerノードを使います。
File selectionタブでSDFファイルの場所を指定します。
また、ここで入力するSDFにおいては、各分子の1行目に分子IDを記載していますので、Extract molecule nameにチェックをいれ、分子IDを取得しています。
さらに、SDF blocksの情報を出力ファイルに入れたいので、Extract SDF blocksにもチェックを入れます。

knime_dupli_02a

RDMolに変換

SDFからRDKitのMol形式(RDMol)にRDKit From Moleculeノードを用いて変換します。

knime_dupli_03a

CanSMILESの生成

RDMolからCanonical SMILESを生成します。
RDMolは、もう使わないのでRemove source columnにチェックを入れています。

knime_dupli_04

分子IDで重複除去

入力したSDFには、同じ分子IDをもつ分子が入っていますので、Group byノードを使って、分子IDで重複をとります。
Groupsタブで、重複を取りたい列を指定します。ここでは、分子IDの入っている列であるMolecule nameを指定します。

knime_dupli_05

Molecule name以外の列のAggregationの方法を指定します。
Manual Aggregationタブを選択し、MoleculeとCan smilesのAggregationをFirstとします。

knime_dupli_06

分子構造で重複除去

分子構造の重複除去は、Canonical SMILESで行います。
Groupsタブで、重複を取りたい列を指定します。ここでは、分子構造の入っている列であるFirst(Can smiles)を指定します。

knime_dupli_07

First(Can smiles)以外の列のAggregationの方法を指定します。
Manual Aggregationタブを選択し、Molecule nameとFirst(Molecule)のAggregationをFirstとします。

knime_dupli_08

Write SDF

SDF Writerノードを使って、分子構造をファイル出力します。
テキストボックスに、出力ファイル名を入力します。また、Overwrite OKにチェックを入れ、上書きを許可しています。

knime_dupli_09

以上で、設定は終わりです。
実行すると、重複の取れたSDFが出力されます。


利用したソフトウェア:
KNIME 2.11.3