ブックタイトル日本結晶学会誌Vol60No2-3

ページ
47/98

このページは 日本結晶学会誌Vol60No2-3 の電子ブックに掲載されている47ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。

概要

日本結晶学会誌Vol60No2-3

微小結晶を用いたタンパク質X線結晶構造解析におけるデータ処理システムの開発図6マージ準備時の格子定数に基づいたグループ化の結果例.(Grouping of indexed results based on unit cellparameters in preparation for merging.)が,この操作によって格子は完全に重なる(格子対称には含まれる操作である).よって2つのデータをマージする場合は,片方のデータをそのままあるいはk,h,-lの操作を行った場合で他方のデータと相関係数を計算し,高いほうを採用する.あるいは,すでに構造決定されている同型データセットがある場合は,それにindexing modeを合わせる(より高い相関が得られるようにreindexする)作業を行う.このように,1つのデータをリファレンスにして,残りのデータごとにreindex operatorを決定できる場合は非常に容易である.ただしsmall-wedgeの場合,1データセット当たりの反射数が少ないため,1つのデータセットをリファレンスとして使えなくなる場合が考えられる.この極端な場合がシリアル結晶学であり,初期のSFX実験ではこれが大きな問題となった.24)その解決法はいくつか提案され,現在ではルーチン的に解決可能になっている.KAMOでは,kamo.resolve_indexing_ambiguityコマンドを通じてindexing ambiguityの解決が可能で,selective breedingアルゴリズム12)をデフォルトの解決方法として採用している.これは反復的な手法であり,各データセットについて,可能なすべてのoperatorに関してほかのデータセットとの平均相関係数を計算し,最も高い値を与えるoperatorを採用していき,収束したら完了となる.大抵の場合,数サイクルで収束する.4.4クラスタリングとマージマージの準備が整ったら,クラスタリングとマージの作業へ進む.この作業はkamo.multi_mergeコマンドを通じて行う.階層的クラスタリングの基準として格子定数と相関係数の2種類を用意している.格子定数ベースにはBLEND 13)のクラスタリング機能を用いる.相関係数ベースの場合は,各データ間の共通反射から相関係数(correlationcoefficient:CC)を計算し,d(i,j)=1? CC(i,j)をデータセットi,j間の距離としてWard法で階層的クラスタリングを実行する.このとき,共通反射数が少なく相関係数を計算できないようなデータセットは以降の処理から除外される.またデータセット間で分解能に対する強度の落ち方が異なる,つまりoverall Bが異なる場合,その日本結晶学会誌第60巻第2・3号(2018)ままCCを計算することは不適切である.このため,規格化構造因子の二乗|E|2を使うオプションも用意している.クラスタリング計算を行ったら,各クラスタについて単純にマージした場合のcompletenessとmultiplicityを計算し,両者が高い(デフォルトではそれぞれ? 90%かつ?2)クラスタのみ,マージ処理を行う.スケーリングにはXSCALEを用い,その出力に基づいて異常値(outlier)を検出し,除外する.除くべきものは,マージ後の結果を悪化させる悪いフレームあるいは悪い結晶の2種類ある.悪いフレームは,例えば結晶がビームから外れてしまったり,放射線損傷によって反射が消失したりして起こる.悪い結晶(データセット)は,例えば非同型性や,指数付け・積分が適切に行われなかった結果として生じる.この2種類の異常値を除くため,スケール・マージ計算のサイクルは最大3回行われる.まず最初に全データセットをスケール・マージし,各フレーム上の強度とマージ後の強度から相関係数を計算し,その極端に低いものを悪いフレームとして検出する.異常値検出にはデフォルトではTukeyの1.5×IQR基準,すなわち値が[Q 1/4-1.5×IQR,Q 3/4+1.5×IQR]の範囲外に存在する場合に異常値とする.25)ここでIQR=Q 3/4-Q 1/4であり,Q 1/4,Q 3/4はそれぞれ第1,第3四分位点である.悪いフレームを除いたら,残ったデータセットをマージし,悪いデータセットを検出する.この際には,デフォルトではXSCALEのerror modelパラメータであるb値と,スケールのB値を同じくTukeyの基準に照らして異常値検出を行う.Error modelパラメータ(aおよびb)は,XSCALEにおいて各データセットごとに調整される値であり,強度の誤差σ(I)をσ(I)=2 a(σ2 counting(I)+bI 2)の式で補正するものである.26)異常に大きなb(あるいはab)は,そのデータが大きな系統的誤差をもっていることを意味する.B値が極端に大きいあるいは小さいデータセットも,何らかの理由で値の決定自体がうまく行っていないことが多いので,除外している.残ったデータセットは,分解能に対する強度の降下が最も少ないデー109