The confidence in (or “quality” of) any particular base call associated with a given signal value is a function of where that signal falls in the distribution of signals, for a given homopolymer length.
Based on a large number of runs in which we sequenced various known genomes (Adenovirus, S. aureus, M. genitalium), as well as test fragments, and mapped the resulting reads, we determined that negative flows follow a lognormal distribution, while all positive flows are normally distributed with mean (Supplementary Figure 7) and standard deviation proportional to the underlying homopolymer length; furthermore these distributions remain remarkably invariant across different genomes and test fragments.
様々な既知のゲノム(アデノウイルス、黄色ブドウ球菌、マイコプラズマ・ジェニタリウム)をテストフラグメントと共にシークエンシングし、読み取り結果をマップした膨大な量の実行結果に基づき、我々は負のフローは対数正規分布に従う一方、正のフローは下地のホモポリマーの長さに比例した標準分散と平均を持つ正規分布をとる(補足図7)という知見を得た。さらには、これらの分布は異なるゲノム及びテストフラグメントに対して全く不変であることが分かった。
私たちが様々な既知のゲノム(Adenovirus, S. aureus, M. genitalium)を配列決定する大規模な数のラン、そしてテスト断片及び結果の読み取りのマッピングに基づいて、私たちは、すべてのポジティブ・フローが平均値(補足図7)で正常に分布し、標準偏差が基本的ホモポリマーの長さに比例しているのに対し、ネガティブ・フローは対数正規分布に従っていることを決定しました。さらにこれらの分布は、異なるゲノムとテスト断片上できわめて一定不変なのです。