スプレッドシートで創薬データを管理することで起こる3つの落とし穴

2019年1月28日(金)
スプレッドシートとインフォマティクスが合わない理由
"エクセルシートがあちこちに散らばっていて、プロジェクトごとのデータがフォルダごとに分けられていた」。この言葉を聞いたのは初めてではありませんでした。その科学者は、次のように言いました。"その科学者は次のように述べています。「しばらくすると、管理するのが難しくなりました」。

これは、多くの科学者が犯しがちな過ちです。安全ではない、見つけにくいスプレッドシートにデータを保存、管理してしまうのです。
この方法は、一人で作業する科学者にとっては問題ないかもしれませんが、大量のデータの保存、呼び出し、共有に依存する創薬などの化学や生物学の分野で深い研究を行っている共同研究者にとっては、スマートなプロトコルではありません。研究室の仲間や同僚とExcelやGoogle Docsでドキュメントを共有するのは便利ですが、非常に安全ではありません。
科学、特に創薬の分野では、データ管理の不備が致命的な結果を招くことがあります。
Excelファイルをメールで送信するときや、Googleドライブで誰かと共有するときに、ちょっとしたタイプミスをしてしまうと、大変なことになります。政府の規制に違反する方法でデータを共有したり、重要なデータのバックアップを怠ったり、危険なデータ入力ミスをしたりすると、キャリアが終わってしまうかもしれません。
スプレッドシートがサイエンティストに失敗する3つの理由
科学データの管理や結果の伝達をエクセルファイルに頼っている科学者は、せいぜい非効率的な作業や資源の浪費をしているに過ぎません。
最悪の場合、重要なデータが漏洩し、科学技術の革新が滞り、新規開発候補の特定が困難になります。
スプレッドシートを使ってデータを保存・管理することによるその他の悪影響は以下の通りです。
- お客様のデータへのアクセスを制限する
- お客様のデータに対するコントロールの低下とセキュリティの低下
- 生産性の低い共同作業とデザインサイクルの長期化
ニューヨーク・タイムズ紙は最近、Google Driveのような一般的なクラウドベースのプラットフォームでデータを共有することは非常に危険であると報じています。
また、Wired Magazineでは、世界で最も安全なローカルサーバーであっても、誰にも知られずに安全でなくなることがあるため、安全なローカルサーバーにデータを保存することは必ずしも理想的ではないことを確認しています。
しかし、一般的なクラウドベースのプラットフォームや、「安全な」ローカルサーバーにデータを保存することができないとしたら、何を信用すればいいのでしょうか?
この質問に答える前に、Excelやその他のスプレッドシートを使うことで、科学的にどれだけ劇的な限界があるのかを理解する必要があります...
お客様のデータへのアクセスを制限します。
スプレッドシートとは何か、そしてあなたや他の科学者はなぜそれを使うのか?
あまり意識したことはないかもしれませんが、表計算ソフトはデータを保存・管理するためのファイルです。これはポジティブに聞こえますよね?もし、こう読んだらどうでしょう。「スプレッドシートは、データの保存と管理を必要とするファイルである」と。
言い換えれば、スプレッドシートは必要以上の作業を要求していないか?
例えば、データの保存にスプレッドシートを使用している場合、スプレッドシートファイルの最新版を常に持ち歩き、ファイルを更新し、自分だけでなく同僚がすぐにアクセスできる場所に保存しておかなければなりません。
これは何を意味するのでしょうか?
スプレッドシートが簡単にアクセスできないということは、そのアクセス性を手動で管理しなければならないのは、あなた自身だからです。
自分に問いかけてみてください。スプレッドシートは検索可能か?
いいえ、そうではありません。値の範囲、化学構造、類似性などを検索することはできませんし、複数の複雑な条件で検索することもできません。
スプレッドシートファイルは、個々の実験の単純な表形式のデータを保持することはできますが、複数の実験にまたがるデータの関係を明らかにすることはできません。例えば、複数のアッセイにおける交差反応性、残りのバッチ在庫、重複する化合物などです。
お客様のデータに対するコントロールが低下し、セキュリティが低下します。
データをコントロールできるほど、データの安全性は高まります。
セキュリティに関しては、表計算ソフトは失敗します。スプレッドシートのファイルは、(故意または過失で)権限のない人に簡単に転送されてしまうからです。
さらに、スプレッドシートファイルのデータ更新は、すべての研究室の仲間、つまりデータの「ユーザー」全員には伝わりません。また、前述したように、どのスプレッドシートが最新版かを手動で把握するのは必ずしも容易ではありません。
意外と知られていませんが、メールでデータファイルをやり取りすることは、クラウドでのファイル共有と同様に安全ではありません。これは、たとえ大学が標準的な安全対策を施したローカルサーバーを使用している場合でも同様です。実際、Computer Worldによると、このグループだけでも、ハーバード大学、スタンフォード大学、ペンシルベニア大学など、100以上の大学のサーバーをハッキングしたと主張しています。
最悪なのは、スプレッドシートのファイルを紛失したり、誤って削除してしまうことです。
もしあなたが科学者で、過去にこのようなことがあったのであれば、このような損失がどれほど悲惨なものであるかをご存知でしょう。
スプレッドシートは、たとえクラウドベースのものであっても、他の研究室、特に所属機関以外の研究室との共同作業においては、ほとんどメリットがありません。
科学では時間が重要です。
これは、科学的な共同研究に関わる場合に特に顕著です。問題は、スプレッドシートを使って共同研究者とデータを共有していた科学者の場合、共同研究者が更新されたデータを送るのを常に待つ必要があり、その逆もまた然りです。このような待ち時間は、共同研究の進行を遅らせることになります。
スプレッドシートを使った共同研究には、科学者が直面するさまざまな問題があります。例えば、共同研究者が誤って古いデータを使ってしまい、古い仮説のためにリソースを無駄にしてしまうことがあります。
最も重要なことは、科学者がスプレッドシートファイルをリアルタイムでコラボレーションすることができない ということです。
クラウドベースのスプレッドシートであっても(安全性が確保されていると仮定すればですが、ほとんどの場合はそうではありません)、リアルタイムに共有するプロセスはせいぜい煩雑なものです。 スプレッドシートには実験データしか保存されていないので、分析に関するリアルタイムの共同作業を促進することはできません。また、科学者が結論をリアルタイムで共有し、検討することもできません。
スプレッドシートファイルを使用すると、コミュニケーションのボトルネックとなり、作業の進捗が遅くなります。複数のスプレッドシートを複数の研究者で共有している場合、全員が最新のデータに同期することはほぼ不可能だからです。たとえ大学や研究機関が標準的な安全対策を施したローカルサーバを使用していたとしても、スプレッドシートを電子メールや基本的なクラウドシェアリングプラットフォームで共有することは安全ではありません。
最後に、スプレッドシートは検索できません。コンピュータの検索ウィンドウで、値の範囲、化学構造、類似性、その他の基準で検索することはできません。また、複数の複雑な条件で検索することもできません。そのため、賢い科学者は、スプレッドシートを使うだけではなく、データを保護し、アクセス可能な状態にして、生産的かつ安全に共有することを考えなければなりません。
科学データの管理に、まだ表計算ソフトを使っていますか?
そのような方は、上記のような課題に直面しているかもしれません。
コラボレーションの生産性が低下し、デザインサイクルが長くなる。
スプレッドシートは、たとえクラウドベースのものであっても、他の研究室、特に所属機関以外の研究室との共同作業においては、ほとんどメリットがありません。科学では時間が重要です。
これは、科学的な共同研究に関わる場合に特に顕著です。問題は、スプレッドシートを使って共同研究者とデータを共有していた科学者の場合、共同研究者が更新されたデータを送るのを常に待つ必要があり、その逆もまた然りです。このような待ち時間は、共同研究の進行を遅らせることになります。
スプレッドシートを使った共同研究には、科学者が直面するさまざまな問題があります。例えば、共同研究者が誤って古いデータを使ってしまい、古い仮説のためにリソースを無駄にしてしまうことがあります。
最も重要なことは、科学者がスプレッドシートファイルをリアルタイムでコラボレーションすることができないということです。
クラウドベースのスプレッドシートであっても(安全性が確保されていると仮定すればですが、ほとんどの場合はそうではありません)、リアルタイムに共有するプロセスはせいぜい煩雑なものです。 スプレッドシートには実験データしか保存されていないので、分析に関するリアルタイムの共同作業を促進することはできません。また、科学者が結論をリアルタイムで共有し、検討することもできません。
スプレッドシートファイルを使用すると、コミュニケーションのボトルネックとなり、作業の進捗が遅くなります。複数のスプレッドシートを複数の研究者で共有している場合、全員が最新のデータに同期することはほぼ不可能だからです。たとえ大学や研究機関が標準的な安全対策を施したローカルサーバを使用していたとしても、スプレッドシートを電子メールや基本的なクラウドシェアリングプラットフォームで共有することは安全ではありません。
最後に、スプレッドシートは検索できません。コンピュータの検索ウィンドウで、値の範囲、化学構造、類似性、その他の基準で検索することはできません。また、複数の複雑な条件で検索することもできません。そのため、賢い科学者は、スプレッドシートを使うだけではなく、データを保護し、アクセス可能な状態にして、生産的かつ安全に共有することを考えなければなりません。
科学データの管理に、まだ表計算ソフトを使っていますか?
そのような方は、上記のような課題に直面しているかもしれません。
CDD Vault by Collaborative Drug Discovery は、直感的なウェブインターフェイスでホストされる、シンプルで100%安全なデータ管理プラットフォームです。
CDD Vault は、プロジェクトチームが化学構造、生物学的アッセイ、およびその他の科学的データを管理、分析、および提示するのに役立ちます。
デモはこちらから CDD Vault を今すぐ無料でお試しいただけます...
このブログは、CDD Vault コミュニティのメンバーが執筆しています。CDD Vault は、プライベートおよび外部の生物学的・化学的データを安全に管理する、ホスト型の創薬インフォマティクス・プラットフォームです。化学物質の登録、構造活性相関、化学物質のインベントリ、電子ラボノート機能などのコア機能を提供しています。
