細かいモデリング
npj 気候と大気科学 第 5 巻、記事番号: 76 (2022) この記事を引用
1559 アクセス
5 オルトメトリック
メトリクスの詳細
大気質監視ネットワークを使用して都市政策に情報を提供することは、特に都市住民が前例のないレベルの大気汚染にさらされている場合には非常に重要です。 しかし、コストが高いため、市政府が基準グレードの大気質モニターを大規模に導入する能力は制限されています。 たとえば、1,500 万人の住民が住む 1,500 平方キロメートルに及ぶインドのデリー全域で利用できるリファレンス グレードのモニターは 33 台だけです。 この論文では、きめの細かい汚染マップを導出するために使用できる高精度の時空間予測モデルについて説明します。 当社は、デリーの密集地域をカバーする 28 台のカスタム設計の低コストポータブル大気質センサーからなる低コスト監視ネットワークからの 2 年間のデータを利用しています。 このモデルは、メッセージ パッシングリカレント ニューラル ネットワークと従来の時空間地理統計モデルを組み合わせて使用し、データの変動性が高く、低コスト センサーからのデータの利用可能性が断続的であるにもかかわらず (センサーの障害、ネットワーク、電力の問題)。 検証に基準グレード モニターからのデータを使用する当社の時空間汚染モデルは、当社の低コスト モニターである基準グレード モニターと比較して、平均絶対パーセント誤差 (MAPE) が 9.4、10.5、および 9.6% で 1 時間の時間枠内で予測を行うことができます。 、および結合された監視ネットワークそれぞれ。 これらの正確で粒度の細かい汚染検知マップは、都市部の危険な大気質を粒度の細かい粒度で検出する、市民主導の低コスト監視システムを構築するための前進の道を提供します。
人口が密集する都市における汚染予測は、きめ細かい政策の推奨事項や公衆衛生上の警告を生成するために重要です1、2、3。 これを達成するために必要なセンサーベースの正確なモニタリングの規模には莫大なコストがかかるため、緻密で粒度の高い汚染検知マップの構築が妨げられる可能性があります。 基準グレード汚染大気質監視システムの代替または増強として、低コストの粒子状物質センサーの導入が最近広く研究されており、校正 4、5、6、設計 7、8、データ選択 9、および個人暴露の定量化 10、11 の問題に取り組んでいます。 。 しかし、汚染ネットワークの規模を活用した、高精度で大規模できめの細かい汚染センシングおよび監視マップを構築することは、ほとんど調査されていません。 具体的には、汚染と人口密度が高い都市におけるノイズの多い低コストセンサーの動作のモデル化はこれまで研究されておらず、最近の最先端のマッピングアプローチでは誤差が 30 ~ 40% の範囲でしか得られません 12,13。 。 この誤差が大きいため、汚染検知マップは政策立案や大気質の危険検出には使用できなくなります。 大気汚染に対する低コストのセンサー ネットワークの導入に関するこれまでの取り組みは、小規模 (半径 2 km 以内) で成功し、米国南東部での PM 2.5 測定の一致率が高くなりました 14。 調査研究では、大規模できめの細かいセンシングベースのアプリケーションを可能にするために、クラウドファンディングによるセンサーネットワークへのパラダイムシフトが必要であることが示されています15。 このような大規模環境における校正の問題の問題は、最近研究され、十分に管理された実験室校正 17 の後、大幅な再校正 16 を必要とせずに有望な結果が得られています。 PM 2.5 予測モデルは最近、長短期記憶 (LSTM)、畳み込みニューラル ネットワーク (CNN)、注意ベースのモデルなどのディープ ニューラル ネットワークを研究しています。 ベクトル回帰、偏微分方程式を使用しますが、大規模なセンサー ネットワーク設定ではなく、単一の場所にある単一の統一モデルに焦点を当てます18、19、20、21、22、23、24。
最近の研究では、都市環境における大気汚染やその他の気象変数に関する情報を収集するための分散型センサー ネットワークの使用も検討されています 25、26、27、28、29。 クレメンツら。 30 は、そのような多くの作品の包括的なレビューを提供します。 研究者らは、低コストのセンサーによる汚染検知システムを都市環境にどのように導入できるかについて、さらに研究を進めてきました14、31、32、33、34、35、36。 Gaoらを除いて。 中国の西安で微粒子センサーの性能を調査した研究者ら36人らによると、これらの配備のほとんどはインドのデリー市よりも大気汚染が著しく低い地域で行われている。 ガオら。 また、低コストの PM2.5 センサーは、汚染が非常に低い環境では性能が低下する可能性があると指摘しており、粒子濃度が高い場合には比較的有用である可能性があることを示唆しています。 この分野における関連アプローチは、空間内挿アプローチ、土地利用回帰、分散モデルの 3 つのグループに大別できます。 37、ジェレットら。 38. 分散モデルの場合、適切な化学輸送モデルがそのパラメーター値および高品質の排出量インベントリとともに特定されることを前提としています。 土地利用回帰モデルの場合、汚染に大きな影響を与える環境特性にアクセスできることが重要です。 地理的データと気象データはより長い時間的かつ粗い空間グリッドにわたって変化するため、この追加データはより長い範囲の予測に適していることがよくあります 39,40。
この論文では、高密度でノイズの多い、低コストのセンサーを使用して、都市の大気質をきめ細かいレベルでモデル化し、予測する方法論について説明します。 このペーパーで答えようとしている主な質問は 2 つあります。(i) 正確な予測を提供する都市内でのきめ細かい汚染ヒートマップを構築するために、低コストでポータブルな大気質モニターのネットワークをどのように使用できるか? (ii) 地方自治体が低コストの大気質センサーを使用して既存の監視ネットワークを強化するのに役立ちますか?
当社は、低コストの空気品質モニターとエア フィルターを製造する会社 Kaiterra41 と協力して、28 個の低コスト センサーのネットワークを展開しています。その多くはデリー南部地域に集中しています。 デリー (エリア 573 mi2) では 28 個のセンサーを使用し、以前の展開 (西安 - エリア 3898 mi2、8 つの低コスト センサー) と比較して、展開密度を 28 倍に劇的に増加させました。 さらに、これまでの研究ではせいぜい数週間のデータしかキャプチャできなかったのに比べ、2 年以上にわたって大規模な縦断データセットをキャプチャできるようになったことで、長期的な季節変化をモデル化し、適応できるより複雑なニューラル ネットワーク モデルをトレーニングできるようになりました。季節や日常のパターンまで。 私たちは以前の研究に基づいて、近くのセンサー位置からのデータを使用して各センサー位置での予測モデルを使用して、汚染ネットワーク全体をモデル化します。
ネットワーク内のすべてのセンサーからの最大 8 時間の履歴データを使用して、μgm-3 単位で測定される微小粒子状物質 (PM2.5) の濃度によって測定されるデリーの任意の場所の汚染をモデル化します。 私たちは、低コストのセンサーの主な利点を活用しながら、多数の時空間測定値を集約することでノイズの欠点を克服するために、より短いタイムラインにわたってきめの細かい汚染検知マップを構築するという選択をしました。 各センサーを個別にモデル化する機能を持つメッセージ パッシング ニューラル ネットワーク (MPRNN) を通じて、これらのノイズを含む各測定値の変動性を学習することで、信号をノイズから分離するだけでなく、低コストで正確なセンシング ネットワークを構築する方法を学びます。 30% の RMSE を提供するベースライン モデリング アプローチと比較して、きめの細かい時空間グリッド上で最大 1 時間前までの予測において 10% 未満の RMSE を達成するセンサー。 信号がニューラル ネットワークの埋め込みを通じて共有される、センサーの疎なネットワークを使用することにより、近くの情報源 (例: 工場) の読み取り値に影響を与える可能性のある情報を近くの情報源から取得し、局地性の高い情報 (例:フードカート)。 このような正確で粒度の細かい汚染検知マップ (MAPE ≤10%) は、政策立案者が大気質と住民の健康を改善するために都市のどの地区に介入が必要かを決定する際に使用できます。 私たちの知る限り、私たちは、高品質の政府監視ステーションを強化する低コストのセンサーを使用して、都市規模のセンサー ネットワーク展開のモデル化を試みた最初の企業です。 デリー市 (700 平方キロメートル) に広がる 60 個のセンサーを備えた都市ほどの規模のセンサー ネットワークでは、時空間変化を捕捉して正確な汚染マップを構築するには、各センサーを個別にモデリングする必要があります。 規模を拡大し、対応するモデリングの課題に対処することで、私たちの研究は汚染センシングとその低コスト導入可能性に広範囲に影響を及ぼします。
当社のデータは、2018 年 5 月 1 日から 2018 年 5 月 1 日までの 24 か月間にわたって収集された、28 台の低コストセンサーと 32 台の政府モニター、合計 60 台のモニターからの時間単位で平均化された PM2.5 濃度データで構成されています。 2020. 2019 年 10 月 30 日まではトレーニング (75%) に使用し、残り (25%) はテストに使用します。 RMSE と平均絶対パーセント誤差 (MAPE) という 2 つの基準を報告します。 当社では、28 個の低コスト センサーと 32 個の政府モニターを組み合わせたセットからのデータに基づいてモデルを評価するだけでなく、各セットで個別にモデルを評価します。 これらの場所ごとに、モデルベースの予測を汚染センサーの測定結果の真実と比較します。
全体として、STHM とスプライン補正を使用した代入データを含む MPRNN モデルは、すべての場所にわたる PM 濃度レベルの非常に高精度な推定を提供します (表 1 を参照)。 最もパフォーマンスの高いモデルは、すべての場所およびテスト期間にわたって平均 RMSE 10.1 μgm-3 および MAPE 9.6% で PM2.5 濃度を予測できます。 位置ごとのスプラインを推定すると最良の予測パフォーマンスが得られますが、観測されたすべての位置にわたる平均スプラインを使用すると、RMSE エラーと MAPE エラーがわずかに増加するだけであることに注意してください。 平均スプラインは、すべての位置のデータを平均した後に計算されます。 すべての場所で、RMSE と MAPE の中央値はそれぞれ 9.15 μgm-3 と 8.64% です (図 1 を参照)。 最良の場合の値はそれぞれ 4.28 μgm-3 と 5.57% であり、最悪の場合の値はそれぞれ 24.1 μgm-3 と 19.64% です。 最小限の MAPE が存在する場所は、デリー南部の非常に混雑したエリアであるグリーン パーク内の場所であり、デリーのような大都市におけるきめ細かい汚染センシングの必要性がさらに実証されました。
この期間の PM2.5 濃度値は 0 ~ 1000 μgm-3 の範囲であり、平均値は約 130 μgm-3 です。 私たちの方法論と他の競合するアプローチを比較した棒グラフ。 MPRNN などのニューラル ネットワークを使用して時空間相互作用をモデル化し、スプライン補正の形で 1 日内の周期的パターンを考慮すると、パフォーマンスに大きな違いが生じることに注目します。 b 最高のパフォーマンスのモデルの MAPE の分布 - STHM 代入 + MPRNN を使用したセンサーごとのスプライン、累積密度関数 (CDF) として表示されるすべての位置にわたる。 c マップ上のすべての監視位置における最高パフォーマンスのモデル (MPRNN+Spline) の予測誤差。 d 最終予測の誤差は、センサーが最も集中している地域 (ニューデリーと南デリー) に焦点を当てていました。
3 方向 3 次スプライン フィットは、ベースライン汚染が午前 8 時まで着実に増加し、午後 4 時まで減少し、その後真夜中まで再び増加するという共通の傾向を示しています。 これが平均的な 1 日の PM 濃度の複合多項式モデルであることに注意してください (図 2 を参照)。 このモデルの誤差の中央値は、午前 12 時から午前 8 時、午前 8 時から午後 4 時、午後 4 時から午前 12 時の 3 つの時間帯のそれぞれで約 40 μgm−3 ですが、これはニューラル処理後は約 10 μgm−3 に減少します。ネットワーク モデルが残差に適合します。 図 2 と補足図 2 は、センサーごとのスプラインと平均スプラインを詳細に示しています。 センサーごとのスプラインが空間全体で大きく異なるだけでなく、補足図 2 のセンサー A838、E8E4、2E9C のようなスプライン残留誤差が著しく高い領域はすべて、商業施設が確立されているデリーの中心部に位置していることがわかります。それぞれコンノートプレイス、サルダージャングエンクレーブ、ラドサライなどのアクティビティ。 さらに、補足図2では、政府監視局の中で著しく高い残留誤差スプラインを持つ外れ値は、パッパルガンジ DPCC、パンジャビ バック DPCC、および DKSSR DPCC です。 パトパルガンジは工業地帯の隣に位置していますが、パンジャビ バックは商業活動の中心地が確立されている有名な住宅地です。DKSSR (Dr. Karni Singh Shooting Range の略) は、デリー郊外にある射撃場です。州間高速道路。 さまざまな地理的領域にわたるこれらのスプラインの多様性は、デリーの中心部だけでなく一見遠隔地にある場所でも、きめの細かい汚染プロファイルをモデル化する必要性をさらに示しています。 また、最初から十分なセンサー データがない場所でも、平均スプラインがブートストラップに十分に機能できることにも注目します。
上の 2 行は、スプライン補正の前後の空間上の残差の分布 (PM 単位は μg/m3) を示しています。 3 つの異なるスプラインが、その日の 3 つの異なる時間帯の残差に適合されました。 ほとんどの場合、MPRNN フィット後に高い残差誤差を示した位置 (残差誤差分布の上位分位内) は、スプライン補正後も (他の位置と比較して) 高い誤差を示し続けていることが観察されます。残量は減ります。 この現象は、センサーのベースライン値が高く、残留誤差が大きいことによって部分的に説明されます。これは、多くの場合、測定値の大きなばらつきと結びついています。 a スロット 1 (午前 12 時~午前 8 時)。 b スロット 2 (午前 8 時~午後 4 時)。 c スロット 3 (午後 4 時~午前 12 時)。 d 1 日の重複しない 3 つの時間帯(深夜から早朝(午前 12 時から午前 8 時)、正午(午前 8 時から午後 4 時)、夕方から深夜(午後 4 時から午後 12 時))に適合した 3 つのスプラインで構成される複合 3 次スプライン補正。午前)。 e ニューデリーのチャナキャプリにある当社のセンサー拠点の 1 つにおける、グラウンド トゥルース PM2.5 (青)、MPRNN 予測 (緑)、およびスプライン補正後の最終予測 (赤)。 f グラウンド トゥルース PM2.5 (青)、MPRNN 予測 (緑)、および南デリーのシリフォートにある CPCB モニターでのスプライン補正後の最終予測 (赤)。
ほとんどの場合、MPRNN フィット後に高い残差誤差を示した位置は、スプライン補正後も残差の大きさが減少したにもかかわらず、(他の位置と比較して) 高い誤差を示し続けました。 この現象は、センサーのベースライン値が高く、残留誤差が大きいことによって部分的に説明されます。これは、多くの場合、測定値の大きなばらつきと結びついています。
ハイブリッド モデルで使用するモニターの数が少ないほど、最終的な予測パフォーマンスは向上します。 補足図 3 が示すように、ネットワーク内にモニターが 1 つだけある場合、低コストのセンサー ネットワークと政府ネットワークの予測誤差はそれぞれ約 35 μgm-3 と 20 μgm-3 です。 ただし、ネットワーク内のより多くのノードからのデータを含めると、最終的な予測誤差は約 15% まで急激に低下し、その後約 10% で徐々に減少します。 誤差は約 30 個のセンサーで平坦化されます。これは、実験で使用した各タイプのセンサーの数とほぼ同じです。 さらに高密度の展開を行っても、予測パフォーマンスにほとんど価値が付加されない可能性が高いと推測されます。 さらに、モデルをトレーニングするためのトレーニング データの量を減らすと、季節傾向を把握し、ほぼ 10% の RMSE を達成するには、少なくとも 1 年間のデータが必要であることがわかります (補足表 3)。
当社の STHM 代入モデルを備えたセンサーごとの Spline+MPRNN によって提供される、デリーのすべてのモニターでの MAPE と RMSE の低さは、当社のモデルが危険な大気質を高精度で検出できることを意味するため、重要です。 RMSE 誤差は、1 日の PM2.5 濃度の観察された分散よりも大幅に低いため、短期および日内の分析にも役立ちます。 WHO の大気質基準では、PM2.5 レベルが年間および 1 日の平均レベルで 5 μgm-3 を超えてはならず、インド政府の大気質基準ではそれぞれ 40 μgm-3 と 60 μgm-3 を超えてはならないと規定されています。 60 個のセンサーについて、デリーでは 2 年間の測定を通じて、毎日のレベルで 641 日のうち 371 日がこれらの規定レベルを超えていることに注目します。 当社が達成できる 9.6 % の MAPE エラーは、インド政府の基準に従って、93.5 % の精度と 90.8 % の再現率で危険な大気質を検出する能力に相当します。 これはさらに、私たちが得た低いエラー率が、危険な大気質をほぼ正確に予測できることを示しています。 これにより、汚染センサーの測定値をクラウドソーシングできる市民主導のセンシングが可能になり、最寄りの監視センターよりも PM2.5 レベルが 25% 以上高い建設現場に罰則を与えるクリーン エネルギー政策などの効果的な政策介入を運用できるようになります42。 具体的には、予測力の向上は、バス停や市場などの特定の汚染ホットスポットで達成されます (図 1)。 さらに、都市全体の平均汚染状況の透明性を提供し43、クリーン エネルギー政策の副次的利益の増大に貢献することができます44,45。
モデルのパフォーマンスの測定に使用されるデータは新しいため、センサー ネットワークの基礎となる測定における空間変動と不均一性を理解することが重要です。 モデルの予測パフォーマンスの改善がデータのノイズよりも優れていることをさらに確実にするために、センサーの大規模なキャリブレーションを実行しました。 このために、センサー メーカー (Kaiterra46) (詳細は付録で) が社内で実行したキャリブレーションを利用しました。これにより、再キャリブレーションが必要ないことが確認されています47。また、当社のセンサーの読み取り値と最寄りのメーカーが提供する読み取り値を比較することによって検証も実行しました。政府の汚染監視所。 補足図 5 は、28 の政府監視員によって報告された平均汚染値と、南デリーの地域にあるテストベッドの 18 個のセンサーの平均値との相互校正を示しています。 センサーが基準モニターを使用してかなり適切に調整されており、個々のセンサー レベルや時空間の変動にもかかわらず、都市全体で同様の平均値が報告されていることが観察されています。 これにより、このパイロットから生成されたデータが汚染のモデリングと予測の参考として役立つという信頼が得られます。
さらに、センサーとそのセンサーに最も近い政府監視局との時間的相関を計算する最近隣キャリブレーションも実行しました。 補足表 4 は、平均して相関係数が >0.8 であることを示しており、平均してそれらの間に統計的有意差がないことを示しています (t 検定、信頼水準: 0.05、p 値: 0.0011)。 さらに、補足図4では、最も近い隣接する政府局によってセンサーを注文すると、センサー間の相互相関がそれに応じて整列し、近くのセンサー間の相関が高く、遠いセンサー間の相関が低いことがわかります。 これは、デリーの汚染の空間的変化を捉えることができるきめの細かいセンサー ネットワークの予測能力を大幅に向上させるため、モデリングの改善の重要性をさらに強調しています。
低コストでのきめ細かい汚染検知マップの開発は、汚染ネットワークがまばらな他の汚染都市へのそのような監視ネットワークの展開をさらに促進する可能性があります。 市民が都市の汚染を正確に調達、配備、モデル化できるようにすることで、この論文は高品質できめの細かい汚染検知マップを開発するための前進の道を提供します。
時空間予測問題をグラフ予測問題としてモデル化し、隣接するノードからの履歴値を入力として使用して、特定の時刻におけるすべてのノードの値を予測します。 私たちの設定では、各センサー位置 v ∈ V は無向グラフのノードです。 大気汚染物質が全方向に均一に拡散し、対象地域 (この場合はデリー広域地域) 全体に影響を与えると仮定すると、すべてのノードのペア間にエッジが存在する完全なグラフになります。 最終目標は、t より前の近隣の場所からの 1 つ以上の読み取り値をもとに、時刻 t における微小粒子状物質 PM2.5 の濃度で測定される汚染レベルを、任意のノードで予測するモデルをトレーニングすることです。 最初のステップは、データ内のギャップを補間することです。 このタスクには、時空間階層モデル (STHM) と呼ばれる地球統計モデルを使用します。 次に、各センサー位置での毎日の傾向に基づいて 3 次スプラインを当てはめ、最後にメッセージ パッシング リカレント ニューラル ネットワーク (MPRNN) (セクション 4.4) をトレーニングして、ベースラインを超える残差を予測します。 ペアワイズ距離に基づく影響量を考慮するために、メッセージパッシング定式化に埋め込まれた特徴の一部としてセンサー間のユークリッド距離を組み込みます。 このモデルは、センサー、つまりグラウンド トゥルース情報が存在する場所での値を予測することによってテストしますが、モデルは一般化されているため、グラウンド トゥルース データが利用できない場所でも予測できます。 \(y_{v,t}\) がタイムスタンプ t における位置 v のセンサーの読み取り値であり、\({\hat{y}}_{v,t}\) が対応する予測である場合、予測はモデルは、平均絶対パーセント損失を最小限に抑えることを目的としています。
時空間にわたる PM2.5 粒子状物質濃度を推定するための当社の汚染予測モデルは、3 つの重要なステップで構成されています。 汚染センサー間で利用可能なデータが異なることを考慮して、この方法の最初のステップでは、標準の時空間階層モデル (STHM) を使用して欠落データを推定します。 当社の STHM モデルは、複数の情報源を組み合わせ、欠損値に対応し、空間と時間の両方で予測を計算する地球統計学からの標準的な統計モデリング フレームワークです。 各汚染センサーで観察された日次変動パターンに基づいて、この方法の 2 番目のステップでは、各センサー位置で 24 時間 (午前 12 時から午前 8 時、午前 8 時から午後 4 時までと午後 4 時から午前 12 時まで)、PM2.5 の変化の 3 つの異なるパターンを表します。 各センサーの三次スプラインは、PM2.5 濃度のベースライン レベルを表しました。 3 次スプラインは、センサー全体の全体的な平均日次変動の適切な近似を提供する可能性がありますが、ベースラインの残留誤差によって表される短期の時空間変動は捕捉できません。 私たちの方法の最後のステップは、汚染監視ポイント全体でメッセージパッシングリカレントニューラルネットワーク (MPRNN) をトレーニングして、隣接するセンサーからの残留誤差を推定することです。 このセクションでは、データの特性について簡単に説明し、次に 3 次スプラインと MPRNN 手法について説明します。 STHM モデルの詳細な説明については、補足テキストを参照してください。
デリーの大気汚染レベルのモデル化に使用されたデータは、2018 年 5 月から 2020 年 5 月までデリーのさまざまな場所に当社が配備した 32 の地方自治体のモニターと 28 の低コスト センサーのネットワークの組み合わせから得られました。これらのセンサーはそれぞれ、測定期間全体で約 90% と 30% です。 この差異は、定期的に必要な校正のための切断、ネットワークの停止、センサーの定期的な保守など、さまざまな要因に起因すると考えられます。 センサーは、政府の監視センターの所在地の近くで測定する長期的な比較研究を実施することにより、政府のセンサーに対して校正されます。 センサーの場所と場所別の要約統計量は補足表1および2に示されており、補足図1の箱ひげ図に視覚的に示されています。
私たちは毎日、時間帯や場所に応じて、PM 濃度のおおよその「ベースライン レベル」を構成する低周波成分があることを観察しています。 この観察に基づいて、スプラインと呼ばれる区分的多項式関数を当てはめて、この低周波成分をモデル化します。 1 日をいくつかのエポックに分割し、各エポックにスプラインを当てはめました。 3 次スプラインを実装する前に、MPRNN モデルからの残差誤差が 1 日の異なる時間に異なる誤差を示すことを観察しました。 次に、センサーごと、場所ごとの毎日の時空間パターンに基づいて 3 次スプラインのフィッティングを進めました。 たとえば、予測誤差が、たとえば午前の予測誤差が高く、午後の予測誤差が低いという時間的パターンに従っている場合、このフィッティングを午前と午後に個別に適用したスプラインを利用して、この成分を差し引くことができます。 スプラインは任意の次数にすることができますが、残留誤差パターンを考慮すると、区分的 3 次スプラインが最適に機能することがわかりました。 時間 t および位置 v で、生の PM 値が yv,t で与えられるとします。 次に、期間 p で y を予測するための区分的スプラインは次のように与えられます。
センサーごとに選択されたパラメーター αv,p、βv,p、κv,p、νv,p (p ∈ {"朝"、"午後"、"夕方"}) は、残差誤差のパターンに依存することに注意してください。二乗平均平方根残差誤差を最小限に抑えるために、それに応じて近似します。
MPRNN、参考文献に基づく。 48、49 は、グラフ内の各ノードの値を予測するためにグラフに適用されるニューラル ネットワーク アーキテクチャです。 このアプローチにより、各ノードのペア間の空間的相互作用を、すべてのノードから近隣ノードにブロードキャストされる「メッセージ」として組み込むことが可能になります。 各ノードには、メッセージの受け渡しと反復計算の間で反復される長短期記憶 (LSTM) ネットワークの修正バージョンがあります。
yv,t がノード v および時刻 t における対象量であり、これについて予測モデルを構築したいとします。 数学的には、 \({y}_{v,t+1}={{{\mathcal{F}} のような関数 \({{{\mathcal{F}}}}\) を学習したいと考えています。 }}({v}_{1},{y}_{{v}_{1},t},{v}_{2},{y}_{{v}_{2},t} ,\ldots ;{v}_{j}\in {{{\mathcal{V}}}})\) ここで、集合 \({{{\mathcal{V}}}}\) はすべての集合を表しますグラフ内のノード。 リカレント ニューラル ネットワーク ユニットがグラフ内の各ノードに割り当てられ、各ノード v は時刻 t での隠れ状態 hv,t を維持します。 メッセージパッシングフェーズと時間再帰フェーズを通じて、モデルは次の隠れ状態 hv,t+1 を推測し、そこから v の PM 値がデコードされます。 メッセージパッシング操作により、1 つのセグメントが隣接するセグメントの非表示状態を観察できるようになります。
ニューラル ネットワークの 5 つの層として、計算は 5 つのステップで進行します。 最初のフェーズである観測フェーズでは、入力観測値 \({Y}_{t}=\{{y}_{v,t}| v\in {{{\mathcal{V}}}}\} \) 時刻 t では、観測操作 Ov によって hv,t にエンコードされます。 2 番目と 3 番目のフェーズでは、メッセージング (M) 操作と更新 (U) 操作の 1 回以上の反復が実行され、グラフ内の観測値が伝播されます。 第 4 フェーズでは、各ノードについて、LSTM ユニットを利用する時間反復演算子 Tv が最終隠れ状態 hv,t を入力として受け取り、次の隠れ状態 hv,t+1 を予測します。 最後のフェーズは読み出し操作 Rv で、隠れ状態をデコードして予測される出力値 \({\hat{y}}_{v,t+1}\) を生成します。 これら 5 つのステップを以下に示します。 メッセージ関数は、ノード v と n のペアの隠れ状態とそれらの間のユークリッド距離 dv,n を入力として受け取ります。これは、特定の場所の汚染が別の場所の汚染に及ぼす影響は、ノード間の距離に依存するためです。 。 したがって、埋め込みに距離を含めます。
グラフ内の選択したノード \({{{\mathcal{W}}}}\) の場合、モデルのコンポーネント \(\{{O}_{w},M,U,{T}_{ w},{R}_{w},| w\in {{{\mathcal{W}}}}\}\) が定義されています。 推論中、状態 \({H}_{t}=\{{h}_{w,t}| w\in {{{\mathcal{W}}}}\}\) は毎回維持されますステップ。 各セグメントの隠れ状態は、学習および評価 \({h}_{v,0} \sim {{{\mathcal{N}}}}(0,1)\) 中に t = 0 でランダムに初期化されます。
トレーニング期間として、2018 年 5 月 1 日から 2019 年 11 月 1 日までの 18 か月のデータを使用しました。 トレーニング用に用意したサンプル数は、低コストのセンサー ネットワークから 166,979 個、政府ネットワークから 371,806 個で、合計 538,785 個のサンプルとなりました。 モデルは、トレーニング期間全体にわたって、それ自体を除く他のすべてのモニターからの入力データとして使用して、各センサーの位置でトレーニングされました。 学習率 0.001 の Adam optimizer50 を使用し、30 エポックのトレーニングを実行して、堅牢でよくトレーニングされたモデルを確保しました。 モデルを検証するために、2019 年 11 月 1 日から 2020 年 5 月 1 日までの残り 6 か月のデータを使用しました。この期間に利用可能なグラウンド トゥルース サンプルの数は、低コスト ネットワークと政府ネットワークでそれぞれ 20,408 と 91,493 でした。合計 111901 サンプルになります。 しかし、新型コロナウイルス感染症のパンデミックの影響もあり、その多くが適切に整備されていなかったため、テスト段階で稼働していた低コストセンサーは28台のうち12台だけだった。 したがって、結果 (§2) で報告されたテスト エラーは、12 か所の低コスト センサーの場所と 32 か所の政府モニター、合計 44 か所の場所でテストされた予測を示しています。 さらに、トレーニング中に利用できるデータが少ないことの影響を理解するために、補足表 3 に示すようにモデルを評価したところ、1 年未満のトレーニング データでは、季節傾向が十分に把握されていないため、モデルのパフォーマンスが大幅に低下することがわかりました。
MPRNN は、Python のディープ グラフ ライブラリ 51 と PyTorch 52 を使用して実装されます。 モデル図を図3に示します。
デリー都市圏全体の大気質モニターのネットワーク。 b モデル アーキテクチャ。(a) で選択した領域を拡大すると、M 個のセンサー入力が層に入力され、単一の実出力が生成されることがわかります。 計算は上から下に進みます。 緑色のボックスは一連の場所からの入力 PM 濃度を表し、灰色のボックスは隠れ線形変換層を表し、ボックス内の数字は学習する内部パラメーターの数を表します。オレンジ色のボックスは LSTM セルを含む RNN を示します。 ここで 256 は、渡される隠れ層メッセージの埋め込みサイズであり、パフォーマンスに基づいて経験的に選択されています。 最終出力は、PM 濃度の単一の実数値です。 RNN への入力は、隠れ層からの長さ 256 のベクトル出力です。 詳細は補足テキストに記載されています。 c 低コストセンサーのサンプルモデル。 d 当社の実験用テストベッドのモニターと、得られた PM2.5 データの品質。 私たちは、センサー ネットワークを悩ませ、データの可用性に影響を与える頻繁な停止と通信の問題に対処する必要がありました。
MPRNN モデルのパフォーマンスをベンチマークするためのベースラインを設定するために、結合モデルを 2 つの代替モデリング アプローチと対比します。 1 つ目は、最先端の時空間モデリング手法である STHM 自体です。 STHM が予測のみに使用される場合、分散による未知の非線形空間依存性がモデル化されないため、パフォーマンスが低下します。 2 番目のベースラインは、位置 L に最も近い指定された数 (K) の近傍から情報を収集し、それらを訓練されたリカレント ニューラル ネットワークに入力して、L での値を予測する代替ニューラル ネットワークの定式化です。MPRNN とは異なり、このモデルはセンサーの各ペア間の明示的な空間的影響は考慮されていないため、より単純化された多変量非線形モデルがどのように動作するかを確認できます。 このモデルを k-最近傍 (k-NN) 空間ニューラル ネットワークと呼びます。
この研究結果を裏付けるデータは、政府の監視機関からの PM2.5 データと、当社の低コスト センサー ネットワークから収集されたデータの 2 つの部分で構成されています。 前者は公開データであり、ここからアクセスできます53。 リクエストに応じて著者がデータを提供することもできます。 後者はサードパーティのデータであり、著者は低コストセンサーのメーカーである Kaiterra との機密保持契約に拘束されており、データの条件内で査読者から要求された場合にのみ機密の査読に利用できるようになります。使用契約があり、倫理的および法的要件に準拠している場合。
すべての関連コードは、対応する著者からの要求に応じて入手できます。 コードは GitHub: https://github.com/shivariyer/epod-nyu-delhi-pollution からも入手できます。
Shaddick, G.、Thomas, M.、Mudu, P.、Ruggeri, G.、Gumy, S. 世界の人口の半数が、増大する大気汚染にさらされています。 NPJクライム。 アトモス。 科学。 3、1–5 (2020)。
記事 Google Scholar
Rao, ND、Kiesewetter, G.、Min, J.、Pachauri, S. & Wagner, F. インドの大気汚染に対する世帯の貢献とその影響。 ナット。 持続する。 4、1–9 (2021)。
記事 Google Scholar
Geng, G. et al. pm2のドライバー。 2002年から2017年にかけて中国で大気汚染により5人が死亡。 ナット。 地理学。 14、645–650 (2021)。
記事 Google Scholar
Liu, H.-Y.、Schneider, P.、Haugen, R. & Vogt, M. 低コスト pm2 の性能評価。 ノルウェーのオスロで 4 か月近くにわたって 5 つのセンサーを使用しました。 アトモスフィア 10、41 (2019)。
記事 Google Scholar
Liu、X.ら。 長期的な大気質モニタリングの代替としての低コストのセンサー。 環境。 解像度 185、109438 (2020)。
記事 Google Scholar
ジョルダーノ、MR 他低コストのセンサーから高品質のデータまで: 低コストの粒子状物質質量センサーを効果的に校正するための課題とベスト プラクティスの概要。 J.エアロゾルサイエンス。 158、105833 (2021)。
記事 Google Scholar
Tryner, J. et al. 室内空気質のための低コストのセンサーとサンプリング プラットフォームの設計とテスト。 建物環境。 206、108398 (2021)。
記事 Google Scholar
Prakash、J. et al. デリー市の都市部における微粒子の無機および有機成分のリアルタイムの供給源配分: IoT ベースのアプローチ。 大気汚染調査 12、101206 (2021)。
記事 Google Scholar
Bi、J.ら。 pm2.5 曝露モデリング用の一般公開されている低コストのセンサー測定: モニターの導入とデータ選択に関するガイダンス。 環境。 内部。 158、106897 (2022)。
記事 Google Scholar
Zusman、M.ら。 低コストの粒子状物質センサーの校正: 複数都市の疫学研究のためのモデル開発。 環境。 内部。 134、105329 (2020)。
記事 Google Scholar
Mahajan, S. & Kumar, P. 定量的な個人暴露モニタリング用の低コストセンサーの評価。 持続可能な都市協会 57、102076 (2020)。
記事 Google Scholar
Spyropoulos, GC、Nastos, PT & Moustris, KP 都市環境における大気汚染測定用のエーテル低コストセンサーデバイスのパフォーマンス。 大気質指数 (aqi) を適用した精度評価。 アトモスフィア 12、1246 (2021)。
Chu、H.-J.、Ali、MZ、He、Y.-C. 低コストの大気質センサーの空間キャリブレーションと pm 2.5 マッピング。 科学。 議員 10、1–11 (2020)。
記事 Google Scholar
Jiao, W. et al. コミュニティ空気センサー ネットワーク (cairsense) プロジェクト: 米国南東部の郊外環境における低コスト センサーのパフォーマンスの評価。 アトモス。 測定。 技術。 9、5281–5292 (2016)。
記事 Google Scholar
モラフスカ、L.ら。 大気質の監視と暴露評価のための低コストのセンシング技術の応用: どこまで進んでいますか? 環境。 内部。 116、286–299 (2018)。
記事 Google Scholar
Stavroulas, I. et al. ギリシャにおける、変動する都市大気質条件下での低コスト PM センサー (パープル エア PA-II) のフィールド評価。 アトモスフィア 11、926 (2020)。
記事 Google Scholar
Tancev, G. & Pascale, C. 大気質監視におけるフィールド校正低コストセンサーシステムの再配置の問題: サンプリングバイアス。 センサー 20、6198 (2020)。
記事 Google Scholar
キム、HS 他深い長期短期記憶ニューラル ネットワーク モデルを使用した毎日の pm 10 および pm 2.5 予測システムの開発。 アトモス。 化学。 物理学。 19、12935–12951 (2019)。
記事 Google Scholar
Kalajdjieski, J.、Mirceva, G.、Kalajdziski, S. pm 2.5 予測の注目モデル。 2020 年のビッグ データ コンピューティング、アプリケーション、テクノロジーに関する IEEE/ACM 国際会議 (BDCAT) 1 ~ 8 (IEEE、2020)。
Lin, L.、Chen, C.-Y.、Yang, H.-Y.、Xu, Z.、Fang, S.-H. 台湾におけるpm 2.5予測を改善するための動的システムアプローチ。 IEEE Access 8、210910–210921 (2020)。
記事 Google Scholar
Pérez, P.、Trier, A. & Reyes, J. pm2 の予測。 チリのサンティアゴでニューラル ネットワークを使用して、数時間前に 5 つの集中を実施。 アトモス。 環境。 34、1189–1196 (2000)。
記事 Google Scholar
Song, L.、Pang, S.、Longley, I.、Olivares, G. & Sarrafzadeh, A. 空間データによる時空間 pm 2.5 予測は、増分サポート ベクトル回帰を支援しました。 2014 年、ニューラル ネットワークに関する国際合同会議 (ijcnn) 623–630 (IEEE、2014)。
Wang, Y.、Wang, H.、Chang, S.、Avram, A. 偏微分方程式を使用した中国における毎日の pm 2.5 濃度の予測。 PLoS One 13、e0197666 (2018)。
記事 Google Scholar
Qin, D. et al. cnn と lstm に基づいた都市の pm 2.5 濃度の新しい複合予測スキーム。 IEEE Access 7、20050–20059 (2019)。
記事 Google Scholar
Liu, T. et al. インドの 3 つの都市、デリー、ベンガルール、プネーの大気汚染に対する地域の屋外バイオマス燃焼の季節的影響。 アトモス。 環境。 172、83–92 (2018)。
記事 Google Scholar
Chambliss, SE et al. 長期にわたる移動監視によって特定される、大気汚染における地域および地域規模の人種および民族の格差。 手順国立アカデミー。 科学。 USA 118、e2109249118 (2021)。
記事 Google Scholar
Liang、Y.ら。 カリフォルニア州のクラウドソーシング データを使用して、山火事の煙が室内空気質に与える影響を評価しました。 手順国立アカデミー。 科学。 USA 118、e2106478118 (2021)。
記事 Google Scholar
Ferraro, PJ & Agrawal, A. 調和のとれた実験による持続可能性科学の証拠の総合: 共通プールリソースにおけるコミュニティモニタリング。 手順国立アカデミー。 科学。 USA 118、e2106489118 (2021)。
Ludescher、J. et al. ネットワークベースの気象現象の予測。 手順国立アカデミー。 科学。 USA 118、e1922872118 (2021)。
記事 Google Scholar
Clements、AL et al. 低コストの大気質監視ツール: 研究から実践へ (ワークショップの概要)。 センサー 17、2478 (2017)。
記事 Google Scholar
リン、C.ら。 周囲のオゾンと二酸化窒素を正確に測定するための Aeroqual シリーズ 500 ポータブル ガス センサーの評価と校正。 アトモス。 環境。 100、111–116 (2015)。
記事 Google Scholar
シャスターマン、AA 他。 バークレー大気 CO 2 観測ネットワーク: 初期評価。 アトモス。 化学。 物理学。 16、13449–13463 (2016)。
記事 Google Scholar
モルチャノフ、S.ら。 無線分散型センサーネットワークによる都市大気汚染測定の実現可能性について。 科学。 トータル環境。 502、537–547 (2015)。
記事 Google Scholar
サン、L.ら。 2015 年香港マラソンの大気質モニタリングのための次世代空気センサー ネットワークの開発と応用。 センサー 16、211 (2016)。
記事 Google Scholar
辻田 W.、吉野 A.、石田博、森泉 T. 大気汚染監視用のガス センサー ネットワーク。 センサー アクチュエーター B: Chem. 110、304–311 (2005)。
記事 Google Scholar
Gao, M.、Cao, J.、Seto, E. pm2 の時空間変動を測定するための、低コストの連続読み取りセンサーの分散ネットワーク。 5位は中国の西安。 環境。 汚染 199、56–65 (2015)。
記事 Google Scholar
Xie、X.ら。 都市の大気汚染モニタリングと暴露評価方法のレビュー。 ISPRS インターナショナル J. Geo-Inform. 6, 389 (2017)。
記事 Google Scholar
ジェレット、M.ら。 都市内大気汚染暴露モデルのレビューと評価。 J. 露出科学。 環境。 エピデミオール。 15、185 (2005)。
記事 Google Scholar
ええ、C.ら。 公開されている衛星画像とディープラーニングを使用して、アフリカの経済的健全性を理解します。 ナット。 共通。 11、1–11 (2020)。
記事 Google Scholar
米国環境保護庁、大気品質計画および基準局。 ノースカロライナ州リサーチ トライアングル パークの大気質評価部門 (2021)。
テクノロジーズ、K. レーザーエッグ。 kaiterra.com (2022)。
ハリゴヴィンド、A. 粉塵管理委員会は、デリーのすべての大規模建設現場に空気品質モニターを設置することを推奨しています。 https://indianexpress.com/article/cities/delhi/dust-management-committee-recommends-air-quality-monitors-at-large-delhi-construction-sites-7437599/ (2021)。
A. デリーのソムヴァンシの大気質と数字のゲーム。 https://www.downtoearth.org.in/blog/air/delhi-s-air-quality-and-number-games-76214 (2021)。
Qian、H.ら。 中国の産業における大気汚染の削減と気候変動の相乗効果。 ナット。 持続する。 4、417–425 (2021)。
記事 Google Scholar
Tibrewal, K. & Venkataraman, C. インドにおける大気質とクリーン エネルギー政策の気候共同便益。 ナット。 持続する。 4、305–313 (2021)。
記事 Google Scholar
Johnson, C. kaiterra がセンシング デバイスの正確性と正確な校正をどのように保証するか。 https://learn.kaiterra.com/en/resources/how-sensedge-devices-are-accurate-and-correctly-calibrated (2022)。
テクノロジーズ、K. レーザーエッグを再調整する必要がありますか? https://support.kaiterra.com/does-the-laser-egg-need-to-be-recalibrated (2022)。
Gilmer, J.、Schoenholz, SS、Riley, PF、Vinyals, O. & Dahl, GE 量子化学のためのニューラル メッセージ パッシング。 第 34 回機械学習国際会議 (ICML) の議事録。 Vol. 70、1263–1272 (2017)。
Iyer, SR, An, U. & Subramanian, L. メッセージ パッシング RNN を使用して、まばらな交通渋滞パターンを予測します。 音響、音声および信号処理に関する IEEE 国際会議 (ICASSP)。 3772–3776 (2020)。
Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 学習表現に関する国際会議 (ICLR)。 (2015年)。
ワン、M.ら。 ディープ グラフ ライブラリ: グラフ ニューラル ネットワーク用のグラフ中心の高性能パッケージ。 プレプリントは https://arxiv.org/abs/1909.01315 (2019) にあります。
Paszke、A. et al. H. 神経情報処理システムの進歩 32 (Wallach, H.、Larochelle, H.、Beygelzimer, A.、d'Alché-Buc, F.、Fox, E.、および Garnett, R. 編) 8024–8035 (カランアソシエイツ社、2019年)。
中央公害防止委員会 (CPCB)。 大気質管理のための中央制御室 - 全インド。 https://app.cpcbccr.com/ccr/#/caaqm-dashboard-all/caaqm-landing/caaqm-comparison-data (2022)。
リファレンスをダウンロードする
この論文で著者の Shiva Iyer、Ananth Balashankar、Lakshminarayanan Subramanian が行った研究は、NYUWIRELESS 研究グループ (https://www.nyuwireless.com) の業界関連会社からの資金提供によって支援されており、この研究グループは Shiva Ayer にも一部資金を提供しています。研究で使用された空気質センサーとして。 Shiva は、「気候予測を改善するためのサブグリッド スケール重力波表現のためのデータに基づいたフレームワーク」と題された NSF 助成金 (受賞番号 OAC-2004572) からも一部資金提供を受けています。 バラシャンカール氏は博士号を取得しています。 ニューヨーク大学の学生であり、Google Student Research Advising Program からも一部資金提供を受けています。 私たちは、低コストのセンサーの開発と設置における Kaiterra との協力に感謝します。 私たちは、CPCB の公開ポータルでデータが利用可能であることを認めます。 また、古いベースライン モデルのコード作成における元修士課程の学生である Ulzee An の貢献にも感謝します。 この資料に記載されている意見、調査結果、結論、または推奨事項は著者のものであり、必ずしも NYUWIRELESS または Kaiterra の見解を反映しているわけではありません。
ニューヨーク大学コンピューターサイエンス学部、ニューヨーク州ニューヨーク州、米国
シヴァ・R・アイヤー、アナント・バラシャンカール、ラクシュミナラヤナン・スブラマニアン
スイス データ サイエンス センター、ETH チューリッヒ、チューリッヒ、スイス
ウィリアム・H・エーバーハルト
コロンビア大学、ニューヨーク州ニューヨーク州、米国
スジョイ・バタチャリヤ
政策設計の証拠(EPoD)、金融管理研究研究所(IFMR)、ニューデリー、ニューデリー、インド
スジョイ・バタチャリヤ & ジュディッタ・ルスコーニ
スイス、ベルン州教育研究イノベーション事務局 (SERI)
ジュディッタ・ルスコーニ
Kai Air Monitoring Pvt Ltd、ゴータム ブッダ ナガル、UP、インド
ファー・ホセ & ニタ・ソーンズ
シカゴ大学経済学部、シカゴ、イリノイ州、米国
アナント・スダルシャン
イェール大学経済学部、ニューヘブン、コネチカット州、米国
ロヒニ・パンデ
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
SI、AS、RP、および LS は、問題の概念化と設計に貢献しました。 SI、AB、WA、LS は時空間モデルに貢献しました。 SI、AB、WA がコード、データ分析、視覚化に貢献しました。 SB と GR は、RPSI、AB、WA、RP、AS、LS のデリー指導におけるセンサー ネットワークの展開とデータ収集の取り組みに貢献し、論文のさまざまなセクションの執筆と編集を支援しました。
ラクシュミナラヤナン・スブラマニアンへの対応。
サブラマニアン教授は、競合する非金融利益はないと宣言しますが、次の競合する金融利益があると宣言します。 サブラマニアン教授は、Entrupy Inc、Velai Inc、Gaius Networks Inc の共同創設者であり、世界銀行とガバナンス ラボのコンサルタントを務めています。 。 Subramanian 博士は、Velai Inc が社会経済予測モデルの分野で幅広く活動していると報告しています。 他のすべての著者は、競合する利益を宣言していません。
発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。
オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。
転載と許可
アイヤー、SR、バラシャンカール、A.、エイバーハルト、WH 他。 低コストのセンサーを使用して、きめの細かい時空間汚染マップをモデル化します。 npj Clim Atmos Sci 5、76 (2022)。 https://doi.org/10.1038/s41612-022-00293-z
引用をダウンロード
受信日: 2021 年 12 月 30 日
受理日: 2022 年 8 月 30 日
公開日: 2022 年 10 月 12 日
DOI: https://doi.org/10.1038/s41612-022-00293-z
次のリンクを共有すると、誰でもこのコンテンツを読むことができます。
申し訳ございませんが、現在この記事の共有リンクは利用できません。
Springer Nature SharedIt コンテンツ共有イニシアチブによって提供