【第5号】秘密計算コンソーシアム限定メールマガジン 8月第3週配信
秘密計算コンソーシアム限定メールマガジン 8月第3週配信
こんにちは。秘密計算コンソーシアム限定メールマガジンを配信しております、赤尾です。
毎月第3週は、秘密計算やプライバシー保護の技術ついて配信しています。
第5号では、連合学習(Federated Learning)について解説します。
連合学習は、データを分散した状態で計算を行う新たな機械学習の手法であり、従来の機械学習が持つ問題点を解決することができるため、非常に注目されています。
本号では、連合学習とは何か、連合学習を用いるメリットについて、また連合学習の実用例について解説します。
それでは、秘密計算コンソーシアム限定メールマガジンをご覧ください。
連合学習とは
連合学習(Federated Learning:FL)とは、データを集約せずに分散した状態で機械学習を行う手法です。
従来の機械学習が持つ弱点を克服した新たな機械学習の方法であり、2017年にGoogle社によって提唱されました。
Googleは、連合学習を用いることでデータを処理する過程の効率性を高め、スマートフォンがより良いパフォーマンスを発揮すると考えたのです。
例えば、スマートフォンを用いた連合学習は以下のようなプロセスで行われます。
スマートフォンに現在のモデルをダウンロードする
スマートフォン自らのデータに基づいた機械学習を行い、改善点や変更点を割り出す
改善点や変更点の情報のみスマートフォンからサーバーに送信する
サーバーはこの情報を他のスマートフォンから送信された情報と共有し、さらに良いパフォーマンスを発揮するための共有モデルとして改善する
以上の過程を下図に示します。
連合学習を用いるメリット
従来の機械学習は大量のデータを持ち主から離して扱うため、問題点やデメリットが存在し、連合学習は、それらの問題を解決する手法として注目されています。
以下、一般的な機械学習が持つデメリットと、連合学習によってデメリットが解決できる理由を説明します。
データの収集・計算負荷
従来の機械学習は、個々のデータを1つの場所に集約し、そのデータを用いて学習を行います。
学習が行われる前の大量のデータが一ヶ所に送信されるため、データの収集に時間がかかり、学習の際の計算負荷も大きくなります。
連合学習では個々のデバイスで機械学習を行い、改善点などの必要な要素のみ集計するため、大量のデータを収集する必要もなく、計算負荷も一定で行うことができます。
データのやり取りによる通信量・データの持ち主のプライバシー
一般的な機械学習では、大量のデータを扱うため、データのやり取りに多大な通信量がかかってしまいます。
加えて、データがデータの持ち主のデバイスから外に出てしまうため、プライバシーの担保ができないこともデメリットとして挙げられます。
連合学習では必要な要素のみ集計するため、大量のデータが持ち主のデバイスから離れることがありません。
それゆえ、データのやり取りによる通信量が少なく、データが持ち主から離れないためプライバシーも担保できます。
以上のように、連合学習は従来の機械学習が持つ問題点を解決するだけでなく、データ活用におけるハードルを下げることができると考えられます。
連合学習の実用例
Googleキーボードでの活用例
GoogleはAndroidのGoogleキーボードに連合学習を取り入れています。
Googleキーボードは連合学習を用いて、文字を入力している時に関連するキーワードを表示し、その候補の中から選んだキーワードをスマートフォンに学習させます。
そして、必要な情報のみサーバーに送信し、新しいモデルを再配布することで、より精度の高いキーワードを表示できるようにしています。
FLoCにおける活用例
FLoC(Federated Learning of Cohorts :群れの連合学習)は、Cookie(Webサイトの訪問情報)の代替技術として注目されています。
FLoCとは、興味関心が似ているユーザを一つのコホート(群れ)として同一なIDを付与し、コホートごとにトラッキング(追跡)をする仕組みです。
個人ごとに追跡するのではなく、コホートにしてから追跡することで、個人単体の情報を企業側が知り得ないことから、個人のプライバシーが担保されます。
またFLoCは連合学習でもあるため、機械学習はユーザのデバイス上で行われ、改善点のみが集約されます。
医療分野への活用例
複数の病院が連携して、ある病気の処置法を考える場合、機械学習を用いて医療データを分析することがあります。
その際、従来の機械学習を用いると、病気の罹患者の年齢・性別・身長・体重・病気にかかった時期・ほかの持病・生活習慣など、プライバシーに関わる情報を、全ての病院から集めて分析をすることになります。
そのため、データを集めることに抵抗感を示す人が多いと考えられるだけでなく、データを一ヶ所に集約するため、サイバー攻撃などによって個人情報が漏洩してしまう可能性もあります。
また、データの数が多ければ多いほど、先ほど連合学習のメリットのセクションでも解説した通り、データの収集や計算負荷などの問題にも直面すると考えられます。
一方、連合学習を用いる場合、その病気の罹患者の情報について病院ごとに集計・機械学習を行い、各病院の分析結果のみを集めて病気への処置法を考えます。
そのため、それぞれの病院から患者のデータが離れないので、プライバシーを確保したまま、病気への処置を分析することができるのです。
まとめ
連合学習(Federated Learning:FL)とは、2017年にGoogle社によって提唱された、従来の機械学習が持つ弱点を克服した新たな機械学習の手法である。
データがデータの持ち主から離れずに機械学習を行うことができるため、一般的な機械学習が持つ、データの収集・計算負荷・データのやり取りにおける通信量・プライバシーの問題を解決することができるため、注目されている。
GoogleキーボードやCookieに代わる技術であるFLoC、医療分野、金融、軍事など、プライバシーの保護が必要である様々な領域で活用に向けた動きが進められている。