角川インターネット講座 (7) ビッグデータを開拓せよ 解析が生む新しい価値
著者:坂内正夫
インターネット社会に求められるデータビジネス人材には、ICTとデータサイエンスに加え、、「社会をデザインする力」を持っていることが必要である。ビジネス分野における「社会をデザインする力」とはビジネス実務能力にほかならない。データビジネス人材はICT、統計、びじねすのすべてに精通している必要は必ずしもない。
筆者は、大きく2つのタイプのデータビジネス人材育成が必要だと考えている。 加えて、特に日本では3つ目のタイプのデータビジネス人材の育成も重要である。①のビジネスリーダーと②のアナリストをつなぐ、プロデューサー型の人材である。(P.84) |
種別 | 質問応答型 | パターン識別型 | 運転判断型 |
原理 | 「つながり」(連結)で現実を理解 | 「へだたり」(距離)で現実を理解 | 「あつまり」(粒子集団)で現実を理解 |
源流 | レオン・ハルト・オイラー | カール・F・ガウス | ルートヴィヒ・ボルツマン |
破壊技術 | ページランク | 深層学習 | 跳躍学習 |
学習源 | 書類・論文・ウェブ(テキスト) | 画像・音声(信号波形) | 企業情報・センサー |
代表応用 | ウェブ検索(グーグル) 質問応答(IBM) |
画像認識(顔認識) 音声認識(スマートフォン) |
業務の割当 マッチング/お勧め |
活用場面 | ウェブ情報検索 医師・法律支援 |
携帯ウェアラブルUI セキュリティ監視 |
作業効率(物流) 運転コスト(鉄道・水) 営業(金融、流通) |
人工知能の3分類(P.112)
機械学習の分野で証明された有名な定理としてノーフリーランチ定理がある。これは、いかなる問題、いかなるデータに対しても最高性能を保証する機械学習手法は存在しないことを証明した定理である。つまり、ビッグデータ解析に機械学習技術を適用するには、対象とする問題に関する専門知識と機械学習技術の体系的な理解にもとづく適材適所な技術運用が重要である。(P.160) |
パターン認識では「次元の呪い」という問題がある。特徴ベクトルの次元が大きくなると、通常、学習機械がそれに伴い複雑になり(パラメータ数が増えて自由度が大きくなる)過学習を起こしやすくなる。直観的には、特長がたくさんあれば分類精度がそれだけ向上すると思われるかもしれないが、そうではない。これが次元の呪いである。次元の呪いは別の見方をすると、高次元空間ではデータの分布が疎(スパース)となることを意味する。SVMでは特徴次元を高次元化することで、変換後の高次元空間はそのスパース性ゆえに線形識別関数で十分可能であるという知見を利用している。さらに、マージン(余裕度)という概念を導入した。変換後の高次元空間で線形識別器の学習を行う際、識別誤り率ではなく、識別境界付近でどれくらい分離の余裕があるかという新たな学習の基準を導入し、高次元空間における次元の呪いに対し、マージンを最大化するように学習することで過学習を抑制する分類器が構成できることを示したのである。(P.173-174) |
世界経済フォーラムの報告書では、パーソナルデータを3つに分類している。(P.219-220) ①主体的提供データ ②観測データ ③推定データ |
■ブックガイドで紹介されていた書籍
2030年 世界はこう変わる アメリカ情報機関が分析した「17年後の未来」
The Fourth Paradigm: Data-Intensive Scientific Discovery (English Edition)
著者Tony Hey,Stewart Tansley,Kristin Tolle
眼の誕生――カンブリア紀大進化の謎を解く
著者アンドリュー・パーカー
異端の統計学 ベイズ
著者シャロン・バーチュ マグレイン
昭和16年夏の敗戦 (中公文庫)
著者猪瀬 直樹
バースト! 人間行動を支配するパターン
著者アルバート=ラズロ・バラバシ
ドラッカー名著集8 ポスト資本主義社会
著者P・F・ドラッカー
データの見えざる手: ウエアラブルセンサが明かす人間・組織・社会の法則
著者矢野 和男
智場#119 オープンデータ特集号 (庄司昌彦 責任編集)
著者東 富彦,実積 寿也,渡辺 智暁,川島 宏一,西田 亮介,林 雅之,森田 朗(インタビュー),今井 武(インタビュー),庄司 昌彦