国内最大級のPythonイベントPyCon JP 2021が10月15〜16日に開催 34本のトークを公開予定

一般社団法人PyCon JPが毎年開催しているPythonカンファレンス「PyCon JP 2021」が、現在参加チケットを販売中だ。

カンファレンスは10月15日（金）〜16日（土）の2日間にわたって開催され、オンラインとオフラインのハイブリッドを予定している。オンラインはDiscord会場とzoom上でトークが公開され、オンサイト（現地会場）はCOVID-19の感染状況を考慮して現在検討中とのことだ（9月15日現在）。

34本ものPython関連トーク、データ解析や機械学習がテーマのものも

カンファレンスで実施されるトークは34本にものぼる。機械学習をはじめAIプロジェクトの勘所、負荷試験などテーマは多岐に渡るので、Python好きはもちろん、少し興味があるという方も大いに楽しめるはずだ。本稿では現在公式ページで公開されているもののうち、機械学習やデータ分析に関わるトークを紹介したい。

Pythonによるアクセスログ解析入門 (by 石原祥太郎)

本講演では、Webサービスのアクセスログを題材に、Pythonを用いた実装も含めたデータ解析の技法や数々の応用事例を紹介します。具体的には、講師が所属する日本経済新聞社の事例を題材に、記事の閲覧数の集計や推薦を扱います。他社事例として、講師が上位に入った国際的な機械学習コンペティションの話題も取り上げ、国内外でのアクセスログ解析の一端を紹介します。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：参加者には、Pythonの基礎的な文法を理解している程度の知識を要求します。pandasや機械学習など個別の話題については、概要やライブラリの使い方を具体的に解説する予定です。
持ち帰れる知識・ノウハウ：
- アクセスログ解析の概要
- pandasの概要・便利な機能
- 日本の事業会社における活用事例
- 国際的な活用事例

scikit-learnの新機能を紹介します (by Shigenobu Fujine)

このトークでは、誰もが使ったことのあるscikit-learnに再入門し、近年追加された新機能を紹介します。前処理では、DataFrameを一発で特徴量変換できるColumnTransformerを紹介します。学習では、カテゴリ値を扱えるHistGradientBoostingClassifierと、グリッドサーチよりも高速なHalvingGridSearchCV、最後にPipelineとその可視化方法を解説します。トークを聞けば、scikit-learnをより便利・快適に使えるようになります。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
必要とする前提知識：なし
- scikit-learn、pandas、numpyのパッケージを使って機械学習を実装した経験があると、トークをより理解しやすいです。
持ち帰れる知識・ノウハウ：
- scikit-learnの基礎知識
- DataFrameのまま、各列を並列で前処理する方法
- LightGBMのようにカテゴリ値を使用したクラス分類や回帰モデルの構築手法
- 処理全体をパイプラインで一元管理し、処理フローを可視化する方法

位置データもPythonで！！！ (by Hideyuki Ogawa)

デジタルデバイスが広く行き渡り、デバイスからは多くのデータが取得できます。コロナ禍の今、モバイルの位置データを活用してニュースでは人流を報じています。位置データは身近となる一方、生データが公開されていないため、その扱い方が語られることが少なく感じられます。本トークでは、位置データもPythonを使うと簡単に扱えることを示したあと、実際の人の動きのデータや気象データを扱う事例を取り上げます。

レベル：Beginner
言語：Japanese (Speak) / Both (Material)
必要とする前提知識：何もなくても楽しめます
持ち帰れる知識・ノウハウ：pythonで位置データを扱う際のエコシステム（位置データを扱うためのパッケージ: shapely/ geopandas 、位置データ可視方のためのパッケージ: folium / pydeck / plotly、気象データを扱うためのパッケージ xarray）、位置データを扱う面白さ

Vertex Pipelines ではじめるサーバーレス機械学習パイプライン (by Sugiyama Asei)

このトークでは機械学習パイプラインを構築する方法について、具体的なノウハウを共有します。Vertex Pipelines で用いられるKubeflow Pipeline は現在、V1 から V2 へと大きな変更の途中であり、ドキュメントも未整備で、イチから使い始めることはなかなか困難です。このトークを聞くことで、Vertex Pipelines を用いて機械学習パイプラインをサーバーレスに構築する方法の見当がつくようになります。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：次の3点を前提とします
- 機械学習についての基礎知識 (学習用/評価用データ、モデルの訓練、評価指標)
- Python で何らかの CLI アプリケーションを作成した経験 (argparse を使ったことがある、程度)
- コンテナの基礎的な知識 (docker build, docker run がわかる程度)

時間の都合上コンテナの扱いについてはあまり詳細には触れません、Kubernetes の知識も不要です

Python をフル活用した工場への AI 導入 & データ活用基盤構築事例 (by hoto17296)

とある工業製品の製造工場でのAI導入の課題に対して、エッジ IoT からクラウドまで広範にわたる機械学習・データ分析基盤システムの構築を行い、その全ての過程でPythonを利用しました。全く性質の異なるそれぞれの領域でどのようにPythonを活用し、ひとつの大きなシステムを構築してきたかという応用事例をご紹介します。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：
- Python に限らない何らかのプログラミング経験
- ネットワーク, AWS, Docker のチュートリアルレベルの知識
持ち帰れる知識・ノウハウ：
- エッジ環境で機械学習 (推論) とデータ収集システムを構築するノウハウ
- TCP ベースの独自プロトコルを実装するノウハウ
- AWS + Docker でセンサデータを扱うための ETL 基盤を構築するノウハウ
- AWS + Docker で機械学習基盤を構築するノウハウ

実践Streamlit & Flask - AIプロジェクトのプロトタイピングから本番運用までをいい感じにするPythonicなやりかた (by shinyorke)

AIプロジェクトにおいて, Webアプリケーションを開発し, 本サービスとして構築・運用するために何が必要で何が大切か? というテーマでお話します。・Streamlitによるプロトタイプ開発とPoC検証・Flask/FastAPIを使ったWebアプリケーション開発・GCPを使ったホスティングと高トラフィック対策こちらを「AIワクチン接種予測」という実際のサービス事例および, サンプルのアプリケーションを元に紹介します。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：
- 【必須】
  - Pythonを使ったWebアプリケーション開発の経験（Frameworkは問わず）
  - Webアプリケーションをクラウド上で構築・運用をしたことがある（AWS, GCP, Azure等, なんでも結構です）
- 【あると望ましい】
  - AWS Lambda, Google Cloud Functionsなど, 関数ベースのサーバレスなサービスでWebアプリ開発経験がある
  - FastAPI, FlaskでのWebアプリケーション開発
  - フロントエンドアプリ開発（React, Vue.js, Angular何でもOK）
持ち帰れる知識・ノウハウ：
- 機械学習プロジェクトなど, データサイエンティストが作ったプロトタイプを本番サービスとしてローンチするためのノウハウ・勘所
- Webサイトの高トラフィック対策. 特にクラウド上でWebサービスを運用する際にやったほうがいい・気をつけるべきこと
- FlaskやFastAPIといった軽量Frameworkを使うときのパッケージ構成の考え方
- Webアプリケーション開発するエンジニアと, 機械学習エンジニアおよびプロダクトオーナーが円滑にコミュニケーションを進める方法

コミュニティサービスにおけるレコメンデーションの変遷とAWS SageMakerを用いた機械学習パイプラインについて (by takapy)

私の所属するコネヒト株式会社が運営するQAサービス「ママリ」では月間投稿数が約130万件ほどありますが、そのほとんどがルールベースでユーザーに届けられていました. そこで2020年後半から本格的にレコメンデーション機能の実装に取り組み始め、約半年間で様々なアップデートを行い実験してきました. このトークでは、レコメンデーション機能を実装する際に得た知見や勘所を中心に、レコメンデーションアルゴリズムや機械学習基盤構築Tipsをご紹介します.

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：
- Pythonを用いたデータ分析経験
- 機械学習ワークフローの基本的な流れ（実務経験はなくとも、知識があれば大丈夫です）
- （あると良い※任意）レコメンデーションエンジンの開発経験
- （あると良い※任意）AWS SageMaker/StepFunctionsを使ったことのある経験
持ち帰れる知識・ノウハウ
- Pythonを用いたレコメンデーションアルゴリズムの実装例
- 実サービスへ機械学習を導入する際の勘所
- AWS SageMakerとコンテナを用いたデータ分析（python）環境構築Tips
- SageMakerとStepFunctionsを用いた機械学習パイプライン構築Tips

Pythonで始めるドキュメント・インテリジェンス入門 (by yag_ays)

ビジネス文書をデータ化し構造や内容を理解するアプリケーションはドキュメント・インテリジェンスと呼ばれ、画像処理や自然言語処理といった複数の要素技術を組み合わせて開発する必要があります。何が必要でどう実現すれば良いのかといった第一歩を、Pythonでの具体的な構築事例とともに紹介します。

レベル：Intermediate
言語：Japanese (Speak) / Japanese only (Material)
前提知識：
- 基礎的なPythonの知識
- 画像処理や自然言語処理についての深い知識は求めません
持ち帰れる知識・ノウハウ：
- ドキュメント・インテリジェンスの概要
- アプリケーションを構築する上で必要とされる技術と、それを実現する上での具体的なPythonのパッケージとの対応関係の理解
- 参加者自身の課題に適用するときに必要となる基礎知識、難易度を判断するための具体事例