2021年のディープラーニング論文を1人で読むアドベントカレンダー
- 物販商品(倉庫から発送)ネコポス可能上巻(物理+電子)¥ 1,400
- 物販商品(倉庫から発送)ネコポス可能下巻(物理+電子)¥ 1,400
- ダウンロード商品上巻(電子)¥ 1,400
- ダウンロード商品下巻(電子)¥ 1,400
【「第4回 刺され!技術書アワード」ニュースタンダード部門 受賞】 画像処理のトップ国際会議の論文25本を丁寧に解説。2022年の最先端を体感しよう―― 機械学習やディープラーニングでは、最新の論文を読み込むことが必要です。2021年12月、Qiitaのアドベントカレンダーで1日1論文、計25日連続で全て1人で記事を書き、完走しました。ICCV2021、CVPR2021の論文を多く採用しています。 LGTM数では、「559」(2022/1/17時点)という結果で、企業主催のアドベントカレンダーに匹敵するものでした。 ※某プラットフォームで知られる有名AIベンチャーや、創業者が宇宙からお金を配った某著名企業の各アドベントカレンダーに対して、1人で勝利しました。 画像処理の最新技術動向はもちろんの、論文の読み方、探し方、記事の書き方など、きっと何かのヒントになるはずです。 また、本アドベントカレンダーの記念品としてぴったりの紙の本も用意しています。
元記事(試し読み)
https://qiita.com/advent-calendar/2021/solo-dl-papers 元となっている記事は全て公開しています。こちらをリファインしたものが本です。
感想
https://togetter.com/li/1839382
紙の本仕様
・上巻 B5・180P モノクロ ・下巻 B5・178P モノクロ 電子版は全てフルカラー。 「紙の本+電子版」の電子版は注文画面の「おまけファイル」からダウンロードできます。
Qiitaで公開中のものとの差異
👍文章が圧倒的に読みやすい 本書のために導入した、独自の自動校正プロセスを使い、1~2週間でB5・360ページ相当の校正を1人で回せました 👍章末問題の追加 概念的な内容が多いので、章末に四択問題を追加しました。最小限の手間でより理解を深められます 👍本文中のリンクにQRコードを追加し、紙の本でも読みやすい 👍一部コード追加 一部の章にサンプルコードの動かし方を追加しました 👍キャラクター追加 表紙と章末余白に申し訳程度のキャラクター要素を追加しました。かわいい!
ここがポイント
✅論文の丁寧な読み込み ✅自然な日本語での解説となるように工夫 ✅難しい概念は簡単な数値例で理解を深めるように配慮 ✅比較的簡単だが本質的なところを聞いている四択問題 ✅明示的なプログラミングは不要で、実装の手間がかからない
この本を読むと良い人
【ディープラーニングやっている人】 💪画像処理の論文を普段から読んでいる方 💪Image to image translationや生成モデルに興味のある方(本書はこの論文が多いです) 💪論文の読み方を知りたい方 【テクニカルライティングに興味がある方】 ✒1人アドベントカレンダーを実際に完走した際の苦労話が下巻に載っています ✒執筆完了から、いかにスピード感をもって仕上げるかの工夫もあります ✒全プロセスを1人で回すための、校正/校閲プロセスの効率化
この本が向いていない人
🥺機械学習やディープラーニングが全くわからない方 初歩的な説明は完全にすっ飛ばしているので、おそらく理解不能になると思います 🥺構造化データや自然言語処理について知りたい方 1個だけ時系列の論文が入っていますが、自然言語処理は1つもありません 🥺論文レベルの細かい理解ではなく、体系的にアウトラインを知りたい 生成モデルの体系的な理解でしたら『モザイク除去から学ぶ最先端のディープラーニング』(https://koshian2.booth.pm/items/1835219)があります
必要な事前知識
📏ディープラーニング、特に画像分野の基本的な理解(画像分類できる、DCGANできる等でOK)
2021年の論文の定義
いずれかの条件を満たす論文を対象とします 🔬プレプリントがarXivに2021年に投稿された 🔬2021年に開催されたカンファレンスで発表された
Buyee経由の注文に注意
ブラウザの言語環境が「日本語以外」で「物理本を含む」場合、「Buyee」経由の注文となることがあります。 これは海外発送代行サービスであり、日本在住の方は使う必要はありません。日本在住の方は「日本語のページ」から、ゆうパケットなどで発送するようにしてください。 Buyee経由ではBoothの注文履歴に反映されないため、おまけの電子版がダウンロードできません。
目次(上巻)
1️⃣たった数クリックでセグメンテーションのマスクを作る!? Edge Flowの紹介 (p.9) EdgeFlow: Achieving Practical Interactive Segmentation With Edge-Guided Flow (ICCV2021WS) 2️⃣TransformerでCTスキャンからCOVID-19を検出する論⽂の紹介【p値計算可能】 (p.19) Adaptive Distribution Learning With Statistical Hypothesis Testing for COVID-19 CT Scan Classification(ICCV2021WS) 3️⃣使うのは訓練済みStyleGANだけ!? 追加訓練なしで複数の画像合成タスクを実現する (p.29) StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN(arXiv) 4️⃣物体検出の回転は要注意! 回転は楕円で考えよう (p.41) Towards Rotation Invariance in Object Detection(ICCV2021) 5️⃣AnT:Transformerを使ったアニメーションの線画着⾊の⾃動化の論⽂紹介(p.50) The Animation Transformer: Visual Correspondence via Segment Matching(ICCV2021) 6️⃣【512pxで110FPS】ラプラシアンピラミッドを使った⾼速なスタイル変換LapStyleの紹介 (p.58) Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer(CVPR2021) 7️⃣【計算量削減】3DCNNで適応的に時間特徴を圧縮するSGS(SimilarityGuided Sampling)の紹介 (p.69) 3D CNNs With Adaptive Temporal Feature Resolutions(CVPR2021) 8️⃣『CNNで⽣成された画像は驚くほど簡単に発⾒できる...今のところ』の再現実装の論⽂を読む (p.82) [RE] CNN-generated images are surprisingly easy to spot... for now(arXiv) 9️⃣AIで海洋ゴミを検出するためのデータセットの構築の論⽂ (p.91) The Marine Debris Dataset for Forward-Looking Sonar Semantic Segmentation(ICCV2021WS) 1️⃣0️⃣【ACGANの逆襲】新たな損失関数を導⼊してBigGAN超え!? (p.99) Rebooting ACGAN: Auxiliary Classifier GANs with Stable Training(NeurIPS2021) 1️⃣1️⃣【GANをカスタマイズ】数枚〜数⼗枚のスケッチから特定構図が⽣成できる派⽣モデルを作る (p.117) Sketch Your Own GAN(ICCV2021) 1️⃣2️⃣GANの訓練はGとD同時にできる! 訓練を33%以上⾼速化するOne Stage GAN(OSGAN)の紹介 (p.127) Training Generative Adversarial Networks in One Stage(CVPR2021) 1️⃣3️⃣【GAN応⽤】Deformable Convを使ったフォント⽣成についての論⽂紹介【DG-Font】 (p.140) DG-Font: Deformable Generative Networks for Unsupervised Font Generation(CVPR2021) 1️⃣4️⃣【フーリエ変換×畳み込み】低解像度で訓練したのにフルHDでも推論できるInpainting「LaMa」の紹介 (p.153) Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV2022) 模範解答・解説 (p.171)
目次(下巻)
1️⃣5️⃣X線による持ち込み禁⽌品の検査を、AIで⾃動化するための⼤規模データセットの構築 (p.9) Towards Real-World Prohibited Item Detection: A Large-Scale X-Ray Benchmark(ICCV2021) 1️⃣6️⃣勾配停⽌が最も重要! Siamese Networkを限りなくシンプルにした表現学習SimSiamの紹介 (p.16) Exploring Simple Siamese Representation Learning(CVPR2021) 1️⃣7️⃣⾳声分類の前処理はメルスペクトログラムでOK? 従来のMFCCより⾼精度な画像分類ベースの論⽂の紹介 (p.25) FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition(ICCV2021WS) 1️⃣8️⃣不均衡データ対策は決定境界が⼤事! ロスを変えてファインチューニングするだけで精度が上がる「Influence-Balanced Loss」の紹介 (p.32) Influence-Balanced Loss for Imbalanced Visual Classification(ICCV2021) 1️⃣9️⃣【ResNet50/4K 33.2FPS】⾼解像度の動画をリアルタイムで⼈物切り抜き(Matting)できる論⽂の紹介【CVPR2021受賞】 (p.44) Real-Time High-Resolution Background Matting(CVPR2021 Best Student Paper Honorable Mentions) 2️⃣0️⃣【PFN】株式のポートフォリオの最適化を深層学習ベースで⾏う研究(p.63) Deep Portfolio Optimization via Distributional Prediction of Residual Factors(AAAI2021) 2️⃣1️⃣【De-Rendering】画像内のテキストを再編集する研究の紹介 (p.76) De-Rendering Stylized Texts(ICCV2021) 2️⃣2️⃣【CutMix×オーバーサンプリング】単純明快!不均衡データ対策のデータレベルのアプローチ「Context-rich Minority Oversampling」【CMO】(p.86) The Majority Can Help The Minority: Context-rich Minority Oversampling for Long-tailed Classification(arXiv) 2️⃣3️⃣CVPR2021 Best Paperの『GIRAFFE』を徹底解説! オブジェクト単位で変形でき、静⽌画から教師なしでDisentangleできる3Dレンダリングベースの⽣成モデルとは? (p.93) GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields(CVPR2021 Best Paper Award) 2️⃣4️⃣前処理の改良でここまで伸びる! 実世界での画像劣化とのギャップに注⽬した超解像モデル「Real-ESRGAN」紹介 (p.116) Real-ESRGAN: Training Real-World Blind Super-Resolution With Pure Synthetic Data(ICCV2021WS) 2️⃣5️⃣実装から⾒るYOLOX:2021年のYOLOシリーズを超えて (p.134) YOLOX: Exceeding YOLO Series in 2021(CVPR2021WS) 模範解答・解説 (p.156) アドベントカレンダーを終えて (p.163)
補足
★正誤表 https://github.com/koshian2/solo-dl-papers-2021 ★3Dモデル・衣装クレジット EMU、ぽんこつぶーす、~Starry Sea~☆彡