2017-09-30

VGGNetを参考にしたCNN(tensorflow)でマンション関連の画像を分類してみる

機械学習

マンション関連の画像をCNNで分類する試みをしてみた。普通のcifar-10のモデルだと正解率が低かったが、VGGNet(Visual Geometry Group Networks)と呼ばれる高性能のCNNを実装しているサイト(すぎゃーんメモ)があったので、試しに実装してみたところ正解率87.8%を達成することができた。今回はそのログとして詳細を書いていこうと思う。

目次
1.画像の内訳
2.CNN
3.ラベル毎の正解率

1.画像の内訳

まず、訓練とテストに使った画像の枚数と、その内容の内訳は次の通りだ。

訓練画像→　合計 25300枚
Label 0
玄関 50, 廊下 50, リビング 150, 寝室 100, クローゼット 100 (増幅して6300枚)

Label 1
キッチン 300 (増幅して6000枚)

Label 2
トイレ 400, 風呂 150, 洗面化粧室 150　(増幅して7000枚)

Label 3
眺望 300枚 (増幅して6000枚)

テスト画像→合計 540枚
Label 0
玄関 30, 廊下 30, リビング 30, 寝室 30, クローゼット 30 (150枚)

Label 1
キッチン 115(115枚)

Label 2
トイレ 80, 風呂 40, 洗面化粧室 40 (160枚)

Label 3
眺望 115 (115枚)

ラベル0〜3までの4種類で訓練画像は25300枚、テスト画像は540枚。
下にラベル毎の画像の一部を抜粋した。96pxで、左からラベル順になっている。

f:id:trafalbad:20170930083205p:plain

元画像は少ないものの、画像をうまく増幅させた(increacing_images.py)。画質に変化を加えるのは原則一回として、画質にあまり影響のない範囲で増幅させた。

元画像→ガンマ変換→コントラスト→.......→左右変換→角度変換

#左右変換
flip_img=[]
for i in seen5000:
    flip_img.append(cv2.flip(i, 1))

#角度変換
rad=np.pi/90 # circumference ratio
# distance to move to x-axis
move_x = 0
# distance to move to x-axis
move_y = 96 * -0.000000005
 
matrix = [[np.cos(rad),  -1 * np.sin(rad), move_x], [np.sin(rad),   np.cos(rad), move_y]]
 
affine_matrix3 = np.float32(matrix)
afn_90=[]
for i in gaikan:
    afn_90.append(cv2.warpAffine(i, affine_matrix3, size, flags=cv2.INTER_LINEAR))

”ガンマ変換”や”コントラスト”は元画像に一回しか適用できない。例えば”ガンマ変換”した画像にさらに”コントラスト”を適用すると画質がやばくなる。

しかし、”左右変換”と”角度変換”は”ガンマ変換やコントラスト”に適用しても画質は変換しないので、単純に全画像数を2倍にできる。最後にこの2つを持ってくることで効率よく画像を水増しできる。

”角度変換”は値を変えれば何回でも使えるので増幅にはおすすめだ。

2.CNN

元々はcifar-10のモデルで正解率を出したが、70%くらいだったので、もっといいのはないかと探していたところ、アイドル画像分類というサイト（すぎゃーんメモ）でVGGNetを参考にしたモデルが紹介されていた。かなりの精度だったので、今回はこれを適用してみた。

結果は87.8%というかなり精度の高い結果。cifar-10のシンプルなものよりも確実に上がっている。もっと層を厚くすれば正解率は上がりそうな気もするけど、精度としては十分なので、これを使った。

ただ唯一違うのはバッチノーマライゼーションを適用してる点だ。別に適用しなくても正解率はほとんど変わらないが、プーリング層だけのモデルと比較して2%ほど正解率が上昇した。

def cnn(x):
    BATCH_SIZE = 128
    def _variable_with_weight_decay(name, shape, stddev, wd):
        var = tf.get_variable(name, shape=shape, initializer=tf.truncated_normal_initializer(stddev=stddev))
        if wd is not None:
            weight_decay = tf.multiply(tf.nn.l2_loss(var), wd, name='weight_loss')
            tf.add_to_collection('losses', weight_decay)
        return var

    def _activation_summary(x):
        tensor_name = x.op.name
        tf.summary.histogram(tensor_name+'/activations', x)
        tf.summary.scalar(tensor_name + '/sparsity', tf.nn.zero_fraction(x))

    with tf.variable_scope('conv1') as scope:
        kernel = _variable_with_weight_decay('weights', shape=[3, 3, 3, 32], stddev=0.1, wd=0.0)
        conv = tf.nn.conv2d(x, kernel, [1, 1, 1, 1], padding='SAME')
        biases = tf.get_variable('biases', shape=[32], initializer=tf.constant_initializer(0.0))
        bias = tf.nn.bias_add(conv, biases)
        conv1 = tf.nn.relu(bias, name='conv1')
        _activation_summary(conv1)
    pool1 = tf.nn.max_pool(conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pool1')
    norm1 = tf.nn.lrn(pool1, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm1')
    
    with tf.variable_scope('conv2') as scope:
        kernel = _variable_with_weight_decay('weights',shape=[3, 3, 32, 64],stddev=0.1,wd=0.0)
        conv = tf.nn.conv2d(norm1, kernel, [1, 1, 1, 1], padding='SAME')
        biases = tf.get_variable('biases', shape=[64], initializer=tf.constant_initializer(0.0))
        bias = tf.nn.bias_add(conv, biases)
        conv2 = tf.nn.relu(bias, name='conv2')
        _activation_summary(conv2)
    pool2 = tf.nn.max_pool(conv2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pool2')
    norm2 = tf.nn.lrn(pool2, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm1')
    
    with tf.variable_scope('conv3') as scope:
        kernel = _variable_with_weight_decay('weights',shape=[3, 3, 64, 128],stddev=0.1,wd=0.0)
        conv = tf.nn.conv2d(norm2, kernel, [1, 1, 1, 1], padding='SAME')
        biases = tf.get_variable('biases', shape=[128], initializer=tf.constant_initializer(0.0))
        bias = tf.nn.bias_add(conv, biases)
        conv3 = tf.nn.relu(bias, name='conv3')
        _activation_summary(conv3)
    pool3 = tf.nn.max_pool(conv3, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pool3')
    norm3 = tf.nn.lrn(pool3, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm1')
    
    with tf.variable_scope('conv4') as scope:
        kernel = _variable_with_weight_decay('weights',shape=[3, 3, 128, 256],stddev=5e-2,wd=0.0)
        conv = tf.nn.conv2d(norm3, kernel, [1, 1, 1, 1], padding='SAME')
        biases = tf.get_variable('biases', shape=[256], initializer=tf.constant_initializer(0.0))
        bias = tf.nn.bias_add(conv, biases)
        conv4 = tf.nn.relu(bias, name='conv4')
        _activation_summary(conv4)
    pool4 = tf.nn.max_pool(conv4, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pool4')
    norm4 = tf.nn.lrn(pool4, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='norm1')
    
    with tf.variable_scope('fc5') as scope:
        dim = 1
        for d in pool4.get_shape()[1:].as_list():
            dim *= d
        reshape = tf.reshape(pool4, [BATCH_SIZE, dim])
        weights = _variable_with_weight_decay('weights', shape=[dim, 1024],stddev=0.02, wd=0.005)
        biases = tf.get_variable('biases', shape=[1024], initializer=tf.constant_initializer(0.0))
        fc5 = tf.nn.relu(tf.nn.bias_add(tf.matmul(reshape, weights), biases), name='fc5')
        _activation_summary(fc5)

    with tf.variable_scope('fc6') as scope:
        weights = _variable_with_weight_decay('weights', shape=[1024, 256],stddev=0.02, wd=0.005)
        biases = tf.get_variable('biases', shape=[256], initializer=tf.constant_initializer(0.0))
        fc6 = tf.nn.relu(tf.nn.bias_add(tf.matmul(fc5, weights), biases), name='fc6')
        _activation_summary(fc6)

    with tf.variable_scope('fc7') as scope:
        weights = _variable_with_weight_decay('weights', [256, NUMCLASS], stddev=0.02, wd=0.0)
        biases = tf.get_variable('biases', shape=[NUMCLASS], initializer=tf.constant_initializer(0.0))
        fc7 = tf.nn.bias_add(tf.matmul(fc6, weights), biases, name='fc7')
        _activation_summary(fc7)

    return fc7   # shape=(BATCH_SIZE, NUMCLASS)

すぎゃーんメモではアイドル画像という単体の物体に適用していたが、今回はマンション関連の画像を対象にしたところがキー。どこが違うのかというと、マンション関連の画像は結構いろいろな関係ない物体が写っているので、

トイレ=トイレ
キッチン=キッチン

とキレイに分類できないところで、CNNも上手く分類できないのではないか心配だった。

しかし、ラベル設定を適切にして、ラベルを貼る人間がこれは「キッチンだな」とか「室内やな」みたいに確信を持って言えるほど混乱しない画像なら、CNNでも高い正解率は叩き出せるっぽい。

各ラベル毎の正解率は次にまとめた。

3.ラベル毎の正解率

各ラベル毎の正解率は以下の通り

Label 0 96.1%

Label 1 77.3%

Label 2 92.5%

Label 3 93.9%

トータルの正解率は87.8%だけど、ラベル毎の正解率を見てみるとやっぱり、キッチン画像がかなり正解率が低い。

→理由を考えてみる

室内 (Label 0)
→とりあえずベットとか天井とかあるので、室内とはわかる

キッチン (Label 1)
→基準が「コンロと水面台が写ってること」なので、それ以外にもいろいろ写ってるとわかりにくい

トイレ (Label 2)
→便器があればとりあえずわかる

眺望 (Label 3)
→景色の一部が画像の大半を占めているので、多分一番わかりやすい

キッチンは「コンロと水面台が写っている」を基準にした。しかし、他に別なものが写ってる確率が高いキッチンは、ラベル0の”室内”にカウントされてしまうっぽい。

下の画像はキッチンの画像だけど、人間でも「室内」といわれれば、そう見えなくもない感じなので、機械にも分類しにくいんだなと考えられる。

f:id:trafalbad:20170930141735p:plain

これが多分、正解率が下がった原因。ここは明確にキッチンとわかる画像を選べばいいんだけど、汎用性が高くないと意味がない。結局、慈悲は無粋だなというわけで、ちょっとわかりにくいのを配置してみたら結果的に正解率が微妙になった。

今回はマンション関連の画像を分類してみた。なんかいろいろとCNNの分類例はある。

けど、動物や顔だったりの単体の物体ばっかりで、鍋料理みたいにいろいろ入ってるマンション画像を分類する例はあまりないのではと思った。けどまあ、適切にラベル設定をして、ラベル付する人間でも迷わない範囲の画像ならCNNでも高い精度は出た。

＊one-hot表現について
参考にしたすぎゃーんメモでは損失関数のところでone-hotを適用してたけど、cifar-10形式では特に必要ないらしい。ただしラベルは0から始めないといけないらしく、出力層(NUMCLASS)が4でもラベルは0〜3にしないといけない。これで一回ハマったので、注意。

本当はDCGANでデータセットを作ってから分類させようとしたんだけど、諸々の事情でCNNを先に試しました。DCGANは上手くいったらまた別記事で書く予定。

2017-07-05

機械学習（ディープラーニング）画像認識・処理のための画像データ数値化&増やし方

機械学習

今回は機械学習（ディープラーニング）で画像データを収集し、それを増やす方法について書きます。

最終的にはDCGANで何かしら作成することを考えており、今回はDCGANのデータセットとして「より少ない手間で、よりたくさんのデータを作成する」をモットーに、画像データ収集法とそのデータを増やす方法（人工データ合成）をまとめておこうと思います。

目次
・画像データ収集方法
・画像のリサイズとラベル付け
・画像データを増やす方法

f:id:trafalbad:20170705152452j:plain

画像データ収集方法

画像のURLを集める
まず画像を集めるために、どっかしらのサイトからwebスクレイピングで画像のURLを収集します。一般的なサイトから画像のURLを取得する方法で、方法はいくつかある。
1.手作業で集める
2.サイトからスクレイピングする
3.Google Custom Search APIで画像を取得する

自分は手作業で集めました。スマホでポンポン保存して、AirDropでPCに送った。2のサイトからスクレイピングは限定的なので、3のGoogle Custom Search APIでのGoogle検索した画像をスクレイピングする方法がメジャーなようです。

ただ画像に著作権がある場合は、慎重になった方が良さそうです。

今回はスクレイピングした画像のURLを取得するケースを考えます。URLから画像を一括で取得するので、フォルダにURLの一覧を保存して、まとめておきます。

URLを画像に戻す
次はターミナルコマンドでフォルダのURLを画像に戻します。ターミナルから、

ls  
cd [保存場所]

でフォルダの場所に移行したら、下記のコマンドを入力します。

cat フォルダ名 | wget -I -

これでフォルダ内のURLが画像に変換され、downloadsに保存されます。一枚一枚保存されますので、新たなフォルダを作って保存し直します。

画像のリサイズとラベル付け

macで画像のリサイズ
次は画像の大きさがバラバラなので、縦、横を同じの正方形にして、好きなサイズにリサイズ。

今回は見やすさも考えて、128×128pxにしました。opencvやpythonでリサイズもできますが、mac OSにフォルダ内のデータを一括してリサイズする機能が付属していますので、こちらを使います。

詳しくはこの記事を参照
これでフォルダ内の画像は一括してリサイズされます。

画像のラベル付けについて
画像にラベル付けする作業はとても面倒くさいので、それを簡単にする方法がいくつかあります。

方法1.ruby on railsのアプリを用いた方法
ruby on railsで画像を見ながらラベルをつけるアプリを作成しました。

trafalbad.hatenadiary.jp

画像を確認しながらラベル情報を入力するというのは普通は無理なんですが、それ用のrailsアプリを作った。

画像収集のレギュラーな方法としては、webスクレイピング→ラベル付けの順番でやるのが普通だと思います。

方法2.DCGANで同一カテゴリの画像を生成する方法
これはイレギュラーな方法です。今度試そうと思ってるんですが、DCGANでラベルのカテゴリ毎の画像を作成させる方法です。ラベルの種類が10個あったら、カテゴリ毎にDCGANに画像（つまり10種類の画像）を生成させ、データを増やそうと言うわけです。

まず少量のデータセットをカテゴリ別に作り、次にDCGANでカテゴリ別の画像を大量に作成させます。

こちらは実際にやってる人は見たことないんですが、DCGANの使い方としては非常に有能ではないかと思ってます。なぜなら、ラベル付けも必要ないし、データ収集も少量で済むからです。

本記事ではこの方法は触れませんが、別記事でDCGANの活用方法としてデータセットを増やすことについて触れたいと思ってます。

画像データを増やす方法

画像のデータが集まったら画像を増やしていきます。具体的にはopencvで左右反転させたり、色彩を淡くしたりする方法。画像をベクトルに変換することで、機械学習のデータとしては十分、学習データに値するものになります。

opencvで画像を数値化
まず、opencvのインストール（方法はこちらを参照）。フォルダ内の相対パスを取得して、画像を数値に変換します。

from PIL import Image
import os
import _pickle as cPickle
import os
import sys
import pickle
import numpy as np
import cv2, matplotlib
import numpy as np
import matplotlib.pyplot as plt

path1="フォルダパス"
images = os.listdir(path1)#画像の読み込み
img_batch=[]
for i in images:
    img_batch.append(cv2.imread(path1+'/'+i))#フォルダ内の画像を数値化

今回は変換した画像は300枚。各画像は(128, 128, 3)の形式です。画像を表示するときには、そのまんまmatplotlibで表示できます。

画像の増やす
変換した画像300枚を元手に画像を増やして行きます。今回はQiitaの画像水増しテクニックを使います。opencvで淡くしたり、することもできますが、画質が粗くなるケースがあるので、画像の質を保ちながら画像を増やすテクニックを使います。

方法はねずみ算式に増やしていきます。まず素画像300枚に反転をかけ、600枚に増やします。次に600枚にコントラスト調整をかけ、1200枚にします。この方法でねずみ算式に増やし、200枚の画像を、5000枚に増やすことができました。

本当はもっと増やせたんですが、128pxだと見易さの兼ね合いから平滑化など、の処理は省きました。
画像が見やすいものならQiitaの記事の通りにやって次のようにねずみ算式に300枚の画像を18000枚に増やして問題ないはずです。

コントラスト調整（300×2）
Salt&Pepperノイズ（600×2）
ガンマ変換（1200×2）
平滑化（2400×2）
ガウス分布に基づくノイズ（4800×2）
反転（9600×2）

最後に「反転」をかけるのがコツです。こうすることで、より多くの画像の鮮明度を保持することが可能になります。
ちなみに「角度変換」をかけることで「反転」と同じ効果が得られます。「角度変換」は値を変えると何回も使えるので2倍に増やすには本当に便利。

rad=np.pi/220 # 角度変換
# distance to move to x-axis
move_x = 0
# distance to move to x-axis
move_y = 96 * -0.00000000000000006
 
matrix = [[np.cos(rad),  -1 * np.sin(rad), move_x], [np.sin(rad),   np.cos(rad), move_y]]
 
affine_matrix3 = np.float32(matrix)
px_size=(96,96)
afn=[]
for i in seen10000:
    afn.append(cv2.warpAffine(i, affine_matrix3, px_size, flags=cv2.INTER_LINEAR))

matplotlibで64枚を可視化してみる

tensorflowでも複数の画像をまとめて表示する方法があります。今回はそれを真似てnumpyとmatplotlibを使って可視化。

今回は元画像64枚一気に表示します。

f:id:trafalbad:20170930141735p:plain

今のところはどんな画像かを確認するためのもの。なので、そんなに凝らなくていいと思ったので64枚一気に表示させてみました。

iti=t_image[160:230]
col=8
rows = []
for i in range(8):
    rows.append(np.hstack(iti[col * i + 0:col * i + col]))
plt.imshow(np.vstack(rows))
plt.show() #淡くしたの64枚可視化

今回は画像のデータを収集&増やす方法を書きました。まあopencvを使えば簡単なのですが、案外まとめてあるサイトがなかったのでまとめました。

この画像を元にDCGANで何かしてみようと思ってます。特にデータセットを増やすことができたら、かなり有用性があるのではと思いますが。そこら辺も含めてDCGANについてはまた別記事で書くつもり。

2017-06-18

無理して結婚しなくてもいい生き方-独身でも自由に生きる人生について考えてみる

Tips

最近は結婚する人たちを周りでかなり見かけるのに伴い、自分もしなければならないという強迫観念に襲われる。しかし、実際のところ最近では「結婚しなくてもいい」という考えの人も多いので、自分も縛られたくないため、なるべく無理して結婚はしたくない。

そこで結婚しなくても人生を楽しみ、自由に生きていくための方法について、個人的にとても参考になることをまとめていきたい。

目次
・「したくない結婚」はしない方がいい
・結婚しなくても自由な人生を送るために

f:id:trafalbad:20170618011003j:plain

「したくない結婚」はしない方がいい

日本にはまだ昭和の考えが根付いてて、「結婚しないとヤバイよ」という強迫観念がどよめいている。しかし最近では自由な人生を選択するために「結婚」はマストではなくなった

自分は「したくない結婚」はしない方がいいという考えだ。ニュートラルな意見を述べると理由は２つある。

独身はとにかく自由
まず理由の１つは独身生活の利点で、というのも、「行動や生き方が自由」だからだ。明治安田生活福祉研究所の調査によると、「あえて結婚しない人」の割合は年々増えている。

35歳から54歳の未婚者の約半数が「あえて結婚していない」として、結婚を望んでいないことが分かりました。
35歳から54歳の男女1万による調査によると未婚者の49％が「あえて結婚していない」と答え、「結婚したいができていない」の51％とほぼ同数。「あえて結婚しない」理由としては「元々、結婚を望んでいない」という独身主義が最も多く、「独身は精神的・時間的に自由がきく」が続いています。また、男女とも年齢が高くなるほど「今さら、結婚するような年齢ではない」との回答が多くなっています。
引用-「ANN NEWS」

イヤイヤ結婚して束縛されるなら、いつまでも自由で好奇心を持ち続け、楽しい人生を送っていたいのだ。こう考える人も確実に増えている

昔から一人の時間を大切にする方だったし、人間関係も量より質を重視してきた。むしろ1人が好きな人には、無理して結婚することは、QOLを下げることになる。

結婚という強迫観念が古い
2つめの理由は結婚しなければいけないというのが一種の脅迫観念で、「結婚するのがステータス」な考え方がすでに”クソ”だと思っているため。またそういう人たちが多数いるのも事実だ。

最近では結婚系の記事がを目にすることが多いが、中には「好きでもない人と結婚する人たち」もいるのだ。

現代でも、結婚の理由は親のため、世俗のため、孤独回避のため、子供を持つことに幸せにを感じるため、など人それぞれだが、強迫観念に囚われて結婚するのは、クソ以外の何者でもない

結婚が全てではないし、結婚のあるべき形とは”お互いが望んでするもの”がベストと考えるからだ。

年頃になると結婚について嫌でも考えてしまうが、むしろ結婚は「したくてするもの」で、結婚しなくてもいい選択肢を用意しておくことも絶対に必要だろう

結婚しなくても自由な人生を送るために

結婚という強迫観念は簡単に拭えるものではない。しかし、自由に生きている人たちも絶対数いることを確認した上で、その強迫観念を拭える一助になれたらと思う。

結婚しなくても人生を楽しむ人たち

Twitter

つい最近、Twitterでさわぐちけいすけさんのツイートが話題になっていた。フリーで絵の仕事を始めてから、いろんな人生観に触れている様子を漫画にしている。

「まとめられる筈の無いこと」について４ページにまとめました。 pic.twitter.com/a8GIybq1WT
— さわぐちけいすけ (@tricolorebicol1) 2017年6月3日

このツイートを見てみると

・仕事が楽しくて定年まで結婚しなかった人

・常に人生を楽しんでて結婚は考えない人

・今を大事にして結婚にエネルギーをさくのを避ける人

など、いろんな生き方をしている人たちがいることがわかる。

f:id:trafalbad:20170618011334j:plain

発言小町

同じように発言小町でもこんなコメントがあった。

必死に友達に年賀状や近況報告メール等出して「縁」を繋ぎとめて置く事に精を出しました。彼氏も作ろうとしました。でも好きな人がいる訳でもないのに漠然と彼氏って思っても、自分の気が乗らずダメでした。
ある時「やっぱり自分が自立した人間にならないと始まらない」と思いました。トピ主さんの行きついた所と似てます。
必要とされたいから人と付き合うのではなく、自分で自分の人生を楽しんでいれば自然とその喜びを誰かと共有したいと思うようになります。そうすると、繋ぎ止めの目的ではなく心から友達と遊べるようになりました。
自立さえできれば、結婚しない人生どころかどんな人生が来ても対応できるようになると思うんです。
一部略-引用「結婚しない人生を送る覚悟が欲しい : 恋愛・結婚・離婚 : 発言小町 : YOMIURI ONLINE（読売新聞）」

結婚しなくても自由に生きるためには、縁を繋ぎとめようとしたり、無理して人間関係を維持しようとはしないこと。

自分も心底、人生を楽しみ、それを一緒に楽しめる人と共有したり、楽しみあったりすことを目指す生き方。それさえできれば結婚しなくても、十分楽しい人生を送ることができる。

互いの人生を一緒に楽しめるパートナーが見つかれば、結婚したり、同棲したり共に人生を送ればいいだろう。むしろ結婚というステレオタイプは崩壊しているのがわかると思う。

もっと多面的な生き方を、考え方を持った方が人は幸せになれる。

ラフな考え方を持ち、より身軽になるために、こういう人たちが必ずいることを忘れないでおきたい

f:id:trafalbad:20170618011145j:plain

アルバイト先の年配女性に聞いた体験談まとめ

ここで結婚に関して、アルバイトをしていたとき年配の女性の方から、とても参考になる話を聞いたので、簡単にまとめておこうと思う。

「結婚で理想なのはお互いにしばりあわない関係。大概のことなら何をしても互いに常に自由で、かつずっと一緒にいられる関係が一番」

つまり、結婚するパートナーでも、結婚するからといって相手の人生を束縛しない。そしてお互い一緒にいて苦にならない人生関係が理想だということらしい。

友達関係でも依存しすぎのかまってちゃんは嫌われる傾向があるが、結婚という形態でもそれは同じなのだろう。

一個人の人生を束縛せず、かつ一緒にいて楽しい人がいれば、その人は絶対のパートナーになるのではないだろうか。
あらゆる人間関係に当てはまる理想的な関係だと思う。年配の女性に聞いた体験談だが、かなり参考になったので、まとめておいた。

年頃になると結婚はどうしても意識してしまう。しかし「結婚したくないならしない人生も十分にありなんだ」ということを悟ってもらえたら幸いだ。自分へのメッセージとしてもこの記事をまとめておいた。

2017-04-02

医学翻訳を独学で勉強するために：医療・医薬の専門知識参考サイト（遺伝子治療、医薬品、新薬申請、医療機器）

翻訳

この記事では医学翻訳に必要な医学の基礎知識を載せたサイトをまとめた。前の記事を含め、医学翻訳を学ぶ際の「医学の全体像＆その知識」として役に立つものを集めてある（参考：翻訳学校のテキスト内容）。「医学翻訳をやるので専門知識をお手軽に学びたい」というときにかなり活用できると思う。
医学の全体像＆その知識を把握するのに役立つはずだ。

＊一部のタイトルにサイトリンクが埋め込まれてます。

前記事
trafalbad.hatenadiary.jp

目次（前の記事）
1.癌
2.臨床系-消化器
3.臨床系-循環器
4.臨床系-外科学
5.臨床系-脳
6.生化学
7.免疫学

目次（この記事）
8.遺伝子治療
9.医薬品-抗がん剤
10.医薬品-抗生物質
11.新薬の申請
12.医療機器

f:id:trafalbad:20170402095205j:plain

8.遺伝子治療

遺伝子治療は、異常な遺伝子を修復・修正することで病気を治療する手法。
知識範囲はレトロウイルスなど遺伝子治療の原因から主な手法まで。

遺伝子治療用ベクター

遺伝子治療とそれに使うベクターに関してかなり詳しく説明

【サイト検索ワード】遺伝子治療　アデノウイルス　レトロウイルス

遺伝子治療と核酸医薬

染色体、DHNなど遺伝子治療に欠かせない用語、および遺伝子治療で頻繁な出て来る治療法、知識等が図入りで説明されている。

【サイト検索ワード】遺伝子治療　染色体　DNA　核酸

9.抗がん剤

抗がん剤は、化学物質によってがんの増殖を抑え、がん細胞を破壊する。また作用の仕方などによって、いくつかの種類に分類される。知識範囲は抗がん剤の機能の仕組み、専門用語までの土台となる部分。

ガン臨床試験デザイン

癌の臨床試験のデザイン方法や、抗がん剤が認められる過程、臨床試験の専門用語がよくわかる。

【サイト検索ワード】医薬品　抗がん剤　P値　エンドポイント

細胞分裂とDNAの構造

抗がん剤の働きを理解するためには、ガンの分裂メカニズムをおさえ、それを構成する情報を把握することが不可欠。この記事では簡潔でかなりよくわかる。

【サイト検索ワード】医薬品抗がん剤有糸分裂

代謝拮抗薬

抗がん剤でかなりメインとなる代謝拮抗薬について解説。抗がん剤の仕組みのおさらいにもなる。

化学反応における「架橋」とは→主に高分子化学においてポリマー（重合体）同士を連結し、物理的、化学的性質を変化させる反応のことである。

【サイト検索ワード】抗がん剤　代謝拮抗薬

10.抗生物質

抗生物質はかびや細菌により分泌され、他の微生物（病原菌など）の発育・繁殖をおさえる物質のこと。抗生物質の基本的な機能の仕組み、基本用語まで。

抗生物質の種類

抗生物質の全体像の把握にはもってこいのサイト。本で見るより軽いし、わかりやすい。

【サイト検索ワード】医薬品　抗生物質　プラスミド　リボソーム

抗生物質と抗菌薬の違い

抗生物質には微生物が深く関わるが、リボゾームや核酸など抗生物質＆微生物について説明

【サイト検索ワード】医薬品　抗生物質　微生物

抗生物質の話

www.chem-station.com

抗生物質の基本用語にはアミノ酸や基本骨格など結構たくさんある。それを網羅的にかなり詳しく説明。

【サイト検索ワード】医薬品　抗生物質　アミノ基　基本骨格

11.新薬の申請

日本では、医薬品を製造販売（市場に出荷、販売）するためには、厚生労働大臣の承認（医薬品製造販売承認）を受ける必要がある。その一連の流れや、承認に必要な臨床経験の仕組みまで。

治験管理センターニュース

翻訳中に出会ったサイト。新薬申請に必要な治験について本質的なことまで説明。とにかくわかりやすい

【サイト検索ワード】新薬申請臨床試験

クスリができるまで

新薬の開発から承認までの一連の流れをコンパクトに説明

【サイト検索ワード】新薬　申請　薬ができるまで

インフォームドコンセント

chugai-pharm.info

新薬申請関連文書にはインフォームドコンセントの文書を訳すことも多い。そのインフォームドコンセントについてのサイト

【サイト検索ワード】新薬　インフォームドコンセント Cmax

12.医療機器

医療機器は、診断、治療、身体の構造、機能に影響を及ぼすことが目的の機械器具等（医療用品、歯科材料、衛生用品など）のこと。翻訳で医療機器を訳す際に必要となる前提知識、フォーマットの参考となるマニュアルを載せた。

医療機器にかかる規制制度の現状

医療機器はその機能によってレベル別に分類されている。厚生労働省が定める日本の医療機器における制度情報

【サイト検索ワード】医療機器　規制

滅菌法のソーシング

医療機器に”滅菌”は欠かせない技術。それを実例を通して理解。

【サイト検索ワード】医療機器　滅菌

医療機器ができるまで

www.nibiohn.go.jp

医療機器も新薬申請と同様、臨床試験なと一連の承認過程を経なければならない。その臨床試験や流れについて説明。

【サイト検索ワード】医療機器　臨床試験

除細動器

医療機器においてはメジャーな除細動器のマニュアル。翻訳する際のフォーマットととして見ておきたい

【サイト検索ワード】医療機器植込み型除細動禁忌　警告

ペンタックス内視鏡

こちらも医療機器の基本的なマニュアルのフォーマット。かなり参考になる。

【サイト検索ワード】医療機器内視鏡　取扱説明書　機能　名称　点検

前記事を含めて、医学翻訳の大まかなカテゴリー内の知識を載せたサイトを紹介してきた。本で学ぶよりもお手頃だし、軽いので学習の際にはかなり参考になるはずだ。

医学翻訳を独学で勉強するために：医療・医薬の専門知識参考サイト（癌、臨床系、生化学、免疫学）

翻訳

医学翻訳をするには、基本的な医学の専門知識が必要になる。これから2記事にわたって紹介するサイトは、医学翻訳で使う医学情報を掲載している（参考：翻訳学校のテキスト内容）。

医学といっても翻訳で使う範囲は幅広いので、「医学の全体像＆その知識」を把握するのに参考になるだろう。
これから医学翻訳を学ぶ人はこれらのサイトの内容を見て知っておけば、知らないよりは確実に役立つ。

医学の全体像＆目次
目次（この記事）
1.癌
2.臨床系-消化器
3.臨床系-循環器
4.臨床系-外科学
5.臨床系-脳
6.生化学
7.免疫学

目次（次の記事）
8.遺伝子治療
9.医薬品-抗がん剤
10.医薬品-抗生物質
11.新薬の申請
12.医療機器

上記の範囲が医学翻訳で使う大まかな医学の範囲だ。もちろん本番の翻訳ではもっと細かな知識を扱う。なので、その都度別の知識を調べることが必要だが、ほとんどは上のカテゴリーの範囲内にある。

この記事で掲載している情報を一通り見て学べば、医学翻訳の範囲内の基本的な医学知識はつくだろう。

f:id:trafalbad:20170402095136j:plain

1.癌

ガンは日本人の死因を占める病気の第一位で、その割合は年々増加しており、関連情報も腫瘍を中心にドンドン増えている。

基本的にはガンは良性腫瘍と悪性腫瘍に大きく分かれ、そこから枝分かれ的に細かくなっている分野。

癌の仕組みから基礎まで

http://ganjoho.jp/public/dia_tre/knowledge/basic.htmlganjoho.jp

癌はどんな症状なのか、症状手術、良性腫瘍と悪性腫瘍の違いなど癌に関する基礎的な知識をがわかりやすい。

【サイト検索ワード】癌　良性　悪性基礎知識

癌の腫瘍マーカー

癌における腫瘍マーカーの役割とその種類を紹介。腫瘍マーカーが検査でどのような役割を果たすかも紹介されている。腫瘍マーカーの役割を抑えるくらいに読むくらいでいいと思う。

【サイト検索ワード】癌　腫瘍マーカー

癌の国際的な分類表

癌は種類や症状など、多様な要因によって分類される。それは国際的に決まっているため翻訳でも重要な知識で、このサイトではそれが詳しくわかる

【サイト検索ワード】癌 TNN分類 p r

2.消化器

消化器（英語: digestive organ, digestive apparatus）は食物の摂取から、貯蔵と消化、栄養素の吸収、排泄、といった働きを担う器官をまとめた総称。
f:id:trafalbad:20170402104421j:plain

図で見てわかるように口から胃、肛門付近の臓器をさして言う。知識範囲は神経系などの臓器の仕組みから主な病気まで。

交感神経と副交感神経

www.jiritunavi.com

消化器系における交感神経と副交感神経の働きをストレスとの関係からわかりやすくまとめた記事。かなり読みやすい

【サイト検索ワード】消化器交感神経

迷走神経

自律神経系の症状である迷走神経反射について。自律神経系のことや、その症状も詳しくわかる。

【サイト検索ワード】消化器迷走神経

過敏性腸症候群

消化器系の代表的な病気である過敏性腸症候群（IBS）の仕組みを詳しく説明。
【サイト検索ワード】消化器過敏性腸症候群　ROME2

3.循環器

循環器（英: Circulation, circulatory organ）血液やリンパ液などの体液を輸送し、循環させる働きをする。ほとんどが血管で、血液を循環させる”血管系”、リンパ液を循環させる”リンパ系”がある。

f:id:trafalbad:20170402104403j:plain

生体機能に必要な酸素や血液を運ぶ働きがある。範囲は血管と心臓などの循環器の仕組みから関連研究まで。

動脈硬化と血管断面図

血管の断面図とそれに加えて、動脈硬化という血管の主な病気について

【サイト検索ワード】血管断面図　正常動脈

心臓の仕組み

心臓の機能や名称、仕組みをコンパクトにまとめてある。

【サイト検索ワード】心臓　右肝動脈　右心室　右心房　冠状動脈

フランミンガム研究の医学論文

・フラミンガム研究は「心血管病の原因を探るための長期の疫学研究」のこと
・BMI(ボディー・マス・インデックス)は、体重と身長の関係から人の肥満度を示す体格指数

フラミンガム研究の類似の論文でBMIがどのように使われているか、また翻訳のときにどんな風に訳したらいいかを参考にしたい。

【サイト検索ワード】フラミンガム研究　BMI

4.外科学

外科学（英: surgery）は、手術による手法を使う全ての分野を包括する基礎の学問。知識は外科手術の基本的な仕組み。

多臓器不全

www.jlogos.com

外科における最も多い手術の概要を通して、外科全般の知識を学べる。

【サイト検索ワード】外科　多臓器不全　臓器　機能　液性不全

外科医療の基本的な診断/検査用語

www.nyugan.jp

外科手術の基本的な手法の用語解説。外科では頻繁に出て来るものに限定している。

【サイト検索ワード】外科手術　生検

5.脳

脳科学とは、ヒトの脳の分野。知識範囲は脳の仕組み。

脳の概要

kazoo04.hatenablog.com

コンピュータ系のブログだが、脳の断面図から仕組みまで、１つのサイトでかなりコンパクトにまとめてある。結構楽しく読めので、堅苦しいテキストよりずっとコンパクト

【サイト検索ワード】臨床　前頭葉　小脳　間脳

6.生化学

生物化学と呼ばれることもあるが，生化学のほうが一般的。生物体を構成する物質や生体内に生じる化学物質、およびその化学反応の過程が対象。

知識は生化学の基本的な物質から、医学用語まで。特に幅広いので、翻訳学校の紹介している知識を対象範囲とカウントした。

血管の働き

www.kango-roo.com

血管の働きを説明しているが、メインの構成情報は生化学の基本的な用語や知識となっている。

【サイト検索ワード】生化学　血液凝固過程　血液凝固因子

コホート研究

オッズ比、相対危険度、信頼区間など生化学の研究における基本ワードがわかる。
信頼区間→標本の統計量を元に、母集団の平均などを、幅(区間)を持たせて推定し、この推定した幅を「信頼区間」と言います。

【サイト検索ワード】オッズ比　相対危険度　信頼区間

血液疾患

血液疾患は血液の病気。確認したい内容はヘパリン、ワルファリンやヘパリン起因性血小板減少症(HIT)など。生化学でメインとなるFOY、DICをはじめ、生化学に欠かせない情報はほとんどのっている。

ちなみにDICは疾患で「播種性血管内凝固」、FOYとは「メシル酸ガベキサート」のことでDICの治療薬。文中ではFOYと訳されてないので、注意したい。

【サイト検索ワード】生化学　肥満細胞　アンチトロンビン　APTT

7.免疫学

免疫学（英語: immunology）は、生体の持つ免疫機能に関する分野。主に、基礎医学・歯学・薬学・生物学、臨床医学が対象。

抗体、B細胞、T細胞、リンパ球などの免疫学の基礎知識＆用語が対象範囲。

免疫細胞

www.menekiplaza.com

B細胞、T細胞、リンパ球、マクロファージなど免疫学の基礎知識がかなり詳しくわかる。

【サイト検索ワード】免疫系　B細胞　Tリンパ

抗原と抗体（感作、抗体の種類）

免疫学における抗原や抗体などの役割、働き、仕組みがわかる。

【サイト検索ワード】抗体　抗原

医学翻訳は医者並みの知識は要求されないが、医学翻訳における表現や基礎知識は必要になる。今回紹介したサイトは、翻訳学校のテキストを参考にしているので、医学翻訳の基礎的なカテゴリーの知識は網羅していると考えていい。

もちろん実務での本格的な翻訳のときはこれらの知識を土台に、さらに精密に調べる必要がある。しかし、土台の知識がある無いでは、翻訳スピードも全然違うし、文章の質も違ってくる。その意味でもここで紹介した範囲内の知識は必ず役に立つだろう。

次の記事では目次8以降を紹介しています。
次記事

trafalbad.hatenadiary.jp

2017-03-27

大学の学士・編入試験用Q＆A（物理学勉強法、サークルなどの大学生活について）

Tips ノウハウ・テクニック

大学編入試験に関する情報は思ったより少ないし、そんな中でいろいろ悩むこともあるはずだ。編入試験に関して質問をもらったので、この記事ではその質問に淡々と答えていこうと思う。

内容がかなり個人的になってしまうが、前回書いた記事の内容についての質問もあるので、下記記事も参考にして欲しい。

trafalbad.hatenadiary.jp

f:id:trafalbad:20170327212115j:plain

Q1 大学物理に必要な大学数学の参考書は何がいい？

物理に必要な数学は、あくまで大学数学で必要な部分だけやればいいので、あまり時間はかけたくない。なるべくわかりやすい参考書がオススメだ。

大学教養レベルで一番わかりやすいのはマセマ出版のキャンパスゼミシリーズだと思う。このシリーズの中から、必要な本だけ買うのが一番だろう。

Q2 高校物理の復習はしなければいけないのか？

大学の物理学は高校の延長だ。つまり高校の基礎知識を理解してないと大学物理は解けない。しかも編入試験の問題は高校物理の基礎問題の知識を要求されるのが6〜7割を占めているし、編入試験の合格者の多くは、基礎固めをしてた人が受かる傾向が圧倒的に強い。

むしろ高校物理の基礎を固めるのは合格には絶対必要。「物理のエッセンス」など、基本を理解できる高校物理の参考書を完璧に理解してから、大学物理に手をつけないと編入試験の問題は解けない。

一にも二にも高校物理の基礎は確実にしておこう。

Q3 基礎物理学演習と演習力学等の参考書はどう違うの？

これは実際に中身を見て好きな参考書を取ればいいと思うが、違いを挙げるとこんな感じ

基礎物理学演習
→シリーズ2まであって力学、電磁気学、熱力学、波動など編入試験に必要な分野は網羅している（ただし熱力学と波動は編入向けの問題ではない）。予備校でも基礎物理学演習を勧めているので、この参考書の方が編入試験向けだろう。

若干内容が簡単だったり、ベクトルポテンシャルなど一部の難関大学の内容やレベルの問題を扱ってないが、そこは過去問や他の問題集で補える。「熱力学・波動」は「大学1.2年生のためのすぐわかる物理演習」が編入試験向けの問題が載っていてオススメだ

大学1・2年生のためのすぐわかる演習物理

posted with ヨメレバ

前田和貞東京図書 2003-11

Amazon

Kindle

力学演習
→こちらは応用力をつけたいという意味でオススメの本。力学に特化しているので、これができれば、編入試験ではほぼ解けない問題はないだろう。ただ振動の分野など、問題数が足りない分野があったり、絶対に出ない問題もあるので、必要ないものはスルーしないと時間の無駄になる。

基本的にはどちらも編入試験向けだが、問題が足らない、過去問で必要な範囲の問題がないなど長所短所はある。ベストなのはどちらか買ってみて、志望校の過去問の範囲の問題が足らなければ、他の参考書で補うというのが一番いいと思う。

編入試験の問題を網羅している参考書なんて発売されていないので、そこら辺は臨機応変に対応するしかない。

Q4 出題範囲の力学の中に解析力学や統計力学は入るの？

編入試験の範囲は
力学、電磁気学、波動、熱力学（たまに原子）。力学はただの力学で、解析力学とか統計力学は含まれない。

Q5 波動の分野に関する勉強法はどうやるの？

自分は物理のエッセンスで基礎固めしたあとは、基礎物理学演習と「大学1.2年生のためのすぐわかる演習物理」の問題を何回も解いた。波動は高校範囲の知識で解ける問題も多い

前記事で勧めた「裳華房テキストシリーズの波動」は予備校で勧められている参考書だが、自分はあんまり向かなかったので、大学の波動分野の知識確認用に使っただけだった。普通にやれば3週間くらいで終わるはずだ。

波動に関する勉強法は「波動編入」でググるといろいろ出てくる。例えば、下記記事の波動に関する部分は結構詳しいので、参考にしてほしい。
gorza1206.hatenablog.com

ちなみにマセマのキャンパスゼミシリーズでは波動の本は出てない。

Q6 数学はどこまでやればいい？

数学は正直、分野によって必要な知識が異なる。
力学、電磁気学（というか編入物理）なら
・線形代数
・微分積分
・ベクトル解析
・微分方程式（常微分と偏微分がわかればいい）
だけで十分だろう。

手をつける順番としては始めは物理をやってみてわからなければ、数学の参考書で調べるのが一番いいと思う。

幸いにもマセマのキャンパスゼミシリーズでは、力学や電磁気学に必要な数学知識があらかじめ紹介されているので、どこを勉強すればいいかがわかるようになっている。

Q7 高校範囲を勉強するのは、大学受験勉強で使っていた重要問題集でも大丈夫？物理のエッセンスは使ったことがないので、重要問題集だと量が多くなることはあるか？

大事なのは基礎がマスターできるかだ。「電位って何?」「エネルギー保存則が適用される力の条件は?」など物理の本質的なことに答えられるだろうか？

重要問題集はやったことないが、重要問題集でキチンと物理の基礎固めができるならそれでいいと思う。「物理の基礎ってどれくらいか」がわかりにくいときは、物理のエッセンスの内容を見てみることがオススメ。「エッセンスの内容を完璧に理解できるな」という感じなら重要問題集でもいいと思う。

どのみち編入物理では突っ込んだ（暗記では対応できない思考力が要求される）問題を出してくるので、物理の基礎的な部分を完璧に理解しないと解けない。自分の受けた国公立の問題では力学と電磁気の融合問題が出てきたが、力学的エネルギー保存則を完璧に理解していないと解けなかった。

要は基礎がマスターできるなら重要問題集でもいいと思う。ここら辺は「物理のエッセンス編入」、「重要問題集、編入」あたりでググってみて自己判断したほうがいいだろう。

f:id:trafalbad:20170327212143j:plain

Q8 重要問題集の問題で6割(分野によって偏りあり)くらいの正答率だったのですが、全問完璧に解けるレベルまで復習した方が良いのでしょうか?

基本的に「基礎を理解するのが目的」なら応用問題、発展問題は解けなくてもいい。（解けた方がいいが）。

「応用力をつける」のが目的なら全問解けた方がいいだろう。

ただ編入試験は物理に微積の計算を頻繁に使うので、演習書に重要問題集だけでは足らないと思う

Q9 旧帝大の編入試験を受験したいのですが、基礎物理学演習の問題をやっていれば合格レベルに達することができるの？

編入試験は基礎と応用ができてれば解ける。自分は物理のエッセンスで基礎をやって、基礎物理学演習とかで自分で答えが書けるまで、ひたすら考えて思考力をつけた。

思考力=応用力をつけた後に過去問を解いてみて、解けなかったら解けるまで基礎固め&物理学演習とかを繰り返した。足りない分野は他の問題集を買って補った。

編入試験レベルの応用力は基礎物理学演習をやれば身につくし、旧帝大レベルでも基礎物理学演習なら大丈夫だとは思う。ある程度の勉強法は人によって異なる。上に書いた勉強法を真似てみて、自分なりにアレンジした勉強法を見つけるのがベスト

Q10 各問題集どれくらいの時間や日数かかるのか具体的に教えて下さい。参考書を使った順番も教えていただけると幸いです？

一番いいのは必ず出題される力学と電磁気をやること。あとは過去問を見て出る範囲をしぼって勉強すれば一番コスパがいい。
どれくらいかかるかは理解度によるのでなんとも言えないが、自分は基礎物理学演習は集中して1ヶ月くらい、力学演習は必要な問題だけやっていらないのはスルーしたので、1ヶ月くらいかかった。

また順番は下のようにやった
1.編入試験で出題される大学物理の分野を調べる
2.過去問で出題傾向を知る
3.物理のエッセンスとかで基礎固め
4.演習系の問題集で思考力（応用力）を高めた
5.過去問を解いてみる
6.解けなかったら解けるまで3〜5を繰り返した

Q11 演習力学は解説が詳しいようですが、やはり塾などを活用して教えていただかないと、独学は難しいのですか？

独学は理解度によるので、どれだけ物理に詳しいかによる。演習力学は難しめなので、回答をみて粘って考える精神力がないと独学はきつい。粘って答えにたどり着くことが出来れば、物理の独学は基本できる。

ネット上にも勉強法についての情報がかなりあるので、それを自分で活用できないなら独学は厳しいかもしれない。
塾に行った方がテキストに基礎問が揃っているし、チューターや過去問などの設備が整っているので、独学に自信がなければ塾に行った方が早い

Q12 大学物理をやったことがなく、よく分からないので、演習書を選ぶときのポイントを教えて

なるべくわかりやすい参考書、これなら必ず一冊やりきれるという自信のある演習書を選ぼう。
変に難しいのを買って消化不良になったら時間の無駄だ。

その参考書をやってみて一冊終わった後、志望校のレベルに足りないなら難しいのを買ってみるなど、だんだんレベルアップして行くのがいいはず。

大事なのはこれだと決めた演習書を何回もやること。だめなのは演習書をたくさん買って中途半端で終わらせること。

Q13 数学の参考書で物理に必要な範囲だけやるというのは、具体的にどういうこと？

数学科の人みたいに数学を完璧にマスターしなくてもよくて、物理学の問題を解くために必要な部分だけ理解しておけばいいということ。
例えて言うと「数学の知識=物理の問題を解くための道具」。

例えば、力学で微分積分を学ぶ必要があるので、微積の「偏微分」みたいな”物理を理解するために必要な部分”だけ学べば良い。
逆に、「重積分」みたいな”使わない部分”は勉強する必要はないってこと。

Q14 波動や熱力学の問題は、基礎物理学演習に含まれているの？

含まれているけど、波動や熱力学は編入試験向けの問題が少ないので、「大学1.2年生のためのすぐわかる物理演習」をメインに、プラスで過去問を使って問題を多めに解いた方がいい。

Q15 編入試験に合格した場合、編入後に以前の大学の単位はどれくらい認められるものなの？

自分は文系だったので90単位→70単位くらいになった。理系ならほとんど認められると考えていい。

Q16 編入後は単位を補ったりする必要があったりして大変？

単位が足らなければ、もちろん大変になる。文系だと知識の遅れがある場合、勉強に追われる毎日になる。

理系で単位が認められてかつ物理、勉強全般得意なら比較的遊べる。志望してるのが理系の実験のある学科だと、結構大変だと思う

Q17 大学の授業がある期間はどれくらい勉強してた？

普通に授業出ててると課題とかレポートが多い。実験系の授業になると必ずレポートが出るので、平日は夜まで勉強する日が結構あった。
ここら辺はやっぱり勉強が得意なら早く終わるし、勉強時間も少なくて済む。

編入合格後に、入学までの間に入学後のための勉強をしておくと、入学後に楽できる。

Q18 サークルなどに入った場合、勉強と両立できるか？

自分は部活やっていて週4で練習していた。正直、サークルは週2〜3にしておかないと勉強事態が手につかなくなって両立できない。勉強とサークルで両立したいなら勉強のウエイトを減らすことがキー。

編入試験後の期間に勉強しとくとか、自分なりの勉強の効率化の方法を探しておくとかの工夫が必要。

逆に言ってしまえば、勉強とサークルの両立は工夫次第でできる。

長くなったが、編入試験でありそうな質問に回答してきた。また質問とかあったら記事にするかもしれないので、気軽にコメントして頂けると助かります。

2017-03-05

courseraのMachine Learning(機械学習)の講義内容まとめ（6〜11講義の概要）

機械学習

前回に引き続き、courseraのMachine Learning（機械学習）コースの講義概要を書きます。

知識ゼロで見るとよくわからない内容ですが、機械学習が学ぼうとしてるなら何言ってるかおおまかにわかるはず。これから機械学習を学んでみようと思うのでcourseraのMachine Learning（機械学習）コースを受講しようという人には役立つと思います。

また自分はディープラーニングを学びたくてこの講義を受講したのですが、ディープラーニングを学びたい場合どのような勉強法をやればいいのかは別記事にまとめる予定です。

あくまで備忘録ですが、1〜5講義の内容はこちら

目次
講義6．学習アルゴリズム診断
講義7．サポートベクターマシーン（SVM）
講義8．クラスタリング（教師なしデータ）アルゴリズム
講義9．アノマリー検出
講義10．大規模スケールの機械学習
講義11．機械学習の応用テクニック

f:id:trafalbad:20170303115903j:plain

講義6．学習アルゴリズム診断

概要
学習アルゴリズムを効果的に改善する方法、上手く学習できてるか診断する方法、どうすれば学習アルゴリズムを効果的に実装できるかについて専門的なテクニックをいくつも紹介しています。

テクニックも使えますが、「扱う変数となるフィーチャー（特徴）が多い場合はトレーニングセットとテストセットに分けるべき」など、より実践的なアドバイスが機械学習エンジニアには参考になります。

出てくる式やテクニック

機械学習診断：データセットが多い場合、そのデータセットをトレーニングセット、クロスオーバーセット、テストセットに分けるという内容。

高バイアスと高分散問題：学習アルゴリズムが上手くいってないときの典型的な問題とその解決策を提示

機械学習のデザイン戦略：学習アルゴリズムを設計するときの効果的な戦略を紹介。
例
・〜％などその学習アルゴリズムの良し悪しを判断する単一の評価指数があると便利（Fスコアなど）
・まず初心者がやるべきことは、データを集めて汚くてもいいので動くアルゴリズムを実装すること。それからアルゴリズムを改善すればいい
・アルゴリズムで解くべき問題に対して「その分野の専門家に聞いても答えられる問題どうか」を考えて、答えられないようならばデータがもっと必要

講義7．サポートベクターマシーン（SVM）

概要
ロジスティック回帰以外に、より複雑な非線形の関数を扱うよりパワフルな手法として、サポートベクターマシーン（SVM）を紹介。

SVMはロジスティック回帰とは違うテクニックなため、カーネルという手法と一緒に使います。よりアドバンスドな（進んだ）非線形問題のためのテクニックです。

出てくる式やテクニック

SVM：SVMの手法はグラフにプロットしたとき、与えられたデータからの距離が最も大きくなるような直線を引く関数を求めます。

カーネル：データセットから得た目印（ランドマーク）とフィーチャーをグラフ上に視覚化したとき、その２つの距離が近れければ近いほど、２つの類似度が高いことを表す関数。

SVMはカーネルと一緒に用いることが多く、かなり発展的な内容です。数式ばっかりで頭が痛くなります。

講義8．クラスタリング（教師なしデータ）アルゴリズム

概要
今までは教師ありデータアルゴリズム（テストセットのデータが与えられている）分類問題だった。

しかし、講義8からは教師なしデータアルゴリズム（テストセットのデータが与えられていない：例Googleニュースでは機械がたくさんのニュースを自動でカテゴリ別に分類）分類問題を扱う。教師なしデータアルゴリズムがすることはクラスタリングと抽出です。その上でのテクニックを紹介

出てくる式やテクニック
K-means：与えられたデータセットをグラフ上に可視化し、その可視化した点を２つ、もしくはそれ以上に分類するテクニック（重心を決めて、データセットの平均から重心が収束する点を求め、分類する）。

K-meansのコスト関数や初期化の方法も紹介。

次元削減：機械学習は特徴を表す変数（フィーチャー）により次元が異なるが、次元が多いほどアルゴリズムの学習スピードは遅くなる。そのため次元を減らす（2次元を1次元とか、50次元を2次元に減らす）テクニックを紹介。
次元削減で主に使われるのは主成分分析（PCA）。またPCAの次元を元に戻すテクニックもある。

講義9．アノマリー検出

概要
アノマリー検出はフィーチャーを持つデータセットに対して、「それがテストセットになるか」または、「普通ではない（異常な）フィーチャーか」を学習アルゴリズムに確率として教えることができる（例えば、ネット上のユーザー情報の中で異常なユーザーの行動を特定する）。

フィーチャーを持つ未知のデータセットに対して、それをテストセットとして扱えるかを分類します。扱うデータのフィーチャー（特徴）が

・データセットと似たものである→教師あり学習アルゴリズムを使う
・逆にまったく見たこともない→アノマリー検出で対応する

出てくる式やテクニック

ガウス分布：アノマリー検出に使うグラフのテクニック

アノマリー検出のフィーチャーのデザイン方法：アノマリー検出で見つかった異常なフィーチャーから、さらに新しいフィーチャーをデザイン（設計）する方法。

レコメンダーシステム、協調フィルタリング、多変量ガウス分布：アノマリー検出をより拡張したときに使うテクニック。

講義10．大規模スケールの機械学習

概要
今まではデータのフィーチャーが1万個くらいのデータセットの問題（バッチサイズ）を扱っていました。ここでは1億レベルのフィーチャー（大規模スケール）を扱う機械学習のテクニックを紹介しています。

主に扱うのは勾配降下法の大規模スケール版である確率的勾配降下法。また大規模スケールの問題をミニバッチサイズ（1000個ほどのフィーチャー）で対処するテクニックもあります。

出てくる式やテクニック
確率的勾配降下法：今までの勾配降下法はデータをすべて式で計算してやっと一回更新するため、大規模スケール（億レベル）だと膨大な時間がかかります。

しかし確率的勾配降下法はすべてのデータを一回式にかければ、最小値に収束します(最小値が見つかる）。

確率的勾配降下法の収束確認法と学習率の選択法：確率的勾配降下法では最小値の付近を振動するような線を描くため、最小値に収束しているかを確認する方法。
および、確率的勾配降下法の計算式の学習率（α）の選び方

講義11．機械学習の応用テクニック

概要
写真内の文字を読み取るPhotoOCRと呼ばれる技術を例にとり、機械学習を様々な分野に応用できるテクニックを紹介。

音声分析や画像分析にも使えるテクニックや、エンジニアとして効率的に機械学習を進めるテクニックを説明しています。

機械学習で無駄なことはせっかく集めたデータが使えないとわかり、データ集めに費やした時間が無駄になることです。その時間ロスを減らすには大量のデータを収集する前に、大量のデータがそもそもアルゴリズムで活用できるかじっくり考えること。

出てくる式やテクニック
PhotoOCR：紙媒体の文字を読み取るOCRの高度なバージョンで、写真内の文字を読み取る技術。その中でもスライディングウィンドウ分類器は、車や歩行者の判別など様々な分野に応用されています。

人工データ合成：学習アルゴリズムの理想は「低バイアスで大量のデータセットを読み込める」こと。それを実現するテクニック。やり方は無からデータを作り出すか、少ないデータを増幅する。

シーリング（天井）分析：機械学習を段階別に分けたステップを「パイプライン」と呼び、どのパイプラインに時間を費やすか調べる技術。機械学習で無駄を極限まで減らすテクニック。

今回はcourseraの機械学習コースの講義6〜11までをまとめました。内容的には機械学習にさわろうという人なら、何を学べるかわかるので参考になる内容ではないでしょうか。

とにかくcourseraは機械学習の全体像を把握するのに一番手っ取り早いでしょう。ここまでまとまってる知識は書籍ではまずないし、おそらくcourseraでしかここまで体系立てて学べないはずです。機械学習のとっかかりにはベストの講義だと思います。無料ですし。

後になってわかったのですが、ディープラーニングは機械学習分野の一部でしかありません。

ディープラーニングやcourseraの効率的な学習方法は別記事にてまとめようと思います。

1〜5講義までの内容はこちらの記事をどうぞ。
trafalbad.hatenadiary.jp