大学院・研究室をどうやって決めたか(自然言語処理編?)
僕は学部と大学院で違う研究室に所属しているが,どのようにして研究室を選んだか,覚えている内に書く。
この手の記事はインターネットにたくさんあるが,専門によっても慣習が異なる研究の世界では,いくらあっても困らないだろう。
僕の分野は,知能情報学である。以下,学部4年の春に行ったことを述べていく。
研究室をリストアップ
言うまでもないが,自分のやりたい分野と完全に一致する研究室を選択すべきである。そして,これは僕なりの作戦だったのだが,自分のやりたいことができるかどうかは,どうでもよかった。もちろん何がやりたいかはっきりしないと話すときに困るので「やりたいこと」を用意はしていたが,それができなくても全く構わないという姿勢であった。
研究としてやる価値があるかどうかは,徹底的にサーベイをしないと分からない。学部で研究室に配属すらされていない自分には,何ら研究テーマを判断する力は無かったので,大学院に入ってから決めようと思ったのである。
大学を変えるという人もいると思うが,僕は資金的な面から東京大学にこだわる必要があったので,東大で自然言語処理ができる研究室をリストアップした。これが面白くて,宇宙工学の専攻にも研究室があったりしたものだから,大学院は専攻名で決めてはいけないという教訓を得たのだった。
研究室の探し方は,大学ドメイン名+分野のキーワード検索はもちろん,言語処理学会の役員一覧を見たり,和文誌や国際学会のラストオーサーの名前を探したりした。
研究室の絞り込み
リストアップしたら,研究室を絞り込んでいく。観点は4つだった。
お金があるかどうか
これは研究を遂行するにあたって,非常に重要である。研究室にお金があれば,パソコンを買ってもらえるだろうし,RAとして雇ってもらえるかもしれない。また,コーパスなどのデータが揃っているかどうかも重要である(これは直接聞けば良い)。
お金があるかどうか,調べるのは簡単だ。
まず,科学研究費補助金のデータベースで教員の名前を検索する。次に,以下の観点から十分な資金があるか判断する。
- 過去数年間にわたって,科研費を取り続けているかどうか(期間が途切れていないかどうか)
- それが研究代表者かどうか。分担者がいる場合,金額を単純に人数で割ってみていくらぐらいか
科研費で学生をRAとして雇うことができる。一人あたり年いくらまで出せるか見積もると良い。
なお,研究費は科研費だけではない。日本学術振興会のほか,科学技術振興機構もお金を出している。その他民間の財団や企業による支援もあるが,調べる余裕はなかった。
学生が学振を取っているかどうかも一つの観点である。研究室のウェブページに書いてある場合もあるが,そうではない場合,日本学術振興会のウェブページを見れば良い。
学生が研究成果を出せているかどうか
次に,学生が,第一著者で,その分野で良いとされている媒体(情報学ならば,COREランクA以上の国際会議)に論文を書いているかどうかを確認した。トップ会議ばかりだと,「うちは良いところにしか出さない!」みたいな研究室の可能性もあるので,適宜2nd-tier・3rd-tierの論文もあった方が良い。また,放任スタイルの研究室だと,一部の学生だけやたら論文を書いていて,他の人が書いていないということもあるので,名簿と対照しながらチェックした。
他にも,論文のタイトルと著者の組合せから,一人一人好きなように研究テーマを決めている研究室なのか,何人かでまとまってやっている研究室なのか,など情報が得られる。進学するにあたっては業績を積むことが生存戦略になるから,一人の学生が複数のプロジェクトに首を突っ込んでいるかどうか気にしても良いだろう。
就職先が気になる場合も,調べておくと良い(ウェブページに書かれていない場合は,直接学生に聞けば良い)。
あと,教員が過去にトップ会議にファーストで論文を出しているかどうかもチェックした(トップ会議に通したことのある先生に指導して欲しいじゃん?)。この時に注意しないといけないのは,教員の研究分野は必ずしも昔と同じではないという点だ(昔は言語処理じゃなくて音声言語処理をやっていたという場合,ACLではなくICASSPを探すことになる)。
生活環境はどうか
僕は縛りのきつい研究室には行きたくなかったので,コアタイムが存在せず,ミーティング等の頻度が適切かどうか確認した。
これは,研究室見学に行って,実際に学生に尋ねた。具体的なことまでイメージすることが大切である。お昼ご飯はどうしているかという話も聞いたような気がする。
研究室のワイワイイベントがあるかないかも人によっては重要だろう。
博士までいけるかどうか
僕は博士課程に進む気満々だったので,学生が博士課程に行っているかどうか,きちんと進級できているかどうか重視した。普通,研究室のウェブページには,メンバーの名前が学年とともに載っているので,Web Archiveと照らし合わせながら,毎年全員が進級しているかどうかを確認した。更新がされていないウェブページもあるので,その場合は学生の個人名で検索して情報を集めた。
それから,教員の年齢も重要である。5年間在籍するならば,5年以内に定年を迎えるとまずい。博士号をいつ取ったのかは国立国会図書館で調べられる(ストレートなら27歳)し,researchmapに経歴が載っていればそこからある程度計算できる。なお,博士課程の頃と名字が違う場合があるが,出身大学・専攻が分かれば大学のレポジトリで検索して大方見当をつけることができる。
院試に受かる見込み
研究室を絞り込んだら,そこにいけるかどうかの見当をつける。
まずは,入試問題である。準備期間に相当の勉強をして,どのくらい点数が取れそうか,ボーダーが公開されていればそこに達しそうかどうか検討する。
次に,定員との兼ね合いを考える。どんなに高得点を取っても,定員が5人の研究室に100人が応募したら,非常に競争率が高い。逆に,試験で0点でも,志望者が5人の枠に1人しかいなかったら,合格するかもしれない。
研究室毎の定員は,募集要項に書かれていなくても調べれば見当がつく。専攻で人気の研究室のメンバー一覧を見て,修士1年と修士2年の人数が同じならば,それが定員である。また,研究室を見学した際に聞くこともできる。僕は,「少なくとも2n人が志望して,n人しかここに来ていない」と教えてもらったので,定員はn人だと断定した。そこの研究室を何人が受けそうかも調べた。大学院は,下部組織に学部があるので,そこの人間がどのくらい当該研究室に行こうとしているか調べれば良いのである。それは,配属されているB4の人数から調べたり,TwitterなどでB4の専門分野を調べたり,あるいは研究室が話題になっているか調べた(「○○研に行きたい」みたいなツイイトがあることもある;ただし,研究室名は隠語が使われる事も多いので,慣習をよく調べておく(主宰者の名前をローマ字にする場合(佐々木ならssk),講座名を略す場合(情報システム工学ならjsk),サブドメイン名の場合(www.abc.t.u-tokyo.ac.jpならabc)等々))。
そして,どうしたか
事前に散々調べた上で,研究室見学に行った。候補は4つあったが,1つ目で即決した。決め手は,研究室が東京都千代田区にあったことである(?!上に書いてあることと全然違うじゃん……)。
そして,院試は1つしか受けなかった。落ちていたらと思うと今でもぞっとする。
答えのない問いには答えがある
「答えのない問い」「答えのない世界」「答えのない課題」「答えのない人生」などといった表現がある。この「答えのない」「答えがない」という表現は「問題」である。
問題には4種類ある。
まず,答えがあることが分かっており,ただちに答えを手に入れることができる問題である。例えば,4×5という算数の問題は,答えがあることが分かっており,それが20であることは電卓を叩くなどして直ちに手に入れることができる。
次に,答えがあることが分かっているが,当分の間,答えを手に入れることができない問題である。最適化問題がこれである。関数の最小値を求めることは人生においては頻出する問題である。例えば,部屋の家具の配置である。ベッドや本棚の配置について答えはあるが,どう配置したら良いのかすぐには分からない。あるいは勤めている会社を辞めて他の会社に移る場合である。日本にある法人は高々有限なので,答えは必ずあるのだが,求めるのに途方もない時間がかかる。
続いて,答えがないことが分かっている問題である。これは実は,1つ目の「答えがあることが分かっており,ただちに答えを手に入れることができる問題」と等価である。例えば,2乗して-1になる正の整数は何か,という問題の答えは,ない(「答えがない」が答えであると言い換えたところで同じである)。答えがない問題は楽勝である。電卓を叩く必要すらない。答えがないのだから,何もしなくて良い。
最後が,答えがあるのかないのか分かっていない問題である。これが一番厄介な問題である。例えば,「人生はどう生きるべきか?」という問題はこれである。人生の答えを探している人がいるかもしれないが,先にあるのかないのかをはっきりさせなければ筋が悪い。答えは自分で作るものだと主張する向きもあるが,答えかどうかの検証ができないので答えを作ることはできない。
大学院の研究は4番目の「答えがあるのかないのか分かっていない問題」に分類されるが,研究者が答えがあると信じているという点で同分類の他問題と大きく性質が異なっている。
さて,明日の朝食を何にするか。これはどの種類の問題だろうか。一見,2番目のようであるが,実は,「答えがあるのかないのか分かっていない問題」である。なぜなら,この時刻に床に就けば,朝食があるかどうか怪しいからである。ちなみに,目覚めて「朝食がある」方に確定すると2番目の種類の問題を解かねばならないが,「朝食がない」方に確定すると圧倒的に解くのが簡単な1番目の問題になるので,敢えて夜ふかししているのは,いわゆる「ライフハック」である。
一番を目指さないといけない時の「日本で一番高い山は?」
講義人「1番を目指さなければなりません。その理由として,例えば,君,日本で1番高い山は何?」
被講義人「富士山」
講義人「では,2番目に高い山は?」
被講義人「北岳」
講義人「では,3番目に高い山は?」
被講義人「奥穂高岳」
講義人「と?」
被講義人「間ノ岳」
講義人「では,4番目に高い山は?」
被講義人「槍ヶ岳」
講義人「本当に?」
被講義人「あ,3番目が2つあるので4番目は無いと言うべきです」
講義人「そうですね。4番目に高い山は無いのです。順位付けの仕方によっては,順位iのインスタンスがn個ある場合,i+1, i+2, ..., i+n-1番目のインスタンスはありません。順位が1から始まる以上,1番以外のインスタンスは存在しない可能性があるということですね。」
講義人「当社は売上高で業界4位です。つまり,存在しないかもしれないのです。」
被講義人「存在しない?!」
講義人「存在しないのです......」(うっすらと消えていく)
被講義人「存在しない?!」
講義人「あなたの入社試験,71点でした。72点の人が2人いました......」(透明度75%)
被講義人「!!」(うっすらと消えていく)
講義人(存在せず)「」
被講義人(存在せず)「」
大学院生への経済支援拡充を政党に訴えた結果
先日,政党の本部に行き,研究に従事する大学院生に対する経済支援を拡充するように訴えてきた。一応の結果が出たので述べたい。
いくつかの提案のうち,2つが採用され,公明党学生局の政策提言に盛り込まれた。6月5日に,菅官房長官に提出された。
佐々木局長らは、教育費負担のさらなる軽減へ、「大学院生に対する支援が諸外国と比べて薄い」と指摘し、奨学金返還免除枠の拡充などを要望。
その後,佐々木さやか参院議員の秘書から,提言の内容が送られてきた。公開されている文書か分からないので,著作権法上引用できないから,要約すると,
となっていた。
正直なところ,2が入ると思っていなかったので驚いている。尤も,選挙公約ではないので実現への道のりは測定不能だが,政策課題として認識されただけでも大きいだろう。あとは,多くの人の後押しが必須である。
どうやって後押しするかって? 思いつかなければ,「上の記事を読んだ,さっさとやってくれ」と各党に「お問い合わせ」をしてみたら良いかもしれない。ダメかもしれない。
自民党:
公明党:
国民民主党:
あまり知られていないことだが,文部科学省は,博士後期課程の2割の学生が年間180万円以上を受給することを目標にしている。現在の受給率は10.4%である。文科省がやりたいと言っているのにできていない。財務省が予算を回さないからである。ではどうすれば良いか。これをやらないと選挙に落ちるという雰囲気を作るしかないのである。
明日からそういう雰囲気を醸し出しながら通学をしていこう。
中野駅で「大学院生にお金を支給しないとお前落ちるぞ!!」という雰囲気の人を見かけたら,それは僕であるから,気兼ねなくお声かけ頂きたい。
ポスターセッションは楽しい
議論は,お互いが持っていたものをぶつけて,お互いが持っていなかったものにたどり着けるので楽しい。ポスターセッションで研究発表をすると,こちらが思ってもみなかったことをぶつけてくれる人がいて,その場で考えながら対話を繰り返し,意外な着眼点を得ることができるので,最近はポスターセッションが好きである。
今回,研究所の一般公開があり,自分も出展した。研究者向けのものではないので,いかに分かりやすく概要を伝え,面白いこと,役に立つことをやっていると理解してもらえるかが勝負だと思っていた。実際には,色々な業界の方が来て,それぞれの立場からツッコミを入れていただいたことで,想定以上に深い話をすることができ,とても有意義だった。
人文系の研究者や,教育関係者,翻訳家の方が印象深い。
以下,そのやり取りの一例である。
客「機械学習って何ですか。」
僕「それはつまり、機械学習の学習機会が十分に担保されていないということですね。」
客「確かにそういうことになりますね。」
僕「従いまして、債務名義を取得して機械学習の基礎を差し押さえて頂くしかありません。」
客「それって確定判決と線形代数が必要ですよね。」
僕「ええ。」
客「なるほどよく分かりました。」
客「これはAIが使われているのですか。」
僕「はい。このポスターはAdobe illustratorで作られていますが、拡張子がaiです。」
客「するとこのポスターの新しい点はどこですか。」
僕「はい。このポスターは漢字タイポスが使われている点が新しいのです。」
客「おお、なるほど! つまり、データセットと評価指標を作って適切にタスクを定式化しないと機械学習を適用しようがないということですね。」
僕「その通りです。」
客「よく分かりました。ありがとうございます。」
僕「ありがとうございます。」
客「研究について説明してもらってもいいですか」
僕「もちろんです。できるけど誰もやっていないことをやるのが製品開発だとすると,研究というのは,できないことをできるようにすることです。」
客「できないことはできないのでは?」
僕「そうですね。厳密には,できないことが分かっていないこと,ですね。」
客「ああ...いや,今のお話を聞いていて思ったのですが,これは別に英語に限った話ではないんですよね。」
僕「その通りです。この技術基盤自体は言語非依存なので,データがあれば適用可能だと思います。」
客「要するに東大と国立情報学研究所は歴史的に密接な関係にあると。」
僕「元々NIIは東京大学情報図書館学研究センターでしたから。」
客「ああ,なるほどね。なんか,全体的に帰納的な感じですよね。」
僕「論理的にこうであると強く言えないのは確かにそうなんです。」
客「これは科学なんですかね?」
今年度の学振DCは研究費増額!(多分突然の100億予算増のおかげ)
よく知られているように,学振の研究費と奨励金は予算が別枠である。前者は科研費だが,後者は特別研究員の予算である。
特別研究員制度は,事業仕分け以降予算がどんどん減らされているが,科学研究費補助金は,昨年末に突然予算が100億増額されたこともあり,必ずしも減額傾向ではない。
学振DCは,応募者数が増加していることもあり,ここ数年の傾向に従い,採択率は減少した(ついに20%を切った)。
ところが,研究費は予算が別なので,増えることもある。2018年度までの様子はこちらに書いた。
さあ,今年はどうか。本日,情報が公開されたので,早速分析した。
DC1 | DC2 | |||
2018 | 2019 | 2018 | 2019 | |
500,000 | 1 | |||
600,000 | 1 | |||
700,000 | 1 | |||
800,000 | 2 | |||
900,000 | 2 | 58 | 60 | |
1,000,000 | 2 | 2 | ||
1,100,000 | 5 | 25 | ||
1,200,000 | 4 | 1 | 3 | 1 |
1,300,000 | 28 | 24 | 5 | |
1,400,000 | 1 | 4 | ||
1,500,000 | 1 | 2 | 417 | 2 |
1,600,000 | 4 | 7 | 2 | 1 |
1,700,000 | 80 | 358 | ||
1,800,000 | 1 | 1 | 2 | 16 |
1,900,000 | 1 | 1 | 410 | 100 |
2,000,000 | 2 | 6 | ||
2,100,000 | 2 | 105 | 394 | |
2,200,000 | 235 | 1 | 2 | |
2,300,000 | 1 | 127 | ||
2,400,000 | 1 | |||
2,500,000 | 45 | 195 | ||
2,600,000 | 1 | |||
2,700,000 | 4 | 4 | ||
2,800,000 | 301 | 52 | ||
2,900,000 | 1 | 3 | ||
3,000,000 | 1 | 7 | ||
3,100,000 | 68 | 287 | ||
3,200,000 | 1 | |||
3,300,000 | 3 | |||
3,400,000 | 105 |
特筆すべき点は以下の2つ。
- 特別枠(DC1では310万円以上,DC2では210万円以上,ただし人文系で70万円~90万円は見えない)の割合が,DC1で56.9%,DC2で47.7%となった。これまでの推移は,DC1が,14.6%→15.7%→11.1%→9.7%で,DC2が,13.3%→12.9%→9.9%→9.6%である。そして,あらゆる学振ブログに書かれている「通るか分からないが特別枠で出しておけ」というアドバイスに従う人は多いということも分かった(申請した額より多く内定することは考えにくいから)。
- 訳の分からん低額がなくなった。過去には,DC1で30万円という内定額もあった。