逆にこの時確かにそうなる。

逆に,このとき与式は確かに恒等式になる

僕の研究について書きます(2);キーワード:計算言語学,自然言語処理,応用言語学

いま手元には,little attention has been paid toと,there is little researchの2つしかない。最低でも1000個くらいは欲しいよね。さあ,どうやって集めてくるのか。

 

次回に続く。

 

前回の続きで,僕の研究について書いている。

 

さて,little has been paid toとthere is little researchは役に立ちそうな英語の単語列(単語が並んでいるもの)だが,これをいっぱい集めたい。どうしたらいいだろう。

世の中には,英語論文の書き方なる本がたくさんある。こういう本には,こういう英語の単語列がいっぱい収録されている。

でも,英語論文の書き方なる本を論文を書くときに参照している人を見たことがない。

どうなっているのだろう?

最も学術的に練られているアカデミック・ライティングのための英語表現集が,マンチェスター大学のJohn MorleyによるAcademic Phrasebankである。

www.phrasebank.manchester.ac.uk

 

要するに,既存の「英語の単語列」の資源はたくさんありそうだ,ということが分かる。

では,これをコンピュータにぶち込めば良いのだろうか。

そうもいかないのだ。

little attention has been paid toは役に立つ「英語の単語列」だが,アカデミックフレーズバンクには,こんなのしかない。

Up to now, far too little attention has been paid to …

So far, very little attention has been paid to the role of X.

However, far too little attention has been paid to …

 何がマズいかお分かりだろうか。

「Up to now,」「...」「the role of X」「So far,」「However,」等が不要なのである。

つまり,既存の資源をそのままコンピュータで使うことができないケースがあり,それは実は少なくなく,せっかく世の中には「英語論文の書き方」といったタイトルの本が出回っているのに,すぐには利用できないのだ。

では,不要部分を一生懸命一つずつ丁寧に取り除いていけば良いのだろうか。

アカデミックフレーズバンクの収録数はそんなに大きくないので,やろうと思えばできる。だが,そもそも,アカデミックフレーズバンクに収録されている英語表現だけで十分なのだろうか。十分なら,コンピュータシステムなんか作らなくても,これを読み込めば良い。

今ここで,あなたの論文に書かれる文をひとつ,日本語で良いので頭に思い浮かべて欲しい。実験手法でも良いし,グラフの説明でも良いし,考察部分でもよい。その文は,アカデミックフレーズバンクに載っているだろうか。

この程度の収録数で書ける英語は本当に限られている。なぜなら,対象が広いからである。どんな分野の人でも使うような表現もあれば,ある特定の研究テーマでしか使われない表現もある。これはテクニカルタームの話ではない。だが,テクニカルコンストラクション(construction:構文)のようなものはあるのだ。

ということで,大量の,そして多種多様な英語表現を収集してくる必要があり,不要部分を人間が取り除いてもキリがないのだ。

でも,やった。

僕,全部やった。

これが,とっても大変だった。その大変さを共有して,本稿は終わりにしたいと思う。

例えば,little attention has been paid toは役に立ちそうなフレーズである。では,

So far, very little attention has been paid to the role of X. 

から,役に立ちそうな部分を抜き出せ,と言われたら,どこを抜き出せば良いだろうか。

little attention has been paid toと似ている部分を抜き出せ,は比較的簡単だが,単に役に立つ部分を抜き出せと言われると,非常に困るのである。

veryはあった方が良いだろうか? littleを強めるのは一般性に欠ける感じがするから,一旦外しておこうか?

So farはあった方が良いだろうか? 現在完了なのだからso farもつけた方が親切(≒役に立つ)じゃないか?

「役に立つ」なんていうのは,基準としてあまりにも曖昧であるとお気づきだろう。しかし,この「役に立つ」という基準は,先行研究にも堂々と書かれている「基準」なのだ。

 

次回に続く。