逆にこの時確かにそうなる。

逆に,このとき与式は確かに恒等式になる

僕の研究について書きます(3);キーワード:計算言語学,修辞構造,English for Specific Purposes

前回,「役に立つ」「論文執筆のための」「英語表現」とは何であるか,という問いが出てきたのであった。

nipo.hateblo.jp

nipo.hateblo.jp

 

そろそろ,little attention has been paid toみたいな表現を指す言葉の定義をしておきたい。しかし,研究の世界では,言葉の定義は慎重に行わねばならない。さもないと,既に存在する言葉を別の概念を指すために使ってしまったり,すでに存在する概念に複数の言葉が割り当てられたりして,せっかく言葉を定義したのにその恩恵を享受するどころか,余計にややこしくなるからである。

間違いなく既に定義されているだろうと思ったのだが,これを調べるのは非常に難儀した。ACL Anthologyというレポジトリに,計算言語学のあらゆる(厳密には違う)論文が掲載されているのだが,結局Applied Linguisticsという応用言語学のトップジャーナルや,Journal of English for Academic Purposesというニッチなジャーナルまで範囲を拡げてサーベイをする羽目になった。

まず,これまで「単語列」とか「英語表現」などと呼んでいたアレであるが,日本語では「定型表現」と訳し,formulaic expressionsあるいはformulaic sequencesと呼ばれている。

そして,このformulaic expressionsを実現する具体的な表現には,lexical bundlesとphrase framesがある。lexical bundlesは,連続した2語以上のことである。phrase frameは,lexical bundleの途中にslot(スロット)があり,そのスロットには任意の単語が入る。例えば,little attention has been paid toはa lexical bundleで,there is * research onはa phrase frameである。自然言語処理の世界では,lexical bundlesのことを単語n-gram(エヌグラム)と呼んでいる。

さて,言葉を定義したので,もう一度問いを確認すると,「役に立つ定型表現とは何か?」ということである。

そもそも,「役に立たない定型表現」は定型にしておく意味がないので,「役に立つ」も「定型」の中に入れてしまおう。

では,「定型表現」の定義を考えていきたい。

定型,というくらいなので,頻度を数えてみれば良いだろうというのが最初に出てくる発想ではないだろうか。ところが,2つの問題が生じる。確かに,little attention has been paid toみたいなのも高頻度なのだが,

  1. this is the
  2. natural language processing

こんなのも出てきてしまう。1は,そりゃまあ定型なんだろうけど,役に立つとは言い難い。2は自然言語処理という分野の英語だが,それはもちろん論文ではよく使われる英語だけれども,これをコンピュータシステムが提示してきても嬉しくない。1は,あまりに一般的であり,2はあまりに特化している,と言っても良いかもしれない。

語数が少ないからいけないという発想もあろう。だが,7語,8語にすると数百万語のコーパスを使っても数十個しか出てこなくなる。それに,定型表現は長ければ良いわけでも,短ければ悪いわけでもない。実を言うと,頻度が高ければ良いというものですらない。

共起尺度といって,同時に単語が現れる度合いを示す指標がある。こういうのを使えば,イディオムやコロケーションをある程度求めることができる。

だが,問題はそこではない。

1や2はダメだけどlittle attention has been paid toは良い,というのを定式化しなければ,科学にならない。

そこで,巨人の肩の上に乗るべく,先行研究における定義を紹介したい。Durrantらのサーベイ*1によれば,

Formulaic language has – notoriously – been defined in many different ways

ということで,早くも暗雲が立ちこめるが,めげずに定義を見てみると,以下の通りである。

  1. ‘Phraseological’ approaches focus on the non-compositionality of certain expressions, defining formulaicity in terms of either the degree to which the meaning of a word combination is predictable from the meaning of its parts or the degree to which words with similar meanings can be substituted into the phrase.
  2. ‘Frequency-based’ approaches focus on the tendency for certain linguistic combinations to appear with high frequency in text, defining formulas as strings of linguistic items (including words, parts of speech, and semantic fields), which have a statistical tendency
    to co-occur in corpora.
  3. ‘Psychological’ approaches focus on the efficient mental processing and storage of language, defining formulas as strings of linguistic items which speakers remember and process as wholes, rather than constructing them ‘online’ with each use.

お分かり頂けるだろうか。

日本語に訳した上に,解釈をすると,こうである。

  1. フレーズの意味が,各単語の意味の和になっているかどうか。そして,他の単語と入れ替え可能かどうか。
  2. 頻度。
  3. 頭の中でひとまとまりとして捉えられているもの。

1は,イディオムの定義である。例えば,by and largeは「概して」という意味だが,byの意味とandの意味とlargeの意味を知っていても全く予想が付かない。さらに,by and bigと言ってしまったら全く通じない。2は,そもそもうまくいかない。3はとても良さそうな定義だが,僕のプログラミング能力では実装できそうにない。

う~ん,ということで,いずれも採用できそうにない。では,今度は,先行研究のうちで,定型表現の抽出を行っている文献をあたってみよう。抽出をしたら,必ず評価をしないといけない。その時に何らかの基準を設けているはずである。

We then asked twenty experienced EAP instructors and language testers at the English Language Institute of the University of Michigan to rate these
formulas*2

ふむふむ。

Our annotation project involved 3 judges [中略]. The judges, all college-educated native English speakers, were introduced to the basic theory of formulaic sequences and their diagnostics, and then instructed that their main task was to identify canonical formulaic sequences*3

なるほど。

要するに,専門家が頑張って選り抜いているのである。

これは厳しい。

どん詰まりである。

 

次回に続く。

*1:Durrant, P., & Mathews-Aydınlı, J. (2011). A function-first approach to identifying formulaic language in academic writing. English for Specific Purposes, 30, 58–72.

*2:Simpson-vlach, R., & Ellis, N. C. (2010). An Academic Formula List: New Methods in Phraseology Research. Applied Linguistics, 31(4), 487–512.

*3:Brooke, J. et al. (2015). Building a Lexicon of Formulaic Language for Language Learners. In Proceedings of the 11th Workshop on Multiword Expressions, 96–104