corpus
1. 基本情報と概要
英単語: corpus
品詞: 名詞 (countable noun)
CEFRレベルの目安: B2(中上級)
概要(英語):
A “corpus” refers to a large or complete collection of texts or data used for linguistic or other types of analysis.
概要(日本語):
「コーパス」とは、大量のテキストやデータを集めたものを指します。言語学などで分析を行うために使われることが多い言葉です。特に、文章や音声のデータが多く含まれていて、それらを総合的に調べたり比較したりする際に便利です。学術的・研究的なニュアンスが強い単語です。
活用形:
- 単数形: corpus (コーパス)
- 複数形: corpora (コーポラ), または corpuses (コーパシズ) ※“corpora”のほうが一般的
- 単数形: corpus (コーパス)
他品詞への変化例:
- 直接的な動詞形や形容詞形はありませんが、「corporate (企業の)」「incorporate (組み入れる)」など、同じ語源「corp-(体)」を含む形容詞や動詞が存在します。
2. 語構成と詳細な意味
- 語幹: “corp” はラテン語由来で「体」を意味します。
- 語尾: “-us” はラテン語系名詞の典型的な語尾で、「何らかのまとまった実体」を指すことが多いです。
関連語や派生語
- corpse(死体)
- corporation(法人・企業)
- incorporate(〜を組み込む)
- corporate(企業の)
よく使われるコロケーション(関連フレーズ10選)
- linguistic corpus(言語学的コーパス)
- spoken corpus(音声コーパス)
- written corpus(文章コーパス)
- balanced corpus(バランスのとれたコーパス)
- text corpus(テキストコーパス)
- corpus data(コーパスデータ)
- corpus-based analysis(コーパスに基づく分析)
- parallel corpus(対訳コーパス)
- corpus annotation(コーパス注釈付け)
- legal corpus(法律文書コーパス)
3. 語源とニュアンス
語源:
ラテン語の “corpus”(身体)が起源です。そこから、「全体としてのまとまり」「集合体」を意味するようになりました。歴史的背景:
古くから「身体」を表す意味で使われ、後に法学や宗教などで「文書全体」を指すようにも転用されました。現代では言語学・情報学などの分野で「テクストの集まり」を意味する学術用語として広く使われています。ニュアンス・使用時の注意点:
- 主に学術分野や専門的な領域で使われるため、カジュアルな日常会話ではあまり登場しません。
- 法律用語の “habeas corpus”(人身保護令状)など、特定の分野での重要なフレーズもあります。
- 大きなデータの塊や文章の集まりを取り扱う時に使用するため、文脈としてはフォーマル寄りです。
- 主に学術分野や専門的な領域で使われるため、カジュアルな日常会話ではあまり登場しません。
4. 文法的な特徴と構文
名詞 (countable)
- 「a corpus」「two corpora」のように可算名詞として扱われます。
- 複数形は “corpora” が一般的ですが “corpuses” とするケースもあります。
一般的な構文例
- “We created a corpus of sample sentences.”
- “A corpus of legal documents was analyzed.”
- “This research relies on a vast linguistic corpus.”
フォーマル/カジュアルな使用シーン
- フォーマル: 論文や研究発表、ビジネス会議(専門的な内容)など
- カジュアル: 日常会話で使用することはほぼありませんが、「言語データの集まり」という説明が必要な場面などでまれに使います。
5. 実例と例文
日常会話 (カジュアル)
- “I heard you’re studying linguistics. Do you work with a corpus of texts?”
- (言語学を勉強しているんだって? テキストのコーパスを使ったりするの?)
- “My professor mentioned a huge corpus of classic novels for research.”
- (先生が研究用に大規模な古典小説のコーパスを紹介してくれたんだ。)
- “I’m curious how they compile a spoken corpus for dialect studies.”
- (方言研究用の音声コーパスってどうやって作っているのか気になるな。)
ビジネスシーン
- “We’re building a customer feedback corpus to analyze common complaints.”
- (顧客のフィードバックを集めたコーパスを作成して、よくあるクレームの傾向を分析しています。)
- “Our data-driven approach uses a specialized corpus of market research.”
- (私たちのデータ重視の手法では、市場調査の特化コーパスを使っています。)
- “We need to organize our internal documents into a well-structured corpus.”
- (社内文書をきちんと構造化したコーパスにまとめる必要がありますね。)
学術的な文脈
- “The statistical model was tested on a corpus of medical records.”
- (その統計モデルは医療記録のコーパスでテストされました。)
- “A balanced corpus helps ensure that research findings are representative.”
- (バランスの取れたコーパスは、研究結果が代表的になるようにする助けになります。)
- “Researchers often use a parallel corpus to compare translations.”
- (研究者は翻訳を比較するために、対訳コーパスをよく利用します。)
6. 類義語・反意語と比較
類義語
- collection(コレクション):
単に「集めたもの」というニュアンスで、“corpus”よりも広く色々な対象に使えます。必ずしも分析目的ではない場合にも使われます。 - body(本体・集積):
“a body of work” のように、まとまった研究や作品の総体を指します。文脈によっては “corpus” とほぼ同義で使われることもあります。
反意語
はっきりとした反意語はありませんが、以下のような対比的な言葉はあります:
- fragment(断片): コーパスのように「全体をまとめたもの」とは反対に、ごく一部の断片を指す単語。
7. 発音とアクセントの特徴
- 発音記号 (IPA):
- アメリカ英語: /ˈkɔːrpəs/ (コー “r” パス)
- イギリス英語: /ˈkɔːpəs/ (コー パス)
- アメリカ英語: /ˈkɔːrpəs/ (コー “r” パス)
- 強勢: 最初の音節 “COR” に強勢が置かれます。(COR-pus)
- 発音の注意点:
- “r” の発音がアメリカ英語とイギリス英語で若干異なります。
- “u” ははっきり「ア」ではなく曖昧な「ə」のように発音されることが多いです。
- “r” の発音がアメリカ英語とイギリス英語で若干異なります。
8. 学習上の注意点・よくある間違い
- スペルミス: “corps”(軍隊の部隊などを指す“コア”)や “corpse”(死体)と混同されやすいので注意。
- 複数形の混乱: 複数形 “corpora” はラテン語由来であるため、つづりが特殊です。試験で正しい複数形が問われることがあります。
- TOEIC/英検などの出題傾向: 直接頻繁に出題される単語ではありませんが、専門分野やアカデミックな英語の読解問題で目にする可能性があります。
9. 記憶に残るヒントやイメージ
- ラテン語の “corp-” は「身体」を表すので、「全体としてのまとまり」をイメージすると覚えやすいです。
- “corpse”(死体)や “corporation”(法人)など、「体」を感じさせる単語と関連づけて覚えると混同が減ります。
- 「大きい体(body)を丸ごとデータ化したもの」という連想をすると、コーパスがデータの集まりであることを脳内でイメージしやすいでしょう。
以上が “corpus” の詳細な解説です。学術的にも使われるややフォーマルな単語で、ラテン語らしい単複形の違い(corpus / corpora)が特徴的です。研究やデータ解析の文脈でよく目にするので、しっかり覚えておきましょう。
(特定の事に関する,または特殊の性質の)文書資料の集成
(研究用に収集した)資料