ここでは、デジタル版新聞記事文庫で提供されている全文記事画像、見出しインデックス、全文テキストのそれぞれについてその仕様・内容をご説明します。

一記事の単位

連載記事は、原則として連載回ごとに分割せず、一括して一記事とみなしています。
(※一記事が3万文字を超える場合は、システム機能の都合上、分割しています。)

記事全文画像

新聞記事文庫に収録された切抜記事は、原紙から記事部分を切り抜いたのち、原則として記事ごとに台紙に貼りつけられ、冒頭に新聞名と日付を付して保存されています。
原則として台紙1面を1画像として電子化しています。

  • 長い記事は複数画像にわたります。
  • 最後のコマがごく数行ということもありますが、そのまま複数画像としています。
  • ときおり複数記事を一枚の台紙に貼っている場合があります(主に大正初期)。その場合は記事ごとに画像を作成しています。トリミングをする場合は長方形を原則としているため、前後の記事の断片が付随していることがあります。
    (※平成25年度以前に作成した画像は、トリミングをおこなっておらず、前後の記事が含まれています。)
  • 連載記事の場合に、連載1回目の見出しのみを残して2回目以降の見出しは捨ててしまい、記事本文のみを続けて貼っている場合があります。最初に「上」の見出しがあって「中」「下」が見当たらないものがあって一見不完全記事のように見えますが、多くはこの事情によるものです。

インデックスデータ

個々の記事に関する情報です。主に下記のような項目があります。

タイトル
記事冒頭にある見出し・副見出しです。連載記事の場合は、連載全体の見出し・副見出しで、各回見出しは含みません。
著者名
署名記事の場合は、表示されます。
新聞名
新聞記事文庫では原紙の題字などは残しておらず、印刷や手書きによる紙片を記事冒頭に貼付して新聞名・日付を示しています。連載記事の1回だけが別の新聞名になっているなど疑わしい例もまれにありますが、切抜帳どおりに入力しています。
切抜帳
記事の分類項目です。上段が「大分類」、下段が「中分類」です。
記事番号
1冊の切抜帳の中の何番目の記事かを示しています。
出版日
新聞名と同様、記事冒頭に貼付された紙片に日付がありますが、多くは手書きで判読困難な場合が少なくありません。切抜帳内での前後関係などからある程度大胆に推測して入力している場合もあります。画像もあわせてご確認ください。
なお、連載記事の場合は「開始日/終了日」の日付としています。

記事全文テキスト

記事全文テキストは、全文が検索対象となり、また画像とともに表示もされます。
提供しているテキストには次のような処置をほどこしています。

  • 漢字は現在の常用字体に置き換えて入力しています。
  • 歴史的かなづかいも現代かなづかいに置き換えています。
  • 統計図表などの図表類は[図表あり]のように存在位置のみを示して、入力していません。図表部分は画像をごらんください。
  • 判読困難な文字は「□」に、判読できるがJIS第2水準外文字は「●」で入力しています。
  • データ校正につとめておりますが、なお誤字脱字が残っており現在も校正作業中です。ご迷惑をおかけしますが、画像と対照してご覧いただきますようお願いいたします。誤り等のご指摘はお問い合わせフォームからお寄せいただけると幸いです。
  • 2019年度公開分より、記事全文に先行してインデックスデータと画像のみを公開しています。これらの場合、記事全文部分に「記事本文は準備中です」と表示されます。