霊安日記

jf_nights の霊安草子。

情報技術演習Ⅰ 課題

この記事は、前期情報技術演習I の課題です。
課題9 の実習でやったことをまとめます。

以下、やったこと。

人名の切り出し

配布されたexcelファイルから人名部分をコピー&ペーストでファイルに切り出しました。

wikipediaAPIの利用

最初はGoogle で人名を検索してみたり、職歴に病院長や学校長などがあった場合にはその病院・学校名で検索してみたりしたのですが、
量が膨大だったのと、検索がヒットする割合があまりにも少かったのとで、wikipediaの検索に切り替えることにしました。

wikipediaでもこれだけの人名を手動で検索するのには無理があると思ったので、wikipediaのタイトル検索APIを利用することにしました。
以下のコードを用いて、人名リストから、wikipediaのタイトルに含まれているものを書き出しました。

これは課題9をやった当時よりもう少し改良したもので、

  • result/人名 というファイルにその人名が含まれているwikipediaのページ名を
  • hit_list にタイトルとしてヒットした人名を
  • no_hit_list にタイトルとしてヒットしなかった人名を

それぞれ書き込んでいます。

粛々と検索

ここまではさくっと出来ましたがここからは非常に面倒くさく、

  • hit_list の人名をwikipedia のURL にひたすら貼り付けて該当人物のページを確認
  • 生没年が書いてあればそれを提出用のexcelファイルに貼り付け(ただし同姓同名で年代が違ったりしないかどうかの確認

をやっていきました。

その結果、54人のたしからしい生没年を発見することが出来ました。

まとめ

wikipediaAPIは便利でした。
改良してはみたものの、人名が含まれているページを閲覧してみても大半が名前の一部が含まれている別の人物名といった検索結果が多く、
あまり意味を為していないことの方が多かったり、そもそもヒット数が多すぎて実用的ではないかなと思いました。
とはいえ、54人分貢献出来たことはよかったかなと思います。