研究資料検索システム
近況報告
研究室に入ってからかなり経った。学ぶことばかりだ。
しかし今年の目標として掲げたアウトプットがおろそかになってしまった。
新しく特殊なキーボードを注文した話とか、そのファームウェアを書き換えた話とかネタはある。
とりあえず今やりたいと思ってることを文章として残しておこうと思う。
研究資料検索システム
現在研究室にある資料、先輩方の残した論文やスライドはきちんと管理されている。
しかし現状の管理では「どこに誰が書いたものがある」がわかる程度で、その中身についてはファイルを開けてみないとわからない。
研究室が持つ資料数年分ともなればその量も結構なものとなる。
長く所属している人ならばどんな内容の資料があるかある程度想像つくだろうけれど、そうじゃない人は必要な情報を探し当てるのに遠回りをしてしまうかもしれない。
というか僕が先輩や先生に「こういうことについて調べたいけど、それについて調べた先輩っていますか?」とかいちいち聞くのが申し訳ないだけだったりする。
と、いうわけで研究室の資料をなんとかして内容から検索しやすいようにできないかと考えている。
計画
- 研究に関連する主な資料は論文(tex, pdf)とスライド(ppt, pptx)
- 各データの内容を対象にして検索をしたい
- 含まれる文字列を抽出していろいろあれこれすればできそう(?)
- texはテキストファイルと同じで直に扱える
- pdfからの抽出はツールもライブラリもあるだろうし困らなさそう
- スライドの2種類が鬼門かと思ったがpythonにライブラリがあるようだ(参考URL)
- これらから抽出した文字列の中から名詞を抜き取り、ファイルの場所とひもづける
- ファイルが含む名詞と場所とで索引構造を作り検索できるようにする
できたらいいなと思ってること
参考URL
pythonでオフィス快適化計画 - SlideShare 覚書ブログ: pythonで PowerPointを操作する。
win32.comとかpython-pptが使えるらしい。もっときちんと調べてコードを書きたい。