Tethne を使って web of science の引用ネットワークを可視化してみる
やること
python ライブラリ Tethne を使って引用のネットワーク構造を可視化してみる。(ほとんどチュートリアル通り)
やってみた結果こんな感じになった。
Tethneとは
Tethneは、書誌のメタデータを解析して解析するためのPythonソフトウェアパッケージです。このプロジェクトの最も重要な目標は、学者が共著者や共引用グラフなどのメタデータベースのネットワークモデルを簡単に作成できるようにすることです。
Tethneを使用して、ISI Web of Science、JSTOR Data-for-Research、さらにはZoteroコレクションの書誌メタデータを解析することができます。
Tethneは人文科学や社会科学の技術に精通した学者、特に科学的変化に関心のある人たちを念頭に置いて開発されました。
とな。以下の参考サイトより引用
Tethne 0.8 Documentation — tethne 0.8 documentation
https://pythonhosted.org/tethne/index.html
という訳でとりあえず、インストールしてみる。(※注 Tethneは python2系で動くので環境に注意。pyenvなどで環境を作ると良いと思う。)
pip install tethne
インストールはそこまで時間がかからないが、pipでのインストールを待っている間に、可視化のために使う、Cytoscapeというソフトウェアをダウンロードしてインストールしておく。*1
Cytoscapeとは
オープンソースのネットワーク可視化ソフトウェアです。
とりあえずは、この記事を読むと良さそう。というかめちゃわかりやすくて詳しい。
Web of Scienceとは
Web of Science(ウェブ・オブ・サイエンス)は、トムソン・ロイター(旧トムソン)の科学部門であるサイエンティフィック(Scientific)により提供されているオンラインの学術データベースである。
Web of Science 略してWoSがすごいのは、あらゆる分野を網羅していて、論文の分析データなども充実しているところ。論文のインパクトファクターなども調べることができたり、全ての論文の引用、被引用情報が索引付けされているところです。また、評価の高い論文のみを収録していて、情報の信頼性が高いんだってさ。
世界の論文Top100とかって記事の元データになっていたりもするとな。
という訳で、WoSの特徴である引用、被引用情報が索引付けしてある特徴を活かして、注目した論文の引用ネットワークを作ってみようと思う。
WoSからデータをダウンロードしてくる
---追記予定
実際にコードをかく
まずは、WoSのデータを解析するために、ライブラリのインポートと、ファイルを読み込む。
from tethne.readers import wos
corpus = wos.read('/path/to/my/data.txt') # /path/to/my/data.txt にはDLしてきたWoSのファイルのパスを指定する。
コーパスの長さを確かめる
len(corpus)
---追記予定
from tethne.networks import coauthors
coauthor_graph = coauthors(corpus)
from tethne.networks import cocitation
cocitation_graph = cocitation(corpus, min_weight=3)
from tethne import GraphCollection
coauthor_collection = GraphCollection(corpus, coauthors)
coauthor_collection.node_distribution()from tethne.writers.graph import to_graphml
to_graphml(coauthor_graph, '/path/to/my/graph.graphml')
可視化してみる。
先ほど生成した、graph.graphmlをCytoscapeにて開くとこういう画面が出てくると思う。*2
ここで、from Network File... を選んで少し待つとネットワークが作成される。やったね。
レイアウトは、上側のカラムで変更できるので、色々変更して眺めてみると面白いかもしれません。
円形
わちゃわちゃ