Welcome to Mashykom WebSite



ja_ginzaとspaCyを用いた自然言語処理


 オープンソースの自然言語処理ライブラリの代表格はNLTKと呼ばれるフレームワークでした。近年、 Explosion AI 社が開発した Python/Cython で実装されたオープンソースの自然言語処理ライブラリ spaCy が公開されました。MIT ライセンスで利用が可能です。多くの言語をサポートし、学習済みの統計モデルと単語ベクトルが付属しています。研究用ではなく製品作成環境での本番利用を念頭に開発されていることも NLTK などの自然言語処理ライブラリと異なるところです。

 また、最近までは spaCy の学習済みモデルには日本語に対応したものがなく、 バックエンドでMeCab を用いて形態素解析を行っていました。その結果、spaCy を利用して記述された自然言語処理のアプリケーションやライブラリでは日本語の文書を処理することができない状況が続いていました。

 2019年4月に、リクルートと国立国語研究所の研究成果である日本語処理ライブラリ GiNZA が公開されました。リクルート社の公開ページはこちらです。主な特徴は、以下の通り。

  •   高度な自然言語処理をワンステップで導入完了:
    これまで、高度な自然言語処理を行うためには複雑な導入作業が必要でしたが、spaCyのフレームワーク上で、「GiNZA」はワンステップでモジュールとモデルファイルの導入を完了できます。これにより、エンジニアは即座に解析が可能です。
  •  高速・高精度な解析処理と依存構造解析レベルの国際化に対応:
    産業用途で自然言語処理技術を活用するには、一定の処理速度を保ちながら解析精度を高めるためにチューニングを行うことが一般的です。「GiNZA」は、「spaCy」が提供する高速・高精度な依存構造解析器を使用して、産業用途に耐える性能を備えた高度な自然言語処理機能をライブラリとして提供します。同時に、「spaCy」の国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することが可能となり、エンジニアは複数言語の解析を単一のライブラリで行うことができます。
  •   国立国語研究所との共同研究成果の学習モデルを提供:
    自然言語処理系の学会を中心に、人類が用いる多様な言語を、一貫した構文構造・品詞体系で解析可能にする「Universal Dependencies」の取組みが、2014年から全世界で始まっています。日本においても当初からUDの日本語への適用に関する研究と日本語版UDコーパス(データ)構築が同時に進められてきました。Megagon Labsは、国立国語研究所と共同で、日本語版UDに基づいた高精度な依存構造解析技術の研究を行い、その成果である学習済みモデルを「GiNZA日本語UDモデル」に組み込みました
  •  これまで、高度な自然言語処理を行うためには複雑な導入作業が必要でしたが、「GiNZA」はワンステップでモジュールとモデルファイルの導入を完了できます。同時に、「spaCy」の国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することが可能となり、エンジニアは複数言語の解析を単一のライブラリで行うことができます。

    このページでは、 spaCy を用いた日本語の処理について簡単に紹介したいと思います。

    Last updated: 2020.1.10



    spaCyとGiNZAのインストールと基本的使用方法


    spaCy と GiNZA の関係性について整理しておくと、spaCy のアーキテクチャは以下のような構造となっていて、図中の上段の、 自然言語の文字列を形態素に分割する Tokenizer, spaCy の統計モデルに相当する Language といった部分の実装を GiNZA が提供しているという関係になります。ja が日本語の部分です。

    spacy.svg

    GiNZA は日本語のトークン化に SudachiPy を使用しており、GiNZAが提供する Tokenizer の実装は ginza.sudachi_tokenizer.SudachiTokenizer なので、 SudachiPy のラッパーになります。

     最初に、spaCyをインストールします。spaCyの公式サイトはhttps://spacy.ioです。virtual environmentへのインストールを想定します。

    
    (venv) or (base)$ pip install spacy
    
    

     spacy関連のモジュールはpython 3のsite-packagesに保存されます。次に、GiNZAをインストールします。

    
    (base) $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz"
    
    

     エラーが出なければ、GiNZAは正常にインストールされています。GiNZAのGit Hub Repoはhttps://github.com/megagonlabs/ginzaです。

     始めに、command line で使用する方法について説明します。ターミナルの command line でginzaを起動するために、

    
    (base) $ ginza
    
    

    と入力して、以下の表示の後に文章を入れます。

    
    mode is C
    disabling sentence separator
    
    銀座七丁目はお洒落だ。
    
    

    以下の通りに、日本語の形態素解析が実行されます。品詞タグと依存関係ラベリングが表示されています。

    
    # text = 銀座七丁目はお洒落だ。
    1	銀座	銀座	PROPN	名詞-固有名詞-地名-一般	_	3	compounBunsetuBILabel=B|BunsetuPositionType=CONT|SpaceAfter=No|NP_B|NE=LOC_B
    2	七	7	NUM	名詞-数詞	NumType=Card	3	nummod	BunsetuBILabel=I|BunsetuPositionType=CONT|SpaceAfter=No|NE=LOC_I
    3	丁目	丁目	NOUN	名詞-普通名詞-助数詞可能	_	5	nsubj	_	BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|SpaceAfter=No|NP_B|NE=LOC_I
    4	は	は	ADP	助詞-係助詞	_	3	case	_	BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|SpaceAfter=No
    5	お洒落	御洒落	ADJ	名詞-普通名詞-サ変形状詞可能	_	0	root	_	BunsetuBILabel=B|BunsetuPositionType=ROOT|SpaceAfter=No
    6	だ	だ	AUX	助動詞	_	5	cop	_	BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|SpaceAfter=No
    7	。	。	PUNCT	補助記号-句点	_	5	punct	_	BunsetuBILabel=I|BunsetuPositionType=CONT|SpaceAfter=No
    
    
    

     次に、spaCyで日本語処理を実行してみます。 spaCy をインポートして、GiNZA のモデルをロードします。また、慣例としてロードしたモデルは nlp という変数名で保持します。jupyter notebookを起動して、以下のように入力します。

    
    import spacy
    nlp = spacy.load('ja_ginza')
    
    

     実際に日本語の文章をトークン化してみます。

    
    import spacy
    
    nlp = spacy.load('ja_ginza')
    doc = nlp('恵比寿にあるあのイタリアンにはよく行く。美味しいんだ。')
    
    for sent in doc.sents:
        for token in sent:
            info = [
                token.i,         # トークン番号
                token.text,     # テキスト
                token._.reading, # 読みカナ
                token.lemma_,    # 基本形
                token.pos_,      # 品詞
                token.tag_,      # 品詞詳細
                token._.inf      # 活用情報
            ]
            print(info)
            
    

    トークン化された結果は以下の通りです。

    
    [0, '恵比寿', 'エビス', '恵比寿', 'PROPN', '名詞-固有名詞-地名-一般', '*,*']
    [1, 'に', 'ニ', 'に', 'ADP', '助詞-格助詞', '*,*']
    [2, 'ある', 'アル', '有る', 'VERB', '動詞-非自立可能', '五段-ラ行,連体形-一般']
    [3, 'あの', 'アノ', 'あの', 'INTJ', '感動詞-フィラー', '*,*']
    [4, 'イタリアン', 'イタリアン', 'イタリアン', 'NOUN', '名詞-普通名詞-形状詞可能', '*,*']
    [5, 'に', 'ニ', 'に', 'ADP', '助詞-格助詞', '*,*']
    [6, 'は', 'ハ', 'は', 'ADP', '助詞-係助詞', '*,*']
    [7, 'よく', 'ヨク', '良く', 'ADV', '副詞', '*,*']
    [8, '行く', 'イク', '行く', 'VERB', '動詞-非自立可能', '五段-カ行,終止形-一般']
    [9, '。', '。', '。', 'PUNCT', '補助記号-句点', '*,*']
    [10, '美味しい', 'オイシイ', '美味しい', 'ADJ', '形容詞-一般', '形容詞,連体形-一般']
    [11, 'ん', 'ン', 'の', 'SCONJ', '助詞-準体助詞', '*,*']
    [12, 'だ', 'ダ', 'だ', 'AUX', '助動詞', '助動詞-ダ,終止形-一般']
    [13, '。', '。', '。', 'PUNCT', '補助記号-句点', '*,*']
    
    

    nlp(・) を読み込んだ時点で、解析済みの Doc オブジェクトが返ってきます。 つまり、トークン化、品詞のタギング、依存関係のラベリング、固有表現抽出の一通りの処理が終わっています。

    Doc オブジェクトには、以下のような便利なメソッドが定義されています。

  • Doc.ents :ドキュメントにあるトークン化されたentitiesの列を返します
  • Doc.noun_chunks :名詞句の列を返します
  • Doc.sents : 文章ごとの列を返します
  • Doc.vector : 語彙のベクトルを返します
  • Doc.similarity : コサイン類似を予測します
  • 詳しくは、spacyの公式ドキュメントを参照ください。ここでの説明の多くは、第4回 spaCy/GiNZA を用いた自然言語処理の解説を参考しています。


    spaCyとGiNZAを用いた言語処理


     日本語の文書に対して前処理を行う際、以下のステップが必要とされます。

  • 文に対してMeCabやSudachiなどの形態素解析器を通じて単語に分割
  • 必要に応じて品詞情報や固有表現を抽出
  • 必要に応じて単語のかかり受け情報を抽出
  • 単語を埋め込みベクトルに変換
  •  上で見た通り、spaCyではこれらの処理はパイプラインとして記述され、上記の処理は予めパイプラインに組み込まれています。この結果、nlp()を読み込んだ段階で、いきなりメインの処理から書き始めることが可能です。例えば、

    
    import spacy
    
    # 日本語自然言語処理のパイプラインを構築されたGiNZAをspaCyから読み込む
    nlp = spacy.load('ja_ginza')  
    
    doc = nlp("1976年、ジョブズは友人のスティーブ・ウォズニアックが自作したマイクロコンピュータ「Apple I」を販売するために起業することを決意し、同年4月1日にウォズニアックおよびロナルド・ウェインと共同で「アップルコンピュータ・カンパニー」を創業した。")
    
    for token in doc:
        print(token.text, token.pos_, token.vector[:2]) # 単語ベクトルの最初の2次元のみ出力
    
    

    のような操作が簡単にできます。spacy.loadを通じて事前に定義されたパイプラインと学習済みモデルを読み込み、そこに文を入力することで内部で単語分割と品詞情報を付与したDocオブジェクトが生成されます。各単語はTokenオブジェクトになっており、品詞情報や埋め込みベクトルを呼び出すことが出来ます。

    形態素解析した文章を文単位に分割するときは、doc.sents を用いて

    
    doc =nlp('spaCy はオープンソースの自然言語処理ライブラリです。学習済みの統計モデルと単語ベクトルが付属しています。')
    for s in doc.sents:
        print(s)
    
    

    と入力します。

    
    spaCy はオープンソースの自然言語処理ライブラリです。
    学習済みの統計モデルと単語ベクトルが付属しています。   
    
    

    名詞句のみ抽出するときは、以下のようにします。doc.noun_chunks を用います。

    
    for np in doc.noun_chunks:
        print(np)
    
     spaCy
     オープンソース
     自然言語処理ライブラリ
     学習済み
     統計モデル
     単語ベクトル    
    
    

    依存関係を可視化する機能もあります。jupyter notebook を起動して、以下のコードを実行します。

    
    from spacy import displacy
    displacy.render(doc, style="dep", options={"compact":True})
    
    

    依存関係のグラフが表示されます。

    固有表現抽出は文中の単語がそれぞれどんな固有表現を持つかを予測することです。以下の文に対して固有表現を取り出してみます。

    
    doc = nlp('2018年の夏にフランスに行った。ジベルニー村のジャン・クロード・モネの家で池に浮かぶ睡蓮を見た。')
    for ent in doc.ents:
        print(ent.text, ent.start_char, ent.end_char, ent.label_)
    
    

    以下の結果が表示されます。

    
    2018年 0 5 DATE
    夏 6 7 DATE
    フランス 8 12 LOC
    ジベルニー村 17 23 LOC
    ジャン・クロード・モネ 24 35 PERSON
    
    

    spaCyでは出力の可視化機能が豊富にあります。Jupyter環境で可視化するには以下のspacy.displacyを使います。

    doc = nlp('恵比寿にあるGarden Placeにはよく行く。三つ星フレンチのロブションにも行く。美味しいけど、高額な店だ。')
    
    displacy.render(doc, style="ent")
    
    

    以下のように、固有名詞に色がつきます。

    恵比寿 LOC にあるGarden Placeにはよく行く。三つ星フレンチの ロブション ORG にも行く。美味しいけど、高額な店だ。
    
    

    LOCは場所、ORGは組織名です。Garden Place は固有名詞としてはタグ付きされていません。英文では、普通名詞ですね。

    文章のトークン化で生成された単語のベクトル表現を見るときは、以下のように入力します。

    
    token = doc[6]
    print(token)
    print(token.vector)
    
    以下が結果です
    に
    [-0.3364834  -0.3304015   0.48512152  0.00971493 -0.53814125 -0.40941057
      0.11331341  0.37284666  1.7968493   0.03470068 -0.2087467   0.14600077
      0.5679184   0.6358313   0.74924064 -0.31182808  0.06420083 -1.1553096
      0.7298233   0.5770952  -0.13159536 -0.37240943 -0.16940811 -0.41190833
      0.19864053 -0.9732325   0.02771017  1.039847    1.191609    0.5982838
      0.6307686   1.0688727  -0.8462963  -0.6300568  -0.26891077 -0.11861878
     -0.298805   -0.4609053  -0.03465112 -0.42766702 -0.69790787  0.40475303
     -0.64429235 -0.16863054  0.07201386  0.80741704  1.6020759   0.909806
     -1.3255128  -0.10489891  0.68750393 -0.32993212  0.28356764 -0.18942814
      0.5340779  -0.08497069  0.7528766  -0.13633768 -0.06377768  0.15060464
     -0.28614843 -0.5399209   0.7124946  -0.5067208   0.03513991 -0.43718255
      0.30380574 -0.49380696 -0.09729388  0.1833167   0.56754035  0.5102274
      0.3808821   0.5141533  -1.3498139   0.34355974 -0.04191615  1.0142361
      0.7048285  -0.58027756  0.14902164 -0.31125942  0.07090253 -0.57392216
     -0.03852378 -0.01111794  0.15501869 -0.78775823  0.06303703  0.73310703
     -0.5367188   0.88056207  0.10123526  0.4752925  -0.30720884  0.03859398
     -0.119146    0.15512064  0.78491586 -0.8594853 ]
    
    

    単語のベクトル表現の次数は100です。次に、文章の類似度の計算をしましょう。

    
    doc1 = nlp("これまで様々なセミナーに参加してきましたが、個人的に一番満足できたセミナーでした。プログラミング関係に疎い私でも理解でき、逆にプログラミングに興味を持ち、自分でもプログラミングに携わりたい・作りたいと思いました。")
    doc2 = nlp("難しいように見えますが仕組みは簡単につくれる環境があって誰でもできるところが素晴らしいと思いました。AIに関して全く知識が無く、漠然としていましたが、このセミナーを受けて少し霧が晴れた気がすると同時に、AIへの興味が強くなりました。")
    
    doc1.similarity(doc2)
    
    

    結果は、0.9436557774027887 となりました。どう思いますか?



    *** 続く ***

    BERTによる日本語処理のページに移る

    Chatbots and AI Assistantsのページ

    このページの先頭に戻る