方言の形態素解析
Yahoo! Widgetのぷちえう゛ぁを好んで使っています。まぁ、デスクトップマスコットみたいな感じですが、ブログトレンドワードとか、急上昇検索ワードとか表示する機能があって、動向調査(なにの?)に少々役立ちます。この表示ワードは、自動のものと手動のものがあるようで、後者はワードとその意味とがマーキーで流れます。
で、掲題の件は、自動の方にかかってきます。先週、このブログトレンドワードで、「げんかせんと」という単語が配信されてきました。今年の流行語として東国原知事の「どげんかせんと」がランクインしてましたが、これが形態素解析で「ど」が分離されてしまったのではないかと予想してますがどうでしょう?やっぱり方言に対しては通常の形態素解析が通用しないんではなかろうか?
と、予想だけしてみましたが、Yahoo! JAPANの公開APIに言語解析があるんですよね。そいつに食わせてみるかな。
http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html
追記:という訳で試してみた
<?xml version="1.0" encoding="UTF-8" ?> <ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp" xsi:schemaLocation="urn:yahoo:jp:jlp http://api.jlp.yahoo.co.jp/MAService/V1/parseResponse.xsd"> <ma_result> <total_count>6</total_count> <filtered_count>6</filtered_count> <word_list> <word> <surface>ど</surface> <pos>助動詞</pos> <baseform>どる</baseform> <feature>助動詞,助動詞ラ五,体言接続特殊2,ど,ど,どる</feature> </word> <word> <surface>げんか</surface> <pos>名詞</pos> <baseform>げんか</baseform> <feature>名詞,名詞,*,げんか,げんか,げんか</feature> </word> <word> <surface>せん</surface> <pos>名詞</pos> <baseform>せん</baseform> <feature>名詞,名詞,*,せん,せん,せん</feature> </word> <word> <surface>と</surface> <pos>助詞</pos> <baseform>と</baseform> <feature>助詞,並立助詞,*,と,と,と</feature> </word> <word> <surface>いか</surface> <pos>助動詞</pos> <baseform>いく</baseform> <feature>助動詞,助動詞く,未然形,いか,いか,いく</feature> </word> <word> <surface>ん</surface> <pos>助動詞</pos> <baseform>ん</baseform> <feature>助動詞,助動詞,*,ん,ん,ん</feature> </word> </word_list> </ma_result> </ResultSet>
最初"と"までひとつづきで名詞ととられているのではないかと思いましたが、まぁ、それはないか。なんにせよ、あんまり旨く解析できていないようです。では、標準語で解析してみましょうw(解析してもらいましょう)
<?xml version="1.0" encoding="UTF-8" ?> <ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp" xsi:schemaLocation="urn:yahoo:jp:jlp http://api.jlp.yahoo.co.jp/MAService/V1/parseResponse.xsd"> <ma_result> <total_count>6</total_count> <filtered_count>6</filtered_count> <word_list> <word> <surface>なんとか</surface> <pos>副詞</pos> <baseform>なんとか</baseform> <feature>副詞,副詞,*,なんとか,なんとか,なんとか</feature> </word> <word> <surface>し</surface> <pos>動詞</pos> <baseform>する</baseform> <feature>動詞,サ変する,未然形,し,し,する</feature> </word> <word> <surface>なけれ</surface> <pos>助動詞</pos> <baseform>ない</baseform> <feature>助動詞,助動詞ない,仮定形,なけれ,なけれ,ない</feature> </word> <word> <surface>ば</surface> <pos>助詞</pos> <baseform>ば</baseform> <feature>助詞,接続助詞,*,ば,ば,ば</feature> </word> <word> <surface>なら</surface> <pos>助動詞</pos> <baseform>なる</baseform> <feature>助動詞,助動詞ラ五,未然形,なら,なら,なる</feature> </word> <word> <surface>ない</surface> <pos>助動詞</pos> <baseform>ない</baseform> <feature>助動詞,助動詞ない,基本形,ない,ない,ない</feature> </word> </word_list> </ma_result> </ResultSet>
と、こんな具合でした。