踊り字辞書の作成

code external_link

  • 踊り字「ゝ」、「ゞ」、「ヽ」、「ヾ」を対象にし、下記変換を行う辞書を作成する。
    • ひらがなの例:いすゞ→いすず
    • カタカナの例:イスヾ→イスズ
  • 踊り字「々」は対象外とする。
odori2kana.csv.org
## 表層形,左文脈ID,右文脈ID,生起コスト,カテゴリー,かな,注記,DIC-ID あゝ,0,0,-1131,hiragana,ああ,,2 いゝ,0,0,-1131,hiragana,いい,,3 うゝ,0,0,-1131,hiragana,うう,,4 えゝ,0,0,-1131,hiragana,ええ,,5 おゝ,0,0,-1131,hiragana,おお,,6 : アヽ,0,0,-1131,katakana,アア,,113 イヽ,0,0,-1131,katakana,イイ,,114 ウヽ,0,0,-1131,katakana,ウウ,,115 エヽ,0,0,-1131,katakana,エエ,,116 オヽ,0,0,-1131,katakana,オオ,,117 :
dicrc
; List of features ; f[0]: category ; f[1]: kana cost-factor = 800 bos-feature = BOS/EOS output-format-type=odoriji ; node-format-odoriji = %m\t%F,[0,1]\n node-format-odoriji = %f[1] unk-format-odoriji = %M eos-format-odoriji = \n
char.def
DEFAULT 1 0 0 SPACE 0 1 0 0x0020 SPACE
matrix.def
100 120 0 0 1 0 1 10 0 2 5
unk.def
DEFAULT,0,0,0,* SPACE,0,0,0,*

スクリプト

makeDic.sh
#!/bin/bash mecabTools=$(mecab-config --libexecdir) mv odori2kana.csv odori2kana.csv.org cat odori2kana.csv.org | grep -v ^## > dic.csv # Delete comment lines. ${mecabTools}/mecab-dict-index -f utf8 -t utf8 echo "" echo "== Test Dictionary ==" src='あいうえおかゝきゞカヽキヾabcdef' echo ${src} echo ${src}| mecab -d ./

📖 参考資料

🌏 Map

same layerlower layer