読者です 読者をやめる 読者になる 読者になる

JavaScriptでn-gram

プログラム

素朴に書いてみようと思って書きましたよ。のメモ。

var ngram = function(words, n) {
  var i;
  var grams = [];

  for(i=0; i<=words.length-n; i++) {
    grams.push(words.substr(i, n).toLowerCase());
  }

  return grams;
}

var text = "Hi. 本日は晴天なり。";

console.log(ngram(text,2));
console.log(ngram(text,3));

実行すると、BigramとTrigramの実行結果が得られます。

[ 'hi', 'i.', '. ', ' 本', '本日', '日は', 'は晴', '晴天', '天な', 'なり', 'り。' ]
[ 'hi.', 'i. ', '. 本', ' 本日', '本日は', '日は晴', 'は晴天', '晴天な', '天なり', 'なり。' ]