【人力検索】圧縮されたデータを高速に検索するアルゴリズム【類似検索】

Question

shampoohat

28

27もっと見る

105pt

コンピュータ

【人力検索】圧縮されたデータを高速に検索するアルゴリズム【類似検索】

ふと気になったので、調べ物をお願いします。
圧縮されたデータを対象に検索を行うアルゴリズムで
下記のようなもので、目ぼしい成果を上げているものを探してください。
（人力検索としては、次の類似を検索する形になります。）

[PPT] 高速検索可能なテキスト圧縮法に関する研究
（復号処理を行わずに高速に検索を行う圧縮法の研究）
www.tkl.iis.u-tokyo.ac.jp/~otsuka/profile/kenkyu3.ppt

くどく補足しますが、「検索インデックスを圧縮することにより高速に検索が行えるようになりました」という種類のものを紹介する回答は不要です。
「gzipで圧縮されたファイルを、自動的に解凍して検索できます」という類のソフトの紹介も不要です。
上に挙げたものそのものも不要です。
※　探すのは難しいかもしれません。
　　訳も判らず【不要な回答】をしていただいた方は０ｐｔです。
　　(〓さんとか)怪しいところは既に切ってありますが、あまりに明白な粗悪回答をしていてくれた方については回答拒否のフラグを立てておきます。

回答の条件

URL必須
1人2回まで

登録：2005/12/11 05:41:44
終了：--

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

はてな「人力検索はてな」に投稿されている「質問」のうち「文字化け」し・・はてな「人力検索はてな」に投稿されている「質問」のうち「文字化け」し・・ 2006-03-13 16:13:16
[hatena]圧縮されたデータから検索 [hatena]圧縮されたデータから検索 2006-03-13 16:13:16

圧縮されたデータを対象に検索を行うアルゴリズムで下記のようなもので、目ぼしい成果を上げているものを探してください。 http://www.hatena.ne.jp/1133642504 そんなことできるんかいな? 圧縮
人力検索はてな【意識調査】１．はてなリニューアル以前.. 2006-04-18 23:05:33

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Ma2 · Answer 1 · 2005-12-05T23:16:14+09:00

No.1

Ma21102005/12/05 23:16:14

5pt

http://www.kochi-tech.ac.jp/library/ron/2000/info/1010458.pdf

こういうのでいいんでしょうか？

データベースなのでまったくインデックスを作成しないわけではありませんが、インデックスそのものを圧縮するわけではないようです。

ご回答有難うございます。

> データベースなのでまったくインデックスを作成しないわけではありませんが

ちょっと待て。

なぜここで、RDBのインデックス作成の話になる？

データ圧縮で、

http://fw8.bookpark.ne.jp/cm/ipsj/search.asp?flag=6&keyword=...

みたいな話をするのは、質問の主旨から外れています。

ご回答URLを大まかに読んだのですが、要は、相坂ら(1999)をGAでやってみました、という話ですよね。

「データベース圧縮」という話を誰が提案したのかは不勉強にして知りませんが、いわゆるデータ圧縮と違う話ですよね、OKです？

実に微妙で果敢な回答ですが、とりあえず、もうちょっとROMってから回答してくれたほうが有難かったかもしれません。

求めるものとは違いました。回答は継続して募集いたします。

2005/12/06 01:13:25

quintia · Answer 2 · 2005-12-12T02:31:38+09:00

http://www.google.com/search?hl=ja&q=search+compressed-text&...

Google

1.の様な回答が付かなければ静観するつもりでしたが……。

このgoogle検索で結構ヒットします。もちろん英語論文ですが。

ほとんどabstractぐらいしか見られませんが、その内容をざっと読んでみると基本的な考えは共通している様に思われます。

つまり、テキストを圧縮するのに使う、もしくはテキストを圧縮している過程で構築される辞書データをそのまま検索に使ってしまえ、というアイデアです。

http://www.usenix.org/publications/library/proceedings/usits97/v...

With the explosive growth in content, Internet and Intranet information repositories require efficient mechanisms to store as well as index data.

コンテンツが爆発的に増えるにしたがって、インターネットやイントラネット上の情報をインデクス化して効率的に格納するメカニズムが必要になってきました。

In this paper we discuss the implementation of the Shrink and Search Engine (SASE) framework which unites text compression and indexing to maximize keyword search performance while reducing storage cost.

本論ではストレージコストを減らしつつ、キーワード検索のパフォーマンスを最大限にする様な、テキストの圧縮とインデクス化を統合する方法について論じます。

中身は判りませんが、全文検索用のインデクス作成の過程で、ついでにファイルを圧縮してしまおうというアイデアの様です。(質問とは真逆の考え方かもしれませんが)

http://citeseer.ist.psu.edu/551537.html

Direct Pattern Matching on Compressed Text - de Moura, Navarro, Ziviani, Baeza-Yates (ResearchIndex)

uses a semi-static word-based modeling and a Huffman coding

という箇所が見られますね。

ハフマン符号化に使う、データ-符号の割り当てについて、半分静的な(semi-static)辞書を使う、とあります。

辞書を静的に持ってしまえば、その辞書にある単語を検索するのにデコードが不要だということでしょう

http://portal.acm.org/citation.cfm?id=967612

Regular expression searching on compressed text

Ziv-Lempel LZ78 LZW などの符号化による圧縮されたファイルについて、正規表現による検索を解凍無しでおこなう手法。

具体的には書いていませんが、いずれの圧縮も圧縮の過程でデータの内容から圧縮のための符号化辞書を作っていくアルゴリズムです。

それを利用して検索する手法と思われます。

http://www.01-tec.com/document/basic_compression.html

データ圧縮の基礎

符号化についての説明のページを最後に。

やはりWebで簡単に検索できるのは論文のabstraactぐらいの様で概要しかわからないという感じでした。

【人力検索】圧縮されたデータを高速に検索するアルゴリズム【類似検索】

回答（2件）

Ma21102005/12/05 23:16:14

quintia562712005/12/12 02:31:38

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック