2020年7月27日月曜日

S_nao NOTE 検索エンジン

7 検索エンジン(ハイパーリンク)

世界中の人たちが検索エンジンを使ってささいな疑問や驚くほど重要な疑問を調べていることはとても刺激的なことである。そのためできる限り最適な答えを提示することはとても大きな責任である。人工知能やマシンラーニングを見始めるようなときはたくさんあるが、ユーザーがどうやって使用していくのかについて議論する必要がある。なぜなら1日の終わりには社会になんらかの影響を与えたいからである。火星へいけるまではどのくらいかかるのかを検索した際結果はどこから来たものでなぜ他の回答よりもこれらが最初にリスト化されているのか。その疑問に答えるためにまずその検索に対して検索エンジンがどのように結果を出しているのかを見てみる。検索を行う際、まず始めに知らなくてはならないのは、実際検索エンジンはリアルタイムであなたの検索ワードをワールドウェブサイト上で作動させているのでないということである。それゆえ10億以上のウェブサイトがインターネット上にあり、数百以上のウェブサイトが1分ごとに作られている。そのため、もし自分が求めている結果を見つけるために検索エンジンが全てのサイトを見て回らなければならないのならば永遠に時間がかかってしまう。検索結果を素早く出すためには事前に検索エンジンを定期的にウェブをスキャニングしていて後で自分の検索に役立つような情報を記録している。このことで「火星へ行く」ことについて検索をかけた場合、検索エンジンはリアルタイムでその答えを足せるようなものを既に持っている。それがどのように作動しているのかというとインターネットはそれぞれがハイパーリンクで繋がっているページのウェブであり、これらのウェブページを横切るスパイダーというプログラムが情報を集めるために検索エンジンはそのスパイダーを定期的に作動させている。ハイパーリンングを見つけるたびに全てのページを訪問するまで付いて行き、全体のインターネット上で見つけることができるようになる。スパイダーが訪問する各ページにおいて検索に必要かもしれない情報を記録するために検索インデックスと呼ばれる特別なデータベースへその情報を追加している。どのように検索エンジンが結果を持って来ているのかというと「火星へいけるまではどのくらいかかるのか」と質問した際、検索エンジンは検索インデックスにあるそれらの単語一つ一つをさがしてその単語が含まれているインターネット上の全てのページのリストを素早くゲットするが、これらの単語検索だけだと約数百ものページが出てきてしまうため、検索エンジンは、まず始めにどの結果が一番検索主に見せるのに適しているのか決める必要がある。

 

 

検索エンジンは検索主が何をさがしているのかを推測しなければならないため、このことはトリッキーである。それぞれの検索エンジンは独自のアルゴリズムを使っていて、検索主がほしいと思っているものをベースにしてページをランクづける。検索エンジンのランキングアルゴリズムは検索ワードのタイトルに表示されているかをチャックしてその隣同士に全ての単語が並んでいるのかどうかをチェックしたりあるいはどのページを検索主が見たがっていてどれを見たがっていないのかを決められるような他の計算をしたり、数字を求めたりする。Googleはもっとも有名なアルゴリズムを開発したが、それはどのくらい他のウェブページがそのページにリンクされているかを考慮することで一番関連のある検索結果を選ぶ。アイディアとしては多くのウェブサイトがそのウェブサイトを面白いものだと思っているのであればそれはもしかすると検索主が探しているものである可能性が高い。「ページランク」と呼ばれるこのアルゴリズムはウェブをランク付けするからではなく、これを発明したGoogleの設立者の一人でもあるラリー・ページに由来している。大体の場合、訪問されることでウェブサイトはお金を稼ぐことができるので、スパムの発言者はどうやって検索アルゴリズムを操作できるのか定期的にその方法を探っている。このことによって検索結果でより高い位置にリストされることが可能にある。検索エンジンは定期的にアルゴリズムを更新することで結果の上部に信憑性のないサイトやフェイクサイトが来ないようにしている。しかし、最近ではこれらのページに信憑性がないかどうかはウェブサイトをみて信頼できるソースであるのかどうかを決めるのは検索主、自分自身である。検索プログラムは、アルゴリズムを改善するために常に進化し続けている。そうすることで、他の競合社よりも素早くより良い結果をもたらすことができる。今日の検索エンジンは、検索を絞り込むのに明確に提示していないような情報さえも使用することができる。そのため「ドッグ・パーク」と検索した際、多くの検索エンジンでは、自身の位置情報を入力しなくても検索主の近くにある全てのドッグ・パークを検索結果して表示する。現代の検索エンジンは、ページにある単語以上のことを理解できるようになっているが、それは検索主が探しているものに対して最適な結果を提示するためのものである。単語をより理解するためにもマシンラーニングというAIの一種のものを使っている。これにより検索アルゴリズムがページ内の単語や個別の文字だけでなく、単語の基本的な意味を理解して検索をかけることができる。インターネットは指標関数的に成長しているが、検索エンジンをデザインするチームが的確な仕事を行うことで検索主が知りたい情報が常に一番にあがってくるようにすることができる。

0 件のコメント:

コメントを投稿

Season2 :NOTE

Season2 では私の学びについて紹介しました。 孤食、ジェンダー、精神の自由は現代問題の大きな核です。 孤食は具体的な解決策が良い方向につながる可能性があるかもしれませんが、ジェンダーなどの心情に関わる諸問題ななかなか具体的な策はありません。 そのため、それぞれがそれぞれを認...